AI 개념/컴퓨터비전

컴퓨터 비전에는 어떤 Task가 있을까?

AIstarter 2025. 3. 21. 14:23

인공지능 분야

인공지능 분야 안에도 머신러닝, 딥러닝뿐만 아니라
자연어처리, 음성인식, 로보틱스, 컴퓨터 비전 등 다양한 분야가 있습니다. 

머신러닝과 딥러닝은 이미 아실 것이라는 가정 하에 다른 분야들을 매우 간결하게 이해하자면,
자연어처리는 말 그대로 자연어(텍스트)를 처리하는 Task들을 수행하는 기법이고,
컴퓨터 비전은 Vision이라는 말대로, 시각적으로 보이는 것을 다루는 영역입니다.

요즘은 멀티모달이라고, 다양한 데이터셋을 합쳐서 Task를 수행하기도 합니다.
예를 들면, 이미지를 주고 텍스트로 이미지에 대해 요약해달라고도 하고, 텍스트로 이미지를 생성해달라고도 하면 해줍니다. 저희에게 밀접하게 느껴지는 ChatGPT가 그런 역할을 요즘 해주고 있죠. 
멀티모달은 현재 핫한 연구 분야입니다.
하지만, 본 포스팅에서 먼저 다루고자 하는 내용은  "순수 컴퓨터비전" 분야입니다.
그래서 컴퓨터 비전이 시각적인 '이미지와 영상' 데이터셋들을 주로 사용하는 것은 알겠는데,
그래서 이 이미지와 영상으로 무엇을 할까요??

(목차) 컴퓨터 비전 Task 

이어서 다음과 같은 Task에 대해 간단하게 좀 더 다뤄보도록 하겠습니다.
1. 이미지 분류 (Image Classification) 
2. 위치 지정과 함께 하는 이미지 분류 (Image Classification with Localization)
3. 객체 검출 (Object Detection)
4. 객체 분할 (Object Segmentation)
5. 이미지 스타일 전환 (Image Style Transfer)
6. 이미지 색상화 (Image Colorization)
7. 이미지 복원 (Image Reconstruction)
8. 이미지 초해상도 (Image Super-Resolution)
9. 이미지 합성 (Image Synthesis)

컴퓨터 비전 주요 Task 정리

컴퓨터 비전은 이미지와 영상 데이터를 활용하여 다양한 작업을 수행하는 분야입니다
아래는 주요 컴퓨터 비전 Task와 그 개념을 간단히 정리한 내용입니다.

1. 이미지 분류 (Image Classification)

  • 주어진 이미지가 특정 클래스(카테고리)에 속하는지를 예측하는 작업입니다.
  • 예: 고양이와 강아지를 구별하는 모델.

  • [유명 데이터셋: Cifar-10] 이미지 분류 데이터셋으로, 분류 카테고리가 10개입니다. 

2. 위치 지정과 함께 하는 이미지 분류 (Image Classification with Localization)

  • 이미지 내에서 객체의 위치를 표시하는 바운딩 박스(Bounding Box)와 함께 분류를 수행하는 작업입니다.
  • 예: 사진 속에서 자동차를 찾아 위치를 표시하고, 자동차임을 분류.

3. 객체 검출 (Object Detection)

  • 이미지 속에서 여러 객체를 찾아 바운딩 박스로 표시하고, 각 객체의 클래스를 예측하는 작업입니다.
  • 예: 교통 카메라에서 차량과 보행자를 인식하는 모델.

4. 객체 분할 (Object Segmentation)

  • 이미지 속 객체의 픽셀 단위 경계를 정확하게 구별하는 작업입니다.
  • 예: 의료 영상에서 종양의 영역을 검출하는 모델.

5. 이미지 스타일 전환 (Image Style Transfer)

  • 한 이미지의 스타일을 다른 이미지에 적용하는 작업입니다.
  • 예: 유명 화가의 그림 스타일을 사진에 적용하는 모델.

6. 이미지 색상화 (Image Colorization)

  • 흑백 이미지를 컬러 이미지로 변환하는 작업입니다.
  • 예: 흑백 영화나 사진을 자동으로 색칠하는 모델.

7. 이미지 복원 (Image Reconstruction)

  • 손상되거나 일부가 가려진 이미지를 복원하는 작업입니다.
  • 예: 낡은 사진에서 노이즈를 제거하고 원래 모습을 복구하는 모델.

8. 이미지 초해상도 (Image Super-Resolution)

  • 저해상도 이미지를 고해상도로 변환하는 작업입니다.
  • 예: 저화질 영상을 고화질로 변환하는 모델.

9. 이미지 합성 (Image Synthesis)

  • 새로운 이미지를 생성하는 작업으로, 주로 생성 모델(예: GAN, VAE)을 활용합니다.
  • 예: 인공지능이 완전히 새로운 얼굴을 생성하는 모델.

 
지금까지 총 9가지의 순수 컴퓨터비전 Task를 다뤄봤습니다.
위의 예시에서 보여드림 2D이미지뿐만 아니라, 3D에 대해서도 다음 Task둘이 현재 수행되고 있습니다.
또한, 해당 포스팅에서는 안다뤘지만 Multimodal Learning, Video Tracking 등 많은 Task들이 더 존재하며, 계속하여 발전하고 있습니다. 
여기까지 포스팅 마치도록 하겠습니다.
다들 좋은 하루 되세요:)