컴퓨터 비전의 역사
- 시각은 인간의 지능 중 가장 큰 감각 시스템
- 카메라 옵스큐라 -핀홀 카메라 이론에 기초한 카메라
- 시각 처리 관점에서 인간의 두뇌와 다소 유사한 고양이 두뇌를 관찰
시각적 처리가 방향이 지정된 가장자리에서 시작하고 정보가 시각적 처리 경로를 따라
이동함에 따라 뇌가 시각적 정보의 복잡성을 축적
Block world
Larry Roberts, 1963
시각적 세계를 기하학적 모양으로 단순화하고 이를 인식할 수 있도록 하는 것이 목표인 컴퓨터 비전의
최조 논문 중 하나
David Marr (1960년대)
자신이 생각하는 비전이 무엇이며 컴퓨터 비전에 대해 어떻게 생각하고
컴퓨터가 시각적 세계를 인식할 수 있도록 하는 알고리즘을 개발해야 하는지에 대한
영향력 있는 책 저술
시각 정보 분해 과정 (1960년대)
- 원시 스케치 : 대부분의 가장자리, 막대, 끝, 가상선, 곡선, 경계가 표현되는 곳
- 2.5d 스케치 : 표면, 깊이 정보, 레이어 또는 시각적 장면의 불연속성을 함께 조각하기 시작되는 곳
- 3D 모델 : 모든 것을 결합하고 표면 및 체적 프리미티브 등의 측면에서 계층적으로 구성된 3D 모델
단순한 블록세계를 너머서 실제 세계의 물체를 인식하거나 표현하는 방법 (1970년대)
- 일반화된 실린더 (Generalized Cylinder)
- 그림 구조 (Pictorial Structure)
기본 아이디어는 모든 객체가 단순한 기하학적 기본 요소로 구성되는 것
대상의 복잡한 구조를 보다 단순한 모양의 모음으로 축소하는 방법
David Lowe (1980년대)
단순한 세계 구조에서 시각적 세계를 재구성하거나 인식하는 방법을 생각하는 또다른 예
선과 가장자리 그리고 대부분 직선과 그 조합을 구성하여 면도기를 인식
기능 기반 객체 인식 - SIFT 기능
아이디어는 카메라 각도, 폐색, 시점, 조명 및 고유한 변화로 인해 모든 종류의 변화가 있을 수 있기 떄문에
인식 어려움
하지만 일부 기능은 진단을 유지하고 변경 사항에 대해 변하지 않는 경향이 있으므로
개체 인식 작업은 개체에서 이러한 중요한 기능을 식별
Spatial Pyramid Matching 알고리즘
아이디어는 풍경이나 부엌 또는 고속도로 등 어떤 유형의 장면인지에 대한 단서를 제공할 수 있는 이미지의 특징이
있다는 것
2000년대 초반의 결과 중 하나는 컴퓨터 비전 분야가 해결해야 할 매우 중요한 빌딩 블록 문제를 정의
객체인식이라는 중요한 문제
2000년대 초반에 객체 인식의 진행 상황을 측정할 수 있는 벤치마크 데이터 세트를 갖기 시작
가장 영향력 있는 벤치마크 데이터 세트 중 하나는 PASCAL Visual Object Challenge 라고 하며
20개의 객체 클래스로 구성된 데이터 세트
-> 기차, 비행기, 사람 3개가 표시됨 데이터 세트는 카테고리 당 수천_ 수만개의 이미지로 구성됨
다른 그룹은 테스트 세트에 대해 테스트하고 진행상황을 확인하는 알고리즘을 개발
물체를 감지하는 성능은 꾸준히 증가함
세상의 모든 사물 또는 대부분의 사물을 인식할 준비가 되어있냐는 질문
대부분 의 머신 러닝 알고리즘은 그래픽 모델이든 지원 벡터 머신이든 AdaBoost이든 상관없이
훈련 프로세스 및 일부에서 과적합될 가능성이 매우 높다는 머신 러닝에 기반을 둔 관찰에 의해 동기가 부여됨
문제는 시각적 데이터가 매우 복잡
우리 모델은 고차원의 입력을 갖는 경향이있고 적용할 매개변수가 많이 있어야 하고 훈련 데이터가
충분하지 않을 때 과적합이 매우 빠르게 발생하고 일반화할 수 없게ㄷ됨
ImageNet
과적합이라는 병목 현상을 극복하기 위해 ImageNet이라는 프로젝트 시작
찾을 수 있는 모든 사진, 즉 사물의세계 중에서 가능한 가장 큰 데이터 세트를 모아
훈련과 벤치마킹에 사용하고 싶었음
-> 수만 개의 객체 클래스인 Wordnet이라는 사전에 의해 정리된 인터넷에서 수십억개의
이미지를 다운로드 하는 것으로 시작함
그 다음 Amazon Mechanical Turk 플랫폼을 사용하여 정렬, 정리 , 레이블지정을 위해 영리한 군중
엔지니얼이 트럭을 사용
각각의 이미지 최종 결과는 거의 1500만 또는 4000만개 이상의 이미지가 22000개의
개체 및 장면 범주로 구성된 ImageNet이며 당시 AI 분야에서 생산된 거대하고 가장 큰 데이터 세트
객체 인식의 알고리즘 개발을 다른 단계로 진행함
중요한 것은 진행 상황을 벤치마킹하는 방법
-> ImageNet Large-scale Visual Recognition Challenge라는 국제 과제를 시작
컴퓨터 비전 알고리즘에 대한 이미지 분류 인식 결과를 테스트
이 ImageNet 챌린지에서 우승한 당시의 다른 모든 알고리즘을 능가한 컨볼루션 신경망 모델(CNN)
이번 분기 전체 과정의 초점
컨볼루션 신경망 모델이 무엇인지, 이에 대한 또 다른 이름은 딥 러닝
출처:https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
'영상처리 > 딥러닝' 카테고리의 다른 글
[CycleGAN논문 리뷰] Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks (0) | 2022.07.12 |
---|---|
SRGAN (0) | 2022.07.08 |
CycleGAN (0) | 2022.07.08 |
GAN (0) | 2022.07.06 |
CS231n Lecture 2 | Image Classification (0) | 2022.06.06 |