객체 인식의 개요
Outline of object recognition
객체 인식 – 이미지 또는 비디오 시퀀스에서 객체를 검색하고 식별하는 컴퓨터 비전 분야의 기술입니다.비록 그 물체의 이미지가 다양한 시점, 다양한 크기와 축척, 또는 심지어 번역되거나 회전될 때 다소 다를 수 있음에도 불구하고, 인간은 거의 힘을 들이지 않고 이미지에서 다수의 물체를 인식한다.물체가 시야에 부분적으로 가려져 있을 때도 인식할 수 있습니다.이 작업은 여전히 컴퓨터 비전 시스템의 과제입니다.이 과제에 대한 많은 접근법이 수십 년에 걸쳐 구현되어 왔다.
CAD와 유사한 객체 모델을 기반으로 하는 접근법
부품별 인식
- 일반 실린더(Thomas Binford)
- Geons(Irving Biedman)
- 디킨슨, 포사이스, 폰세
외관 기반 방식
- 개체의 예제 이미지(템플릿 또는 예제)를 사용하여 인식 수행
- 오브젝트는 다양한 조건에서 다르게 보입니다.
- 조명 또는 색상의 변화
- 보기 방향의 변화
- 크기/형상의 변화
- 하나의 예가 신뢰성 있게 성공할 것 같지는 않다.그러나 물체의 모든 외관을 나타내는 것은 불가능하다.
엣지 매칭
- Canny 에지 감지와 같은 에지 감지 기술을 사용하여 가장자리를 찾습니다.
- 일반적으로 조명 및 색상의 변화는 이미지 가장자리에 큰 영향을 미치지 않습니다.
- 전략:
- 템플릿 및 이미지에서 가장자리 감지
- 가장자리 이미지를 비교하여 템플릿 찾기
- 가능한 템플릿 위치 범위를 고려해야 합니다.
- 측정:
- Good(양호) – 겹치는 에지 수를 셉니다.형상 변화에 강하지 않음
- 더 나은 – 검색 이미지에서 가장자리 거리를 두고 템플릿 가장자리 픽셀 수를 계산합니다.
- 최선 – 검색 이미지에서 가장 가까운 가장자리까지의 거리 분포(템플릿이 올바른 위치에 있는 경우)를 결정합니다.각 템플릿 위치 생성 이미지의 우도 추정
분할 및 정복 검색
- 전략:
- 모든 위치를 세트로 간주합니다(위치 공간의 셀).
- 셀에서 가장 좋은 위치에 있는 점수에 대한 하한 결정
- 바인딩이 너무 크면 셀 제거
- 바인딩이 너무 크지 않은 경우 셀을 서브셀로 나누고 각 서브셀을 재귀적으로 시도합니다.
- 셀이 "충분히 작다"면 프로세스가 정지한다.
- 다중 해상도 검색과 달리 이 기술은 조건을 충족하는 모든 일치 항목을 찾을 수 있습니다(하한이 정확하다고 가정함).
- 경계 검색:
- 베스트 스코어의 하한을 찾으려면 셀의 중앙으로 표시되는 템플릿 위치의 점수를 확인합니다.
- 셀의 다른 위치에 대한 "중앙" 위치에서 최대 변화량 빼기(셀 모서리에서 발생)
- 거리에 대한[citation needed] 경계를 결정할 때 복잡성이 발생한다.
그레이스케일 매칭
- 가장자리는 (대부분) 조명 변화에 강하지만 많은 정보를 낭비합니다.
- 픽셀 위치와 픽셀 강도의 함수로 픽셀 거리를 계산해야 합니다.
- 색상에도 적용 가능
그라데이션 매칭
- 많은 정보를 낭비하지 않고 조명의 변화에 강해지는 또 다른 방법은 이미지 구배를 비교하는 것입니다.
- 매칭은 그레이스케일 이미지를 매칭하는 것처럼 수행됩니다.
- 심플한 대체 수단:사용(정규화된) 상관 관계
수용적 현장 응답 히스토그램
- 명시적 점 대응 방지
- 수용적 필드 응답에 암시적으로 코드화된 다른 영상 지점 간의 관계
- 스와인과 발라드(1991년),[2] 쉴레와 크롤리(2000년),[3] 린데와 린데버그(2004년, 2012년)[4][5]
대형 모델 베이스
- 데이터베이스의 특정 이미지를 효율적으로 검색하여 템플릿의 고유 벡터(고유 인터페이스)를 사용하는 방법
- 모델베이스는 인식해야 하는 객체의 기하학적 모델 집합입니다.
기능 기반 방식
기능 검출 |
---|
에지 검출 |
코너 검출 |
블럽 검출 |
능선 검출 |
하프 변환 |
구조 텐서 |
아핀 불변 피쳐 검출 |
기능 설명 |
공간 축척 |
- 검색은 오브젝트피처와 이미지피처 간에 실현 가능한 일치를 찾기 위해 사용됩니다.
- 주요 제약사항은 개체의 단일 위치가 모든 가능한 일치를 고려해야 한다는 것입니다.
- 인식할 개체와 검색할 이미지에서 피쳐를 추출하는 메서드.
- 표면 반점
- 모서리
- 선형 에지
해석 트리
- 실현 가능한 일치를 검색하는 방법은 트리를 검색하는 것입니다.
- 트리의 각 노드는 일련의 일치 항목을 나타냅니다.
- 루트 노드가 빈 집합을 나타냅니다.
- 다른 각 노드는 부모 노드의 일치와1개의 추가 일치의 조합입니다.
- 와일드카드는 일치하지 않는 기능에 사용됩니다.
- 일치 세트를 실행할 수 없는 경우 노드가 "프루닝"됩니다.
- 제거된 노드에 하위 노드가 없습니다.
- 역사적으로 중요하며 여전히 사용되고 있지만, 흔하지는 않습니다.
가설 및 검정
- 일반적인 생각:
- 이미지 피쳐 집합과 객체 피쳐 집합 간의 대응 관계를 가정합니다.
- 그런 다음 이를 사용하여 객체 좌표 프레임에서 영상 프레임으로의 투영에 대한 가설을 생성합니다.
- 이 투영 가설을 사용하여 객체의 렌더링을 생성합니다.이 단계는 보통 백프로젝션이라고 합니다.
- 렌더링을 이미지와 비교하고, 두 가지가 충분히 유사한 경우 가설을 받아들입니다.
- 가설 획득:
- 가설을 생성하는 데는 다양한 방법이 있다.
- 카메라 고유의 파라미터를 알고 있는 경우, 가설은 물체에 대한 가상의 위치 및 방향(포즈)과 동일합니다.
- 기하학적 제약 조건 활용
- 이미지 포인트의 올바른 크기의 모든 하위 집합에 대한 작은 개체 피쳐 세트에 대한 대응 관계를 구성합니다.(가설은 다음과 같습니다)
- 3가지 기본 접근법:
- 포즈 일관성에 의한 가설 획득
- 포즈 클러스터링을 통한 가설 획득
- 불변량을 사용한 가설 획득
- 중복되지만 랜덤화 및/또는 그룹화를 사용하여 개선할 수 있는 비용 검색
- 랜덤화
- 결측 객체의 가능성이 작아질 때까지 작은 이미지 기능 세트 검사
- 각 영상 피쳐 세트에 대해 가능한 모든 일치 모델 피쳐 세트를 고려해야 합니다.
- 공식:
- ( 1 – Wc)k = Z
- W = "양호" 이미지 포인트의 비율(w ~ m/n)
- c = 필요한 대응 수
- k = 시행 횟수
- Z = 하나 이상의 잘못된 대응을 사용하는 모든 시행의 확률
- 그룹화
- 동일한 개체에서 올 가능성이 있는 점의 그룹을 결정할 수 있으면 조사해야 하는 가설의 수를 줄일 수 있습니다.
- 랜덤화
포즈 일관성
- 오브젝트가 이미지에 맞춰져 있기 때문에 Alignment라고도 불립니다.
- 이미지 특징과 모델 특징 간의 대응이 독립적이지 않음 – 기하학적 제약
- 소수의 대응이 오브젝트 위치를 산출합니다.다른 대응은 이와 일치해야 합니다.
- 일반적인 생각:
- 충분히 큰 이미지 특징 그룹과 충분히 큰 오브젝트 특징 그룹 간에 일치한다고 가정하면, 이 가설에서 누락된 카메라 파라미터를 복구할 수 있습니다(그래서 나머지 오브젝트를 렌더링합니다).
- 전략:
- 적은 수의 대응(예: 3D 인식을 위한 점의 세 배)을 사용하여 가설을 생성합니다.
- 다른 모델 피쳐를 이미지(백프로젝트)에 투영하여 추가 대응 여부를 확인합니다.
- 개별 객체 포즈 구현에 필요한 최소 대응 수 사용
포즈 클러스터링
- 일반적인 생각:
- 전략:
- 각 오브젝트에 대해 포즈 공간을 나타내는 어큐뮬레이터 어레이를 설정합니다.어큐뮬레이터 어레이의 각 요소는 포즈 공간의 "버킷"에 해당합니다.
- 그런 다음 각 이미지 프레임 그룹을 가져와서 모든 개체의 모든 프레임 그룹 사이에 대응 관계가 있다고 가정합니다.
- 이러한 각 대응에 대해 포즈 파라미터를 결정하고 포즈값으로 현재 객체에 대한 엔트리를 어큐뮬레이터 어레이에 작성합니다.
- 개체의 누적 배열에 많은 수의 투표가 있는 경우, 이는 해당 포즈에서 해당 개체가 존재한다는 증거로 해석될 수 있습니다.
- 검증 방법을 사용하여 증거를 확인할 수 있습니다.
- 이 방법은 개별 대응이 아닌 대응 세트를 사용합니다.
- 각 세트는 가능한 개체 포즈의 수가 적기 때문에 구현이 더 쉽습니다.
- 개선.
- 이 방법의 소음 저항성은 투표가 명백히 신뢰할 수 없는 포즈에서 객체에 대한 투표를 세지 않음으로써 개선될 수 있다.
- § 예를 들어 오브젝트가 그 포즈일 경우 오브젝트 프레임 그룹이 보이지 않게 됩니다.
- 이러한 개선은 작업 시스템을 생성하기에 충분합니다.
불변성
- 카메라 변환에 불변하는 기하학적 특성이 있습니다.
- 평면 객체 이미지용으로 가장 쉽게 개발되지만 다른 케이스에도 적용할 수 있습니다.
기하학적 해시
- 기하학적 불변량을 사용하여 객체 가설을 결정하는 알고리즘
- 포즈 클러스터링과 비슷하지만 포즈 대신 지오메트리에 투표합니다.
- 원래 기하학적 특징(평면 모델의 보정되지 않은 아핀 뷰)을 그러한 특징의 데이터베이스와 일치시키기 위해 개발된 기술
- 패턴 매칭, CAD/CAM 및 의료 이미징에 널리 사용됩니다.
- 버킷의 크기를 선택하기가 어렵습니다.
- "충분한"이 무슨 뜻인지 확신하기는 어렵다.따라서 테이블이 막힐 위험이 있습니다.
스케일 불변 기능 변환(SIFT)
- 오브젝트의 키포인트는 우선 참조 이미지 세트에서 추출되어 데이터베이스에 저장됩니다.
- 새로운 화상으로부터의 각 특징을 이 데이터베이스에 개별적으로 비교하고, 그 특징 벡터의 유클리드 거리에 근거해 후보 매칭 특징을 구함으로써, 새로운 화상에서 오브젝트를 인식한다.
- Lowe (2004)[6][7]
고속화 견고한 기능(SURF)
- 견고한 이미지 검출기 및 디스크립터
- 표준 버전은 SIFT보다 몇 배 더 빠르며 저자에 의해 SIFT보다 다른 이미지 변환에 더 강하다고 주장되었습니다.
- 대략적인 2D Haar 웨이브릿 응답의 합계를 바탕으로 적분 이미지를 효율적으로 사용.
- 베이 등(2008년)[8]
단어 표현 가방
유전 알고리즘
유전자 알고리즘은 주어진 데이터 세트에 대한 사전 지식 없이 작동할 수 있으며 사람의 개입 없이 인식 절차를 개발할 수 있다.최근 한 프로젝트는 Caltech의 모터바이크, 얼굴, 비행기 및 자동차 이미지 데이터 세트에 대해 100%, 어종 이미지 [9][10]데이터 세트에 대해 99.4%의 정확도를 달성했습니다.
기타 접근법
- 3D 객체 인식 및 재구성[11]
- 생물학적으로 영감을 받은 객체 인식
- 인공 뉴럴 네트워크 및 딥 러닝, 특히 컨볼루션 뉴럴 네트워크
- 맥락[12][13]
- 명시적이고 암묵적인 3D 객체 모델
- 고속 인덱싱[14]
- 글로벌 장면 표현[12]
- 그라데이션 히스토그램
- 확률적 문법[15]
- 클래스 내 전송 학습
- 이미지 검색에서 개체 분류
- 반사율[16]
- 쉐이딩으로부터의 쉐이핑[17]
- 템플릿 매칭
- 질감[18]
- 토픽 모델[13]
- 비지도 학습
- 윈도 기반 검출
- 변형 가능한 부품 모델
- 빙엄 분포[19]
적용들
객체 인식 방법에는 다음과 같은 응용 프로그램이 있습니다.
- 액티비[20]
- 자동 영상 주석[21][22]
- 자동 표적 인식
- Android Eyes - 객체 인식[23]
- 컴퓨터 지원 진단[24]
- 이미지[25] 파노라마
- 이미지 워터마크[26]
- 글로벌 로봇 현지화[27]
- 얼굴 검출[28]
- 광학 문자 인식[29]
- 제조품질관리[30]
- 콘텐츠 기반 이미지 검색[31]
- 오브젝트 카운트 및 감시[32]
- 자동 주차 시스템[33]
- 시각적 위치 결정 및 추적[34]
- 비디오 안정화[35]
- 보행자 감지
- 지능형 스피드 어시스트(차량 및 기타 차량 내)
조사
- 다니리데스와 에클룬드, 에델만.
- Roth, Peter M. & Winter, Martin (2008). "SURVEYOFAPPEARANCE-BASED METHODS FOR OBJECT RECOGNITION" (PDF). Technical Report. ICG-TR-01/08.
「 」를 참조해 주세요.
- 방향 그라데이션 히스토그램
- 컨볼루션 뉴럴 네트워크
- OpenCV
- 스케일 불변 기능 변환(SIFT)
- 오브젝트 검출
- 스케일 불변 피쳐 변환 및 관련 객체 인식 방법에 대한 Scholarpedia 기사
- 파도타기
- 템플릿 매칭
- 통합 채널 기능
- 리스트
메모들
- ^ Rahesh Mohan & Rakamant Nevatia (1992). "Perceptual organization for scene segmentation and description" (PDF). IEEE Trans Pat Anal Mach Intell.
- ^ M. J. 스와인과 D.H. Ballard "Color indexing", International Journal of Computer Vision, 7:1, 11-32, 1991.
- ^ B. 실과 J. L. 크롤리, "다차원 수용 필드 히스토그램을 사용한 대응 없는 인식", 국제 컴퓨터 비전 저널, 36:1, 31-50, 2000
- ^ O. Linde 및 T. Lindeberg "고차원 합성 수용 필드 히스토그램을 사용한 객체 인식", Proc.패턴인식에 관한 국제회의(ICPR'04), 영국 케임브리지 II: 1-6, 2004.
- ^ O. Linde 및 T. Lindeberg "복합 큐 히스토그램:수용 필드 기반의 객체 인식을 위한 이미지 기술자 정보 내용 조사", 컴퓨터 비전 및 이미지 이해, 116:4, 538-560, 2012.
- ^ Lowe, D. G., "스케일 불변 키포인트의 구별 이미지 특징", International Journal of Computer Vision, 60, 2, 페이지 91-110, 2004.
- ^ Lindeberg, Tony (2012). "Scale invariant feature transform". Scholarpedia. 7 (5): 10491. Bibcode:2012SchpJ...710491L. doi:10.4249/scholarpedia.10491.
- ^ Bay, Herbert; Ess, Andreas; Tuytelaars, Tinne; Van Gool, Luc (2008). "Speeded-Up Robust Features (SURF)". Computer Vision and Image Understanding. 110 (3): 346–359. CiteSeerX 10.1.1.205.738. doi:10.1016/j.cviu.2007.09.014. S2CID 14777911.
- ^ "New object recognition algorithm learns on the fly". Gizmag.com. 20 January 2014. Retrieved 2014-01-21.
- ^ Lillywhite, K.; Lee, D. J.; Tippetts, B.; Archibald, J. (2013). "A feature construction method for general object recognition". Pattern Recognition. 46 (12): 3300. Bibcode:2013PatRe..46.3300L. doi:10.1016/j.patcog.2013.06.002.
- ^ 브라운, 매튜, 데이비드 G. 로위."무감독 3D 객체 인식 및 순서 없는 데이터셋 재구성." 3-D Digital Imaging and Modeling, 2005. 3DIM 2005.제5회 국제회의 개최.IEEE, 2005.
- ^ a b 올리바, 오데, 안토니오 토랄바."객체 인식에서 문맥의 역할"인지과학 동향 11.12 (2007) : 520-527.
- ^ a b Niu, Zhenxing 등"장면 인식을 위한 컨텍스트 인식 주제 모델." 2012년 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스.IEEE, 2012.
- ^ 스타인, 프리트조프, 그리고 제라르 메디오니.「구조 인덱스: 효율적인 3D 객체 인식」IEEEE Transactions on Pattern Analysis & Machine Intelligence 2(1992) : 125-145.
- ^ Zhu, Song-Chun, 그리고 David Mumford."이미지의 확률적 문법"컴퓨터 그래픽스 및 비전 2.4(2007)의 기초 및 동향: 259-362.
- ^ 나야르, 쉬리 K, 루드 M.볼. "반사 기반 물체 인식"컴퓨터 비전 국제 저널 17.3(1996) : 219-240.
- ^ Worthington, Philip L., 그리고 Edwin R.핸콕.「쉐이핑으로부터 쉐이딩을 사용한 객체 인식」IEEEE Transactions on Pattern Analysis and Machine Intelligence 23.5(2001) : 535-542.
- ^ 쇼튼, 제이미 등"이미지 이해를 위한 Textonboost: 텍스처, 레이아웃 및 컨텍스트를 공동으로 모델링하여 멀티클래스 객체 인식 및 세분화"컴퓨터 비전 국제 저널 81.1 (2009) : 2-23.
- ^ "Better robot vision". KurzweilAI. Retrieved 2013-10-09.
- ^ 도나휴, 제프리 등"시각 인식 및 설명을 위한 장기 반복 컨볼루션 네트워크"컴퓨터 비전과 패턴 인식에 관한 IEEE 회의의 진행. 2015년.
- ^ 카르파시, 앙드레즈, 그리고 리페이페이."이미지 설명을 생성하기 위한 깊은 시각적 의미적 정렬"컴퓨터 비전과 패턴 인식에 관한 IEEE 회의의 진행. 2015년.
- ^ P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). "Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary". Proceedings of the European Conference on Computer Vision. pp. 97–112. Archived from the original on 2005-03-05.
- ^ "Android Eyes Computer Vision".Martha J. Farah "Visual Agnosia", Computer Vision Computing Cognitive Neuroscience, MIT Press, 2011-05-01, 760-781, ISSN 1468-4233 [1][dead link]
- ^ 에스테바, 안드레 등"심층 신경망을 가진 피부암에 대한 피부과학자 수준의 분류"네이처 542.7639 (2017): 115.
- ^ 브라운, M. 및 로위, "파노라마 인식", ICCV, 페이지 1218, 제9회 IEEE 컴퓨터 비전 국제회의(ICCV'03) - 제2권, 프랑스 니스, 2003
- ^ Li, L., Guo, B., 및 Shao, K., "척도 불변 형상 변환과 Zernike 모멘트를 이용한 기하학적으로 견고한 이미지 워터마크", 중국어 광학 서신, 제5권, 제6호, 페이지 332-335, 2007.
- ^ Se,S, Lowe, D.G. 및 Little, J.J. "모바일 로봇의 비전 기반 글로벌 현지화 및 매핑", IEEE Transactions on Robotics, 21, 3 (2005), 페이지 364-375.
- ^ 토마스 세레, 막시밀리안 리센허버, 제니퍼 루이, 토마소 포지오, "생물학적 시각에서 실제 세계 물체 인식을 위한 물체 고유의 특징의 역할에 대하여"매사추세츠공대, 생물학 및 컴퓨터 학습 센터, 맥거버설 뇌연구연구소, 캠브리지, 매사추세츠, 매사추세츠, 매사추세츠, 뇌 및 인지과학부
- ^ 앤 페르말로프와 칼 그라프턴, "광학적 성격 인식" 정치학 및 정치학, 제25권, 제3호 (1992년 3월), 페이지 523-531
- ^ Christian Demant, Bernd Streicher-Abel, Peter Waszkewitz, "산업 이미지 처리: 제조 시 시각적 품질 관리" Google Books 객체 인식 개요
- ^ Nuno Vasconcelos "혼합 계층에 의한 이미지 인덱싱" 2011년 1월 18일 Wayback Machine Compaq Computer Corporation, Proc.에서 아카이브.컴퓨터 비전과 패턴 인식에 관한 IEEE 컨퍼런스, 2001년 하와이 카우아이
- ^ Heikkilä, Janne; Silvén, Olli (2004). "A real-time system for monitoring of cyclists and pedestrians". Image and Vision Computing. 22 (7): 563–570. doi:10.1016/j.imavis.2003.09.010.
- ^ 신기정, 김동석, 팔주윤, 자이히 김, "반자동주차시스템용 구조분석 기반 주차구 표시인식" 구조, 구문, 통계 패턴인식, 스프링거 베를린/하이델베르크, 2006
- ^ S. K. 나야르, H. 무라세, S.A.Nene, "시각적 외관 학습, 위치 설정 및 추적" Pro.IEEE 국제 전화 번호의1994년 5월 샌디에이고 로보틱스 및 자동화 강의
- ^ Liu, F.; Gleicher, M.; Jin, H.; Agarwala, A. (2009). "Content-preserving warps for 3D video stabilization". ACM Transactions on Graphics. 28 (3): 1. CiteSeerX 10.1.1.678.3088. doi:10.1145/1531326.1531350.
레퍼런스
- Elgamal, Ahmed "CS 534: 컴퓨터 비전 3D 모델 기반 인식", Rutgers University 컴퓨터 과학부
- Hartley, Richard and Zisserman, Andrew "컴퓨터 비전의 다중 뷰 기하학", Cambridge Press, 2000, ISBN 0-521-62304-9.
- Roth, Peter M. and Winter, Martin "물체 인식을 위한 외관 기반 방법 조사", 기술 보고서 ICG-TR-01/08, Inst.2008년 1월 15일, 오스트리아 그라츠 공과대학 컴퓨터 그래픽스 및 비전 부문.
- Collins, Robert "강연 31: 객체 인식: SIFT 키", CSE486, 펜실베이니아 주
- IPRG 이미지 처리 - 온라인 오픈 리서치 그룹
- 크리스티안 체게디, 알렉산더 토셰프, 두미트루 에르한.물체 탐지를 위한 심층 뉴럴 네트워크.신경 정보 처리 시스템의 발전 26, 2013. 페이지 2553-2561.