움직임 추정

Motion estimation
이미지의 z 평면으로의 이동과 오른쪽 하단의 횡방향 이동으로 인한 움직임 벡터.MPEG 무비를 압축하기 위해 수행되는 모션 추정의 시각화입니다.

움직임 추정은 한 2D 이미지에서 다른 2D 이미지로의 변환을 설명하는 움직임 벡터를 결정하는 과정입니다. 보통 비디오 시퀀스의 인접 프레임에서 이루어집니다.모션이 3차원으로 되어 있기 때문에 위치가 잘못된 문제이지만, 이미지는 3D 장면을 2D 평면에 투영한 것입니다.움직임 벡터는 전체 영상(글로벌 움직임 추정) 또는 직사각형 블록, 임의 모양 패치 또는 픽셀 단위와 같은 특정 부품과 관련될 수 있습니다.움직임 벡터는 실제 비디오 카메라의 움직임(예: 3차원에서의 회전과 변환 및 줌)에 근사할 수 있는 번역 모델 또는 다른 많은 모델로 나타낼 수 있습니다.

관련 용어

운동 추정이라는 용어와 광학 흐름이라는 용어가 번갈아 사용되는 경우가 많습니다.[citation needed]또한 이미지 등록 스테레오 [1]대응과 개념적으로도 관련이 있습니다.실제로 이 모든 용어는 두 이미지 또는 비디오 프레임 사이에서 대응하는 포인트를 찾는 과정을 의미합니다.실제 씬(scene) 또는 객체의 두 뷰(이미지 또는 프레임)에서 서로 대응하는 점은 "일반적으로" 해당 씬(scene) 또는 해당 객체의 동일한 점입니다.모션 추정을 수행하기 전에 대응 측정, 즉 일치 메트릭을 정의해야 합니다. 일치 메트릭은 두 이미지 포인트가 얼마나 유사한지 측정하는 것입니다.여기에는 옳고 그름은 없다. 일치 메트릭의 선택은 일반적으로 추정 과정의 최적화 전략뿐만 아니라 최종 추정 움직임이 무엇에 사용되는지와 관련이 있다.

각 움직임 벡터는 참조 픽처라고 불리는 다른 픽처에서의 이 매크로 블록(또는 유사한 것)의 위치에 근거하여 픽처 내의 매크로 블록을 나타내기 위해 사용됩니다.

H.264/MPEG-4 AVC 표준은 움직임 벡터를 다음과 같이 정의합니다.

움직임 벡터: 디코딩된 그림의 좌표에서 기준 [2][3]그림의 좌표까지의 오프셋을 제공하는 상호 예측에 사용되는 2차원 벡터.

알고리즘

움직임 벡터를 찾는 방법은 픽셀 기반 방법("직접")과 피쳐 기반 방법("간접")으로 분류할 수 있습니다.한 유명한 토론에서 결론을 [4][5]도출하기 위해 반대파로부터 두 개의 논문이 생산되었다.

직접적 방법

간접적인 방법

간접 메서드에서는 코너 검출 의 기능을 사용하여 프레임 간에 대응하는 기능을 대조합니다.보통 로컬 또는 글로벌 영역에 적용되는 통계 기능을 사용합니다.통계 함수의 목적은 실제 움직임과 일치하지 않는 일치 항목을 제거하는 것입니다.

성공적으로 사용된 통계 함수로는 LANSAC이 있습니다.

분류에 대한 추가 참고 사항

거의 모든 방법이 일치 기준의 정의를 필요로 한다고 주장할 수 있다.차이점은 먼저 로컬 영상 영역에 대해 요약한 다음 요약(예: 피쳐 기반 방법)을 비교하는지 아니면 각 픽셀을 먼저 비교(예: 차이를 제곱)한 다음 로컬 영상 영역에 대해 요약하는지(블록 기본 모션 및 필터 기반 모션) 여부입니다.새로운 종류의 일치기준은 (라플라시안 변환과 같은 일부 특징 변환을 통해) 모든 픽셀 위치에 대해 먼저 로컬 이미지 영역을 요약하고, 각 요약된 픽셀을 비교하여 [6]로컬 이미지 영역에 대해 다시 요약한다.어떤 일치기준은 좋은 일치점수를 만들어 내더라도 실제로 서로 일치하지 않는 점수를 제외할 수 있는 능력이 있고, 다른 일치기준은 그렇지 않지만 여전히 일치기준이다.

적용들

모션 보간 기능이 있는 비디오 프레임

비디오 코딩

다음 영상으로의 변환을 합성하기 위해 영상에 움직임 벡터를 적용하는 것을 움직임 [7]보상이라고 합니다.코딩은 [8]블록 단위로 실행되기 때문에 Discrete Cosine Transform(DCT; 이산 코사인 변환) 기반의 비디오 코딩 표준에 가장 쉽게 적용됩니다.

시간적 용장성을 이용하는 방법으로서 움직임 추정과 보상은 비디오 압축의 중요한 부분입니다.거의 모든 비디오 코딩 표준은 최신 HEVC를 포함한 MPEG 시리즈와 같은 블록 기반 모션 추정 및 보상을 사용합니다.

3D 재구성

동시 위치 결정 및 매핑에서는, 움직이는 [9]카메라로부터의 영상을 사용해 씬의 3D 모델을 재구성한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ John X. Liu (2006). Computer Vision and Robotics. Nova Publishers. ISBN 978-1-59454-357-9.
  2. ^ H.264/MPEG-4 AVC Archived 2004-07-23의 최신 작업 초안.2008-02-29에 취득.
  3. ^ hhi.fraunhofer.de의 H.264/MPEG-4 AVC의 최신 작업 초안.[영구 데드링크]
  4. ^ 필립 H.Torr와 Andrew Zisserman:구조동작 추정을 위한 기능 기반 방법, 비전 알고리즘에 관한 ICCV 워크숍, 278-294, 1999 페이지
  5. ^ 미할 이라니와 P.Anandan: 직접 방법에 대하여, 비전 알고리즘에 관한 ICCV 워크숍, 267-277페이지, 1999.
  6. ^ Rui Xu, David Taubman & Aous Thabit Naman, '상호정보적응형 멀티스케일 임계값에 기초한 모션 추정', 이미지 처리, vol.25, no.3, 페이지 1095-1108, 2016년 3월.
  7. ^ Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). Motion Estimation Algorithms for Video Compression. Springer Science & Business Media. ISBN 978-1-4615-6241-2.
  8. ^ Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174.
  9. ^ Kerl, Christian, Yurgen Sturm, Daniel Cremers."RGB-D 카메라용 고밀도 비주얼 SLAM." 2013 IEEE/RSJ 인텔리전트 로봇 및 시스템 국제회의.IEEE, 2013.