오디오와 비디오의 동기화

Audio-to-video synchronization

오디오와 비디오의 동기화(AV 동기, 립싱크라고도 불립니다.립싱크 에러, 립플랩)는, 작성, 포스트 프로덕션(믹스), 송신, 수신, 및 재생 처리중의 오디오(음성)와 비디오(이미지) 부분의 상대 타이밍을 가리킵니다.텔레비전, 화상 회의, 또는 필름에서는, AV동기가 문제가 되는 일이 있습니다.

업계 용어에서 립싱크 오류는 오디오가 비디오와의 완벽한 동기에서 벗어나는 시간으로 표현됩니다.양수 시간 번호는 오디오가 비디오를 리드하고 음수는 오디오가 [1]비디오를 지연시키는 것을 나타냅니다.이 용어와 수치 립싱크 에러의 표준화는, 프로패셔널한 다양한 논문, ITU-R BT.1359-1등의 표준,[2] 및 이하의 참조에 의해서 증명되고 있듯이, 프로패셔널 방송 업계에서 사용되고 있습니다.

디지털 또는 아날로그 오디오비디오 스트림 또는 비디오 파일에는 보통 비디오 및 오디오데이터의 인터리브 형식 또는 데이터의 명시적인 상대 타임스탬프 형식으로 일종의 동기화 메커니즘이 포함되어 있습니다.데이터 처리는 수신된 데이터 간 또는 보간 등과 같이 상대적인 데이터 타이밍을 존중해야 한다.처리가 AV 동기 에러를 존중하지 않는 경우, 송신 에러나 처리의 누락이나 미스 때문에 데이터가 손실될 때마다, AV 동기 에러는 증가합니다.

잘못 동기화됨

AV-sync 가 올바르게 동기화되는 방법은 다음과 같습니다.

  • 작성중에, 다음의 이유로 AV동기 에러가 발생합니다.
    • 내부 AV 동기 에러:비디오 카메라와 마이크이미지와 음성의 신호 처리 지연이 다릅니다.AV 동기 지연은, 통상은 고정되어 있습니다.
    • 외부 AV 동기 에러:마이크를 음원에서 멀리 떨어뜨리면, 음속빛의 속도보다 훨씬 낮기 때문에, 음성이 동기화되지 않게 됩니다.음원이 마이크로부터 340m 떨어져 있는 경우, 소리는 빛보다 약 1초 늦게 도착합니다.AV 동기 지연은 거리에 따라 증가합니다.
  • 일반적으로 비디오 클립을 혼합하는 동안 오디오 또는 비디오가 동기화되도록 지연되어야 합니다.AV 동기 지연은 정적이지만 개별 클립에 따라 다를 수 있습니다.
  • 비디오 편집 효과

송신(브로드캐스트), 수신, 재생으로, AV-sync 가 올바르게 동기화되지 않는 예를 다음에 나타냅니다.

  • 마이크나 라인 입력이 내장된 비디오카메라는, 같은 시간(밀리초)으로 사운드 및 비디오 패스를 지연시킬 수 없습니다.비디오 카메라는 비디오 및 오디오 스트림에 AV 동기 타이밍을 명시해야 합니다.솔리드 스테이트 비디오 카메라(예를 들면, 전하 결합 디바이스(CCD)나 CMOS 이미지 센서)는, 비디오 신호를 1 프레임 이상 지연시킬 수 있습니다.
  • AV 스트림은, 전송중에 전기적 결함(유선)이나 무선 중단에 의해서 파손될 가능성이 있습니다.이 때문에, 동기 불량의 원인이 되는 경우가 있습니다.AV 동기 지연은, 통상은 시간에 따라서 증가합니다.
  • 텔레비전 시스템에서는 오디오 및 비디오 신호 처리 회로가 광범위하게 사용되고 있으며, 상당한 지연(대부분 일정하지 않음)이 발생하고 있습니다.널리 사용되고 비디오 지연이 현저한 특정 비디오 신호 처리 회로에는 프레임 싱크로나이저, 디지털 비디오 이펙트 프로세서, 비디오 노이즈 저감, 포맷 변환기 및 압축 시스템이 포함됩니다.
  • 비디오 모니터 처리 회로는 비디오 스트림을 지연시킬 수 있습니다.픽셀화 된 디스플레이에는 비디오 포맷 변환과 디인터레이스 처리가 필요하며, 이를 통해 1개 이상의 비디오 지연 프레임이 추가될 수 있습니다.
  • 스피커 또는 라인 아웃이 내장된 비디오 모니터에서는, 사운드 및 비디오 패스의 지연이 같은 밀리초 이내가 되지 않는 경우가 있습니다.일부 비디오 모니터에는 사용자가 조정할 수 있는 오디오 지연이 내장되어 있어 오류 수정에 도움이 됩니다.
  • RTP와 같은 일부 전송 프로토콜에는 미디어 스트림을 동기화하기 위한 대역 외 방법이 필요합니다.RTP의 경우 각 미디어 스트림에는 독립된 클럭환율과 스트림별 랜덤화 시작값을 사용하는 독자적인 타임스탬프가 있습니다.스트림을 [3]동기화하려면 각 스트림에 대해 RTCP Sender Report(SR; 송신자 보고서)가 필요합니다.필요한 RTCP 패킷이 손실되거나(RTP/RTCP가 전달을 보증하지 않기 때문에), 스트림이 시작된 후 최소 몇 초 후에 송신되지 않을 수 있습니다.많은 소프트웨어 클라이언트가 RTCP를 전혀 송신하지 않거나 비준수 데이터를 [citation needed]송신하지 않습니다.

명시적 AV 동기 타이밍이 없는 경우의 영향

디지털 또는 아날로그 오디오 비디오스트림에 명시적인 AV 동기 타이밍이 설정되어 있지 않은 경우, 이러한 영향으로 스트림이 동기화되지 않게 됩니다.

  • 필름에서 이러한 타이밍 오류는 필름에 찢어진 스프로켓 구멍이 있기 때문에 마모된 필름이 영화 프로젝터 스프로켓 위를 건너뛰는 것이 가장 일반적입니다.
  • 프로젝터가 프로젝터의 필름을 잘못 읽고 있는 경우에도 오류가 발생할 수 있습니다.다만, 유능한 프로젝터에게는 드문 일입니다.
  • AV-sync는 일반적으로 오디오 싱크로나이저를 사용하여 수정 및 유지됩니다.텔레비전 업계 표준 기관에서는 오디오 및 비디오 타이밍 오류 허용량을 설정하고 허용 가능한 [4][1]타이밍 유지와 관련된 권장 사례를 제시했습니다.
  • AV 동기 에러는, 텔레비전 제작, 텔레비전 방송, 및 LCD, DLP, 플라즈마 디스플레이등픽셀화된 텔레비전 디스플레이에 대량의 비디오 신호 처리를 사용하고 있기 때문에, 디지털 텔레비전 업계에서 큰 문제가 되고 있습니다.
  • 텔레비전 분야에서 오디오 비디오 동기 문제는 일반적으로 텔레비전 프로그램의 비디오 부분에서 상당한 양의 비디오 처리가 수행될 때 발생합니다.
  • 텔레비전 분야에서 현저한 비디오 지연의 원인으로는 비디오 동기, 비디오 압축 인코더 및 디코더 등이 있습니다.특히 귀찮은 인코더와 디코더는 디지털 TV를 방송하거나 소비자 및 프로페셔널 녹화 재생 장치에 TV 프로그램을 저장하기 위해 사용되는 MPEG 압축 시스템에서 사용됩니다.
  • 착신 비디오 신호의 해상도를 화소화된 디스플레이의 네이티브 해상도로 변환하기 위해 복잡한 비디오 신호 처리를 이용하는 화소화된 텔레비전 디스플레이(LCD, DLP 및 플라즈마)에서는, 예를 들면, 고화질 디스플레이에 표시되는 표준 화질 비디오를 변환하는 큰 비디오 지연의 원인을 찾을 수 있다."립 플랩"은 때때로 200밀리초를 초과할 수 있습니다.
  • 브로드캐스트TV에서는 립싱크 에러가 100밀리초(몇 개의 비디오 프레임) 이상 차이가 나는 것은 드문 일이 아닙니다.
  • EBU 권고 R37 "텔레비전 신호의 사운드 및 비전 컴포넌트의 상대 타이밍"은 엔드 투 엔드의 오디오/비디오 동기화가 +40ms 및 -60ms(각각 비디오 전후의 오디오) 이내여야 하며 각 스테이지가 +5ms [5]및 -15ms 이내여야 한다고 명시되어 있습니다.

잘못 동기화된 AV-sync 뷰어

그 결과는 일반적으로 촬영되거나 TV에 방영된 캐릭터가 함께 대화할 수 없을 때 입을 움직이게 하고, 따라서 "립 플랩" 또는 "립싱크 오류"라는 용어를 사용한다.결과적으로 발생하는 오디오 비디오 동기화 오류는 시청자에게 불쾌감을 줄 수 있으며 시청자가 프로그램을 즐기지 못하거나 프로그램의 효과를 떨어뜨리거나 [6]시청자의 스피커에 대한 부정적인 인식을 초래할 수 있습니다.제품 광고 및 정치 후보자들에게는 효과의 잠재적 상실이 특히 우려되는 사항입니다.Advanced Television Systems Committee와 같은 텔레비전 업계 표준 조직은 오디오 비디오 동기 [4]오류에 대한 표준을 설정하는 데 관여하게 되었습니다.

이러한 불편함 때문에, AV동기 에러는 텔레비전 방송국, 네트워크, 광고주, 프로그램 제작 회사를 포함한 텔레비전 프로그래밍 업계의 우려 사항입니다.안타깝게도 오디오보다 비디오를 더 많이 지연시킬 수 있는 고화질 평면 디스플레이 기술(LCD, DLP 및 플라즈마)의 등장으로 인해 이 문제는 시청자의 가정으로 옮겨졌고 텔레비전 프로그래밍 업계만으로는 통제할 수 없게 되었습니다.소비자 제품 업체들은 현재 TV 및 A/V 수신기의 비디오 지연 변화를 보상하기 위해 오디오 지연 조정을 제공하고 있으며, 몇몇 업체들은 립싱크 오류 수정 전용 디지털 오디오 지연을 제조하고 있습니다.

추천 사항

텔레비전 애플리케이션의 경우, Advanced Television Systems Committee(고급 텔레비전 시스템 위원회)는 오디오가 비디오를 15밀리초 이하,[4] 오디오가 비디오의 지연을 45밀리초 이하로 하는 것을 권장하고 있습니다.그러나 ITU는 전문 시청자를 대상으로 엄격하게 통제된 테스트를 수행했으며 검출 가능성의 임계값은 -125ms에서 +45ms입니다.[1]필름의 경우 허용되는 립싱크는 어느 [5][7]방향으로도 22밀리초를 넘지 않는 것으로 간주됩니다.

소비자가전협회는 디지털 텔레비전 수상기가 어떻게 A/V [8]동기화를 구현해야 하는지에 대한 일련의 권고안을 발표했다.

SMPTE ST2064

2015년에 [9]발표된 SMPTE 표준 ST2064는 디지털 TV에서 립싱크 오류를 줄이거나 제거하는 기술을 제공합니다.이 표준은 텔레비전 프로그램에서 가져온 오디오와 비디오 지문을 이용한다.지문을 복구하여 누적된 립싱크 오류를 수정하는 데 사용할 수 있습니다.TV 프로그램에 지문이 생성되고 필요한 기술이 통합되면 시청자의 디스플레이 장치는 지속적으로 립싱크 [10][11]오류를 측정하고 수정할 수 있습니다.

타임스탬프

프레젠테이션타임 스탬프(PTS)는, MPEG 트랜스포트 스트림에 짜넣어져 있어, AV동기 에러를 회피하기 위해서, 각 오디오 및 비디오 세그먼트가 언제 표시되는지를 정확하게 통지합니다.다만, 이러한 타임스탬프는, 비디오의 프레임 동기, 포맷 변환, 및 전처리를 실시한 후에 추가되는 경우가 많기 때문에, 이러한 조작에 의해서 발생하는 립 동기 에러는,[12][13][14][15] 타임스탬프의 추가와 사용으로 수정되지 않습니다.

Real-time Transport Protocol은 임의의 타임라인에서 발신 타임스탬프를 사용하여 미디어를 클럭합니다.미디어를 동기화하기 위해 Network Time Protocol에 의해 전달되어 미디어와 관련된 Session[16] Description Protocol에 기술된 것과 같은 실시간 클럭을 사용할 수 있다.그런 다음 서버를 사용하여 최종 동기화를 수행하여 잔여 [17]오프셋을 제거할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c "ITU-R BT.1359-1, Relative Timing of Sound and Vision for Broadcasting" (PDF). ITU. 1998. Retrieved 30 May 2015.
  2. ^ Patrick Waddell; Graham Jones; Adam Goldberg. "Audio/Video Standards and Solutions A Status Report" (PDF). ATSC. Archived from the original (PDF) on 17 February 2016. Retrieved 4 April 2012.
  3. ^ RFC 3550
  4. ^ a b c IS-191: Relative Timing of Sound and Vision for Broadcast Operations, ATSC, 2003-06-26, archived from the original on 2012-03-21
  5. ^ a b "The relative timing of the sound and vision components of a television signal" (PDF).
  6. ^ Byron Reeves; David Voelker (October 1993). "Effects of Audio-Video Asynchrony on Viewer's Memory, Evaluation of Content and Detection Ability" (PDF). Archived from the original (PDF) on 2 October 2008. Retrieved 2008-10-19.
  7. ^ Sara Kudrle; et al. (July 2011). "Fingerprinting for Solving A/V Synchronization Issues within Broadcast Environments". Motion Imaging Journal. SMPTE. Appropriate A/V sync limits have been established and the range that is considered acceptable for film is +/- 22 ms. The range for video, according to the ATSC, is up to 15 ms lead time and about 45 ms lag time
  8. ^ Consumer Electronics Association. "CEA-CEB20 R-2013: A/V Synchronization Processing Recommended Practice". Archived from the original on 2015-05-30.
  9. ^ ST 2064:2015 - SMPTE Standard - Audio to Video Synchronization Measurement, SMPTE, 2015
  10. ^ SMPTE Standards Update: The Lip-Sync Challenge, SMPTE, 10 December 2013, archived from the original on 2021-12-15
  11. ^ SMPTE Standards Update: The Lip-Sync Challenge (PDF), SMPTE, 10 December 2013, archived from the original (PDF) on 2016-08-26, retrieved 2016-06-09
  12. ^ "MPEG-2 Systems FAQ: 19. Where are the PTSs and DTSs inserted?". Archived from the original on 2008-07-26. Retrieved 2007-12-27.
  13. ^ Arpi (7 May 2003). "MPlayer-G2-dev: mpeg container's timing (PTS values)".
  14. ^ "birds-eye.net: DTS - Decode Time Stamp".
  15. ^ "SVCD2DVD: Author and burn DVDs: AVI to DVD, DivX to DVD, Xvid to DVD, MPEG to DVD, SVCD to DVD, VCD to DVD, PAL to NTSC conversion, HDTV2DVD, HDTV to DVD, BLURAY". www.svcd2dvd.com.
  16. ^ RFC 7273
  17. ^ RFC 7272

추가 정보