샐러리먼트 맵
Saliency map
컴퓨터 비전에서는 선심지도가 사람들의 시선이 먼저 집중되는 지역을 부각시키는 이미지다.선심지도의 목표는 인간의 시각 시스템에 픽셀의 중요도를 반영하는 것이다.예를 들어, 이 이미지에서 사람은 먼저 요새와 가벼운 구름을 바라보기 때문에, 선심 지도에서 강조되어야 한다.인위적 또는 컴퓨터 시각으로 제작된 살선 지도는 일반적으로 생물학적 또는 자연적 시각에 의해 만들어진 실제 살선 지도와 같지 않다.
적용
개요
선심 지도는 다양한 문제에 응용이 가능하다.일부 일반 애플리케이션:
- 이미지 및 비디오 압축:사람의 눈은 액자에 있는 작은 관심 영역에만 초점을 맞춘다.따라서 전체 프레임을 균일한 품질로 압축할 필요는 없다.저자들에 따르면, 편의 지도를 사용하면 동일한 시각적 지각으로 동영상의 최종 크기를 줄일 수 있다고 한다.[1]
- 이미지 및 비디오 품질 평가:이미지 또는 비디오 품질 메트릭의 주요 업무는 사용자 의견과의 높은 상관관계다.두드러진 지역의 차이는 더 중요하기 때문에 품질 점수에 더 많은 기여를 한다.[2]
- 이미지 대상 변경:비정보 지역을 확대 또는 축소하여 이미지 크기를 조정하는 것을 목적으로 한다.따라서 리타겟팅 알고리즘은 모든 두드러진 이미지 디테일을 정확하게 추정하는 편법 지도의 가용성에 의존한다.[3]
- 개체 감지 및 인식:전체 이미지에 계산적으로 복잡한 알고리즘을 적용하는 대신, 우리는 개체를 포함할 가능성이 가장 높은 이미지의 가장 두드러진 영역에 알고리즘을 사용할 수 있다.[4]
세분화 문제로서의 편의성
편의성 평가는 이미지 세분화의 한 예로 볼 수 있다.컴퓨터 비전에서 이미지 분할은 디지털 이미지를 여러 세그먼트로 분할하는 과정이다(픽셀 집합, 슈퍼픽셀이라고도 한다).분할의 목표는 이미지의 표현을 보다 의미 있고 분석하기 쉬운 것으로 단순화하거나 변경하는 것이다.영상 분할은 일반적으로 영상에서 객체와 경계(선, 곡선 등)를 찾는 데 사용된다.보다 정확히 말하면, 영상 분할은 동일한 라벨을 가진 픽셀이 특정 특성을 공유하도록 영상의 모든 픽셀에 라벨을 할당하는 과정이다.[5]
알고리즘
개요
OpenCV에서 구현된 고전적 살선 추정 알고리즘에는 다음과 같은 세 가지 형태가 있다.
- 정적 절약: 이미지의 관심 영역을 국소화하기 위해 이미지 특징과 통계에 의존한다.
- 운동 절약: 비디오에서 광학 흐름에 의해 감지되는 운동에 의존한다.움직이는 물체는 두드러진 것으로 간주된다.
- 객체성:객체성은 이미지 창이 객체를 덮을 가능성을 반영한다.이러한 알고리즘은 이미지 안에 물체가 있을 수 있는 경계 상자 세트를 생성한다.
고전적 접근법 외에도 신경망 기반도 인기다.신경망의 움직임 살선 추정을 위한 예는 다음과 같다.
- TASED-Net: 두 개의 빌딩 블록으로 구성되어 있다.먼저 인코더 네트워크는 저해상도 주피오템포럴 형상을 추출한 후, 다음의 예측 네트워크는 모든 시간적 정보를 취합하면서 공간적으로 인코딩된 형상을 해독한다.
- STRA-Net: 그것은 두 가지 필수적인 문제를 강조한다.첫째, 주피오템포러리 기능은 외관과 광학 흐름 커플링을 통해 통합된 다음 주의 메커니즘을 통해 학습되는 다단계적 편의성이다.
- StAViS: 그것은 시각적 정보와 청각적 정보를 결합한다.이 접근방식은 음원의 국소화를 배우고 두 비율을 융합하여 최종 절약 지도를 얻는 단일 네트워크를 채택한다.
구현 예
첫째, 각 픽셀의 거리를 동일한 프레임에서 나머지 픽셀까지의 거리를 계산해야 한다.
는 [0,255] 범위의 픽셀 i의 값이다.다음 방정식은 이 방정식의 확장형이다.
- SALS(Ik) = Ik1 - I + I2 - Ik + ...+ IN - Ik
여기서 N은 현재 프레임의 총 픽셀 수입니다.그러면 우리는 공식을 더 재구성할 수 있다.우리는 나와 같은 가치를 가지고 있는 가치를 합쳤다.
- SALSn(Ik) = σ Fn × I - Ik
여기서 F는n I의n 주파수다.그리고 n의 값은 [0,255]에 속한다.주파수는 히스토그램 형태로 표현되며, 히스토그램의 계산 시간은 ( ) O 시간 복잡도 입니다.
시간 복잡성
이 편법 지도 알고리즘은 ( N) 시간의 복잡성을 가지고 있다.히스토그램의 계산 시간은 O( ) 시간 복잡성이기 때문에 N은 픽셀의 프레임 수입니다.게다가 이 방정식의 마이너스 부분과 곱하기 부분은 256배의 연산이 필요하다.따라서 이 알고리즘의 시간 은 O( + ) 이며 이는 ( ) O과 같다.
가성음
다음 코드는 모두 유사 MATLAB 코드다.첫째, 비디오 시퀀스에서 데이터를 읽으십시오.
k = 2 : 1 : 13% 프레임 2에서 13까지를 의미하며, 모든 루프에서 K의 값은 1을 증가시킨다. I = imred(currentfilename), % read current frame I1 = im2single(I); % read vlslic 명령 필요 l = imread(previousfilename); % read 이전 프레임 I2 = im2single(l); regionSize = 10%; 이 매개변수 설정은 실험 결과물이다. RegionSize는 슈퍼픽셀 크기를 의미한다. regularizer = 1; % set the parameter of SLIC segments1 = vl_slic(I1, regionSize, regularizer); % get the superpixel of current frame segments2 = vl_slic(I2, regionSize, regularizer); % get superpixel of the previous frame numsuppix = max(segments1(:)); % get the number of superpixel all information about superpixel is in this link [http://www.vlfeat.org/overview/slic.html] regstats1 = regstats1 = regionprops('all'), regstats2 = registats2 = regionprops('all'), % = segments 기반 지역 특성 획득1
데이터를 읽은 후 각 프레임에 슈퍼픽셀 공정을 한다.Spnum1과 Spnum2는 현재 프레임과 이전 픽셀의 픽셀 수를 나타낸다.
% 먼저 각 픽셀의 값 거리를 계산한다. % 이것이 우리의 핵심 코드 입니다. 을 위해 i = 1:1:spnum1 첫 번째 픽셀에서 마지막 픽셀까지 %.그리고 모든 루프에서 i++ 을 위해 j = 1:1:spnum2 첫 번째 픽셀에서 마지막 픽셀까지 %. j++. 이전 프레임 중심주의자(i:j) = 합계를 내다((중심(i) - 중심(j))); % 중심 거리 계산 종지부를 찍다 종지부를 찍다
그리고 각 픽셀의 색상 거리를 계산하는데, 이 과정을 계약함수라고 부른다.
i = 1:1:spnum1% 현재 프레임의 첫 번째 픽셀에서 마지막 한 픽셀까지. j에 대한 I ++ = 1:1:spnum2 % 이전 프레임의 첫 번째 픽셀에서 마지막 한 픽셀까지. J++ posdiff(i, j) = 합(regstats1(j)).Centroid' - mupwtd(:, i); % 색상 거리를 계산한다. 끝을 맺다
이 두 가지 과정이 끝나면 우리는 편의 지도를 받은 다음 이 모든 지도를 새로운 FileFolder에 저장할 것이다.
알고리즘의 차이
함수 1과 2의 주요한 차이는 계약함수의 차이다.spnum1과 spnum2가 모두 현재 프레임의 픽셀 번호를 나타내는 경우, 이 계약 기능은 첫 번째 선처 기능을 위한 것이다.spnum1이 현재 프레임의 픽셀 번호이고 spnum2가 이전 프레임의 픽셀 번호를 나타내는 경우, 이 계약 기능은 두 번째 편의 기능을 위한 것이다.동일한 프레임의 픽셀을 사용하여 중심거리를 얻는 두 번째 계약 기능을 사용하여 편법 지도를 얻으면 이 편법 기능을 각 프레임에 적용하고 기존 프레임의 편법 맵에서 이전 프레임의 편법 지도를 뺀 현재 프레임의 편법 지도를 사용하여 세 번째 편법 기능의 새로운 이미지를 얻는다.
데이터 집합
일반적으로 선량 데이터 집합에는 일부 이미지 시퀀스에 대한 사람의 눈 움직임이 포함되어 있다.새로운 편의 알고리즘을 만들거나 기존 알고리즘을 벤치마킹하는 데 가치가 있다.가장 중요한 데이터 집합 매개변수는 공간 분해능, 크기, 눈 추적 장비다.예를 들어, 다음은 MIT/Tübingen Salibility Benchitective 데이터셋의 대규모 데이터셋 표의 일부분이다.
데이터 집합 | 해상도 | 크기 | 감시자들 | 지속 기간 | 아이에트라커 |
---|---|---|---|---|---|
CAT2000 | 1920×1080px | 4000 이미지 | 24 | 5초 | EyeLink 1000(1000Hz) |
아이트랙UAV2 | 1280×180 | 43개의 비디오 | 30 | 33초 | EyeLink 1000 Plus(1000Hz, 쌍안경) |
크라우드 픽스 | 1280×180 | 434개의 비디오 | 26 | 1-3초 | Eyetribe Eyetracker(60Hz) |
사밤 | 1920×1080px | 43개의 비디오 | 50 | 20초 | SMI iViewXTM 고속 1250(500Hz) |
편의성 데이터 세트를 수집하려면 이미지 또는 비디오 시퀀스 및 시선 추적 장비가 준비되어야 하며 관찰자를 초대해야 한다.관찰자는 정상 시력 또는 정상 시력으로 보정되어야 하며 화면으로부터 동일한 거리에 있어야 한다.각 녹화 세션이 시작될 때, 아이 트래커는 다시 보정한다.이를 위해 관찰자는 스크린 중앙에 시선을 고정시킨다.그 후 세션이 시작되었고, 시퀀스를 보여주고 안대를 기록함으로써 편의성 데이터를 수집한다.
아이 트래킹 장치는 초속 250 프레임 이상의 아이 움직임을 기록할 수 있는 고속 카메라다.카메라의 이미지는 소프트웨어에 의해 처리되며, 시선 데이터를 반환하는 전용 컴퓨터에서 실행된다.
참조
- ^ Guo, Chenlei; Zhang, Liming (Jan 2010). "A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression". IEEE Transactions on Image Processing. 19 (1): 185–198. doi:10.1109/TIP.2009.2030969. ISSN 1057-7149.
- ^ Tong, Yubing; Konik, Hubert; Cheikh, Faouzi; Tremeau, Alain (2010-05-01). "Full Reference Image Quality Assessment Based on Saliency Map Analysis". Journal of Imaging Science and Technology. 54 (3): 30503–1–30503-14. doi:10.2352/J.ImagingSci.Technol.2010.54.3.030503.
- ^ Goferman, Stas; Zelnik-Manor, Lihi; Tal, Ayellet (Oct 2012). "Context-Aware Saliency Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (10): 1915–1926. doi:10.1109/TPAMI.2011.272. ISSN 1939-3539.
- ^ Jiang, Huaizu; Wang, Jingdong; Yuan, Zejian; Wu, Yang; Zheng, Nanning; Li, Shipeng (June 2013). "Salient Object Detection: A Discriminative Regional Feature Integration Approach". 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE. arXiv:1410.5926. doi:10.1109/cvpr.2013.271.
- ^ A. Maity (2015). "Improvised Salient Object Detection and Manipulation". arXiv:1511.02999 [cs.CV].
외부 링크
- Zhai, Yun; Shah, Mubarak (2006-10-23). Visual Attention Detection in Video Sequences Using Spatiotemporal Cues. Proceedings of the 14th ACM International Conference on Multimedia. MM '06. New York, NY, USA: ACM. pp. 815–824. CiteSeerX 10.1.1.80.4848. doi:10.1145/1180639.1180824. ISBN 978-1595934475.
- VLfeat: http://www.vlfeat.org/index.html
- Scholarpedia의 절약 지도