인셉션 스코어(IS) 는 생성적 적대 네트워크(GAN)[1] 와 같은 생성적 이미지 모델에 의해 생성된 이미지 의 품질을 평가하는 데 사용되는 알고리즘입니다.점수는 생성 모델에 의해 생성된 샘플(일반적으로 약 30,000개)의 영상에 적용된 별도의 사전 교육 Inceptionv3 영상 분류 모델의 출력을 기반으로 계산됩니다. 인셉션 점수는 다음 조건이 충족될 때 최대화됩니다.
생성 된 영상에 대해 Inceptionv3 모델에 의해 예측된 라벨 분포의 엔트로피가 최소화됩니다.즉, 분류 모델은 각 이미지에 대해 자신 있게 단일 레이블을 예측합니다. 직관적으로 이는 생성된 이미지의 "선명한" 또는 "구분적인" 요구에 해당합니다. 분류 모형의 예측은 가능한 모든 레이블에 고르게 분포되어 있습니다. 이는 생성 모델의 출력이 "다양"[2] 하다는 요구에 해당합니다. 관련 프레셰 개시 [3] 거리로 다소 대체되었다. Inception Score는 생성된 영상의 분포만 평가하는 반면 FID는 생성된 영상의 분포를 실제 영상의 분포("실제 사실")와 비교합니다.
정의. 이미지 ω X 공간(\displaystyle \Omega _ {X}) 과 라벨 ω Y 공간(\displaystyle \Omega _{Y })) 의 공간을 지정합니다. 라벨의 공간은 한정되어 있습니다.
pg n \ displaystyle p_ {gen } 을 (를) 판단하고 싶은 δ X에 대한 확률 분포 로 합니다 .
판별자를 유형의 함수로 한다.
p d i s : Ω X → M ( Ω Y ) {\displaystyle p_{dis}: \Omega _{X}\to M(\Omega _{Y})} 여기 서 M ( ω Y ) ( \ displaystyle M ( \ Omega _ { Y } )는 ω Y ( \ display style _ { Y } ) 의 모든 확률 분포 세트입니다.이미지 x ( \ displaystyle x )및 라벨 y ( \ displaystyle y )의 경우,식별자 에 따르면 p di s ( y x ) { display p _ { dis } ( y x )는 이미지 x {\ display style x} 에 라벨 y {\ displaystyle y} 가 붙을 확률입니다.보통 ImageNet에서 훈련받은Inception-v3 네트워크로 구현됩니다.
pdi s ({ displaystyle p_{dis}) 에 대한 pg en ({ displaystyle p_{gen}) 의 인셉션 점수는 다음 과 같습니다.
I S ( p g e n , p d i s ) := exp ( E x ∼ p g e n [ D K L ( p d i s ( ⋅ x ) ‖ ∫ p d i s ( ⋅ x ) p g e n ( x ) d x ) ] ) ({displaystyle IS(p_{gen},p_{dis}): =\exp \left(\mathbb {E} _{x\sim p_{gen}}\left[D_{KL}\left(\cdot x)\int p_{dis}(\cdot x)p_{gen}(x)\right] 동등한 개서에는 다음이 포함됩니다. 인 I S ( p g e n , p i n c ) := E x ∼ p g e n [ D K L ( p d i s ( ⋅ x ) ‖ E x ∼ p g e n [ p d i s ( ⋅ x ) ] ) ] (\displaystyle \ln IS(p_{gen},p_{inc}): =\mathbb {E} _{x\sim p_{gen}\left[D_{KL}\left(p_{dis}(\cdot x)\mathbb {E}_{x\sim p_{gen}}}[p_{dis}(\cdot x)]\right] 인 I S ( p g e n , p d i s ) := H [ E x ∼ p g e n [ p d i s ( ⋅ x ) ] ] − E x ∼ p g e n [ H [ p d i s ( ⋅ x ) ] ] (\displaystyle \ln IS(p_{gen},p_{dis}): =H[\mathbb {E}_{x\sim p_{gen}}[p_{dis}(\cdot x)]]-\mathbb {E}_{x\sim p_{gen}}][ H[p_{dis}(\cdot x)]]} I는 Jensen의 부등식에 의해 음이 아닙니다.
유사 코드:
INPUT 식별자 p di s \ style p_{dis }.
INPUT 제너레이터 g\displaystyle g.
제너레이터의 이미지 x i( 표시 스타일 x_{i }) 샘플 .
p di s ( x x i ) ( \ displaystyle p _ { dis } ( \ cdot x _ { i } ) 。이미지 x i \ displaystyle x _ { i } image condition 。
결과를 종합하여 p^(\ style {p }) 을 구합니다 .이 값은 i p di s ( x x ) p g e n ( x ) d x \ display style \int p_{dis}(cdot x) p_{gen}(x ) dx 입니다.
제너레이터에서 더 많은 이미지 x\ displaystyle x_{i} 를 샘플링하여 각각 DK L ( p di s ( x x i ) p p ^ ) { displaystyle D_{KL } \ left ( p _ { dis } \ cdot x _ { i } \ hat { p} \ right ) 를 계산 합니다.
결과를 평균화하고 지수를 구합니다.
결과 를 반환합니다.
해석 pg e n { displaystyle p_{gen} 은 선명하고 뚜렷한 이미지 컬렉션이기 때문에 초기 점수가 높을수록 "더 나은" 것으로 해석됩니다.
ln I S ( p g e n , p d i s ) [ [ 0 , ln n N ]{ display style \ln IS ( p _ { gen , p _ { dis }\in [ 0 , \ display style N } 。여기 서 N은 사용 가능한 라벨의 총수입니다.
in i I S ( p g e n , p d i s ) = 0 { \ displaystyle \ln IS ( p _ { gen , p _ { dis } = 0 } iffff ( x ~p g n \ displaystyle x \ sim p _ { gen } )
p d i s ( ⋅ x ) = ∫ p d i s ( ⋅ x ) p g e n ( x ) d x {\displaystyle p_{dis}(\cdot x)=\int p_{dis}(\cdot x)p_{gen}(x)p_{gen}(x)filen} 즉, pg en ( display style p_{gen} )는 완전히 "불명확한" 상태 입니다. 즉, pg e n {\displaystyle p_{ gen }} 에서 샘플링된 이미지 x {\displaystyle x} 에 대해 식별자는 정확히 동일한 라벨 예측 p di s( x x ) 를 반환합니다.
최고 개시 점수 N(\displaystyle N) 은 다음 두 조건이 모두 충족될 경우에만 달성됩니다.
거의 모든 x ~ p g n { displaystyle x \ sim p _ { gen } almost for d p di s ( y x ) \ displaystyle p _ { dis } ( y x )는 하나의 라벨에 집중됩니다.즉 , H y [ p di s ( y x ) = 0 { displaystyle H_{y} [p_{dis}(y x)]=0} 입니다. 즉, pgn (\ displaystyle p_{gen })에서 샘플링된 모든 이미지는 식별자에 의해 정확하게 분류됩니다. 각 라벨 y(\displaystyle y) 에 대해 y(\displaystyle y) 로 라벨이 지정된 생성 이미지의 비율은 정확히 E x ~ p g e n [ p di s ( y x ) ]= 1 N(\displaystyle \mathbbb {E} _ {gen} [ p_{x\s][ p_{dis }(y x)] = frac {N } } } } } } )입니다. 즉, 생성된 이미지는 모든 라벨에 균등하게 분포됩니다. 레퍼런스 ^ Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi; Chen, Xi (2016). "Improved Techniques for Training GANs" . Advances in Neural Information Processing Systems . Curran Associates, Inc. 29 . arXiv :1606.03498 . ^ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review" . Neural Networks . 144 : 187–209. doi :10.1016/j.neunet.2021.07.019 . PMID 34500257 . S2CID 231698782 . ^ Borji, Ali (2022). "Pros and cons of GAN evaluation measures: New developments" . Computer Vision and Image Understanding . 215 : 103329. arXiv :2103.09396 . doi :10.1016/j.cviu.2021.103329 . S2CID 232257836 .