개시점수

인셉션 스코어(IS)는 생성적 적대 네트워크(GAN)^[1]와 같은 생성적 이미지 모델에 의해 생성된 이미지의 품질을 평가하는 데 사용되는 알고리즘입니다.점수는 생성 모델에 의해 생성된 샘플(일반적으로 약 30,000개)의 영상에 적용된 별도의 사전 교육 Inceptionv3 영상 분류 모델의 출력을 기반으로 계산됩니다.인셉션 점수는 다음 조건이 충족될 때 최대화됩니다.

생성된 영상에 대해 Inceptionv3 모델에 의해 예측된 라벨 분포의 엔트로피가 최소화됩니다.즉, 분류 모델은 각 이미지에 대해 자신 있게 단일 레이블을 예측합니다.직관적으로 이는 생성된 이미지의 "선명한" 또는 "구분적인" 요구에 해당합니다.
분류 모형의 예측은 가능한 모든 레이블에 고르게 분포되어 있습니다.이는 생성 모델의 출력이 "다양"^[2]하다는 요구에 해당합니다.

관련 프레셰 개시 ^[3]거리로 다소 대체되었다.Inception Score는 생성된 영상의 분포만 평가하는 반면 FID는 생성된 영상의 분포를 실제 영상의 분포("실제 사실")와 비교합니다.

정의.

이미지 $\Omega _{X}$ X $공간(\displaystyle$ \Omega _ $\Omega _{X}$ { $X})$ 과 라벨 $\Omega _{Y}$ Y 공간(\ $displaystyle \Omega$ _ ${Y$ 의 공간을 지정합니다.라벨의 공간은 한정되어 있습니다.

$p_{gen}$ $p_{gen}$ \ $displaystyle p_$ ${gen$ $}$ 을 $p_{gen}$ $\Omega _{X}$ (를 $)$ 판단하고 싶은 $\Omega _{X}$ X에 대한 확률 $p_{gen}$ 로 $합니다$ .

판별자를 유형의 함수로 한다.

p_{dis}:\Omega _{X}\to M(\Omega _{Y})

M(\Omega _{Y})

서 M

M(\Omega _{Y})

(

M(\Omega _{Y})

Y

M(\Omega _{Y})

) ( \

displaystyle M

( \

Omega

M(\Omega _{Y})

_ {

Y

\Omega _{Y}

}

)는

M(\Omega _{Y})

\Omega _{Y}

Y ( \

display style

_

\Omega _{Y}

{ Y }

)

의 모든 확률 분포 세트입니다.이미지 x

( \

displaystyle

x

x

)및

라벨

y ( \

displaystyle

y

y

)의 경우,

p_{dis}(y|x)

에 따르면 p

p_{dis}(y|x)

p_{dis}(y|x)

(

p_{dis}(y|x)

x

p_{dis}(y|x)

) {

display

p

_

{

dis

} (

y x

)는

p_{dis}(y|x)

이미지

x {\

display style

x

}

에

x

라벨

y {\

displaystyle

y

y

가 붙을 확률입니다.보통 ImageNet에서 훈련받은Inception-v3 네트워크로 구현됩니다.

$p_{dis}$ $({$ 에 $p_{dis}$ 대한 $p_{gen}$ $({$ 의 $p_{gen}$ 인셉션 점수는 다음과 같습니다.

({displaystyle IS(p_{gen},p_{dis}):=\exp \left(\mathbb {E} _{x\sim p_{gen}}\left[D_{KL}\left(\cdot x)\int p_{dis}(\cdot x)p_{gen}(x)\right]

동등한 개서에는 다음이 포함됩니다.

(\displaystyle \ln IS(p_{gen},p_{inc}):=\mathbb {E} _{x\sim p_{gen}\left[D_{KL}\left(p_{dis}(\cdot x)\mathbb {E}_{x\sim p_{gen}}}[p_{dis}(\cdot x)]\right]

(\displaystyle \ln IS(p_{gen},p_{dis}):=H[\mathbb {E}_{x\sim p_{gen}}[p_{dis}(\cdot x)]]-\mathbb {E}_{x\sim p_{gen}}][H[p_{dis}(\cdot x)]]}

I는

Jensen의 부등식에 의해 음이 아닙니다

.

유사 코드:

INPUT $p_{dis}$ $p_{dis}$ $p_{dis}$ s $\$
INPUT $제너레이터$ g $\displaystyle$ g $g$
제너레이터의 $x_{i}$ $x_{i}$ i $($ 표시 $스타일 x_{i$ }) 샘플 $x_{i}$ .
$p_{dis}(\cdot |x_{i})$ $p_{dis}(\cdot |x_{i})$ s $p_{dis}(\cdot |x_{i})$ ( $p_{dis}(\cdot |x_{i})$ $p_{dis}(\cdot |x_{i})$ i $p_{dis}(\cdot |x_{i})$ ) ( \ $displaystyle p$ _ { $dis$ } ( \ $cdot$ x _ { i $p_{dis}(\cdot |x_{i})$ } ) $p_{dis}(\cdot |x_{i})$ 。 $x_{i}$ x $x_{i}$ \ $displaystyle x$ _ { $i$ } image condition 。
결과를 종합하여 p $^(\$ 을 ${\hat {p}}$ . $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ 값은 $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ p $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ s ( $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ x ) $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ g $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ ( $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ ) $\int p_{dis}(\cdot |x)p_{gen}(x)dx$ \ $display$ style \ $int$ p_ ${dis}(cdot$ x) $p_{gen}(x$ $dx$ 입니다.
제너레이터에서 더 $x_{i}$ $x_{i}$ x $\$ 를 $x_{i}$ 샘플링하여 각각 $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ L ( $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ s $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ ( $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ x $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ ) $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ p $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ ) { $displaystyle D_{KL$ } \ $left$ ( $p$ _ { dis } \ $cdot$ x _ { $i }$ \ $hat$ { $p}$ \ $right$ $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ 를 $D_{KL}\left(p_{dis}(\cdot |x_{i})\|{\hat {p}}\right)$ 합니다.
결과를 평균화하고 지수를 구합니다.

결과를 반환합니다.

해석

$p_{gen}$ $p_{gen}$ n { $displaystyle p_{gen}$ 은 $p_{gen}$ 선명하고 뚜렷한 이미지 컬렉션이기 때문에 초기 점수가 높을수록 "더 나은" 것으로 해석됩니다.

$\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ I $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ ( $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ e $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ , $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ i $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ ) $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ [ [ $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ 0 , $\ln IS(p_{gen},p_{dis})\in [0,\ln N]$ N $]{$ $display$ style \ $ln$ IS ( $p$ _ { $gen$ , p $_$ { $dis$ }\ $in$ [ $0$ , \ $display style$ N $}$ 。 $N$ 서N은 사용 $N$ 가능한 라벨의 총수입니다.

$\ln IS(p_{gen},p_{dis})=0$ I $\ln IS(p_{gen},p_{dis})=0$ ( p $\ln IS(p_{gen},p_{dis})=0$ $\ln IS(p_{gen},p_{dis})=0$ n , $\ln IS(p_{gen},p_{dis})=0$ d $\ln IS(p_{gen},p_{dis})=0$ $\ln IS(p_{gen},p_{dis})=0$ ) $\ln IS(p_{gen},p_{dis})=0$ $\ln IS(p_{gen},p_{dis})=0$ { \ $displaystyle \ln$ IS ( $p$ _ { $gen$ , p $_$ { $dis$ } = $0$ } iffff $\ln IS(p_{gen},p_{dis})=0$ ( $x\sim p_{gen}$ x ~ $x\sim p_{gen}$ $x\sim p_{gen}$ n \ $displaystyle$ x \ $sim p$ _ { $gen$ } )

p_{dis}(\cdot x)=\int p_{dis}(\cdot x)p_{gen}(x)p_{gen}(x)filen

즉,

p_{gen}

p_{gen}

（

display

style

p_{gen}

）는

p_{gen}

완전히 "불명확한"

p_{gen}

입니다.즉,

p_{gen}

p_{gen}

n {\

displaystyle

p_{

gen

p_{dis}(\cdot |x)

에서 샘플링된

이미지

x {\

displaystyle

x

}

에

x

대해 식별자는 정확히 동일한 라벨

p_{dis}(\cdot |x)

p_{dis}(\cdot |x)

p_{dis}(\cdot |x)

s

p_{dis}(\cdot |x)

x

)

를 반환합니다.

최고 개시 점수 N $(\displaystyle$ N $)$ 은 $N$ 다음 두 조건이 모두 충족될 경우에만 달성됩니다.

$x\sim p_{gen}$ $x\sim p_{gen}$ ~ $x\sim p_{gen}$ p $x\sim p_{gen}$ $x\sim p_{gen}$ { $displaystyle$ x \ $sim$ p _ { $gen$ } almost $p_{dis}(y|x)$ $p_{dis}(y|x)$ p $p_{dis}(y|x)$ s ( $p_{dis}(y|x)$ x ) $p_{dis}(y|x)$ \ $displaystyle$ p $_$ { $dis$ } ( $y$ x )는 하나의 $p_{dis}(y|x)$ 라벨에 집중됩니다. $H_{y}[p_{dis}(y|x)]=0$ , $H_{y}[p_{dis}(y|x)]=0$ y $H_{y}[p_{dis}(y|x)]=0$ [ $H_{y}[p_{dis}(y|x)]=0$ $H_{y}[p_{dis}(y|x)]=0$ s ( $H_{y}[p_{dis}(y|x)]=0$ ) $=$ { $displaystyle H_{y}$ [ $p_{dis}(y$ x)]= $0}$ 입니다 $H_{y}[p_{dis}(y|x)]=0$ 즉, $(\$ })에서 $p_{gen}$ 샘플링된 모든 이미지는 식별자에 의해 정확하게 분류됩니다.
각 $라벨$ y(\ $displaystyle$ y $y$ 에 대해 y $(\displaystyle$ y $)$ 로 $y$ 라벨이 지정된 생성 이미지의 비율은 $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ E $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ ~ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ n [ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ s ( $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ ) $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ ] $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ N(\ $displaystyle \mathbbb {E} _$ {gen} [ $p_{x\s][ p_{dis$ }(y x)] = $frac {N$ } $\mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ } } } } )입니다.즉, 생성된 이미지는 모든 라벨에 균등하게 분포됩니다.

레퍼런스

^ Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi; Chen, Xi (2016). "Improved Techniques for Training GANs". Advances in Neural Information Processing Systems. Curran Associates, Inc. 29. arXiv:1606.03498.
^ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187–209. doi:10.1016/j.neunet.2021.07.019. PMID 34500257. S2CID 231698782.
^ Borji, Ali (2022). "Pros and cons of GAN evaluation measures: New developments". Computer Vision and Image Understanding. 215: 103329. arXiv:2103.09396. doi:10.1016/j.cviu.2021.103329. S2CID 232257836.

[Salimans-1] Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi; Chen, Xi (2016). "Improved Techniques for Training GANs". Advances in Neural Information Processing Systems. Curran Associates, Inc. 29. arXiv:1606.03498.

[Frolov-2] Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187–209. doi:10.1016/j.neunet.2021.07.019. PMID 34500257. S2CID 231698782.

[Borji-3] Borji, Ali (2022). "Pros and cons of GAN evaluation measures: New developments". Computer Vision and Image Understanding. 215: 103329. arXiv:2103.09396. doi:10.1016/j.cviu.2021.103329. S2CID 232257836.

[1]

[2]

[3]

v t 머신러닝 평가 지표
회귀	MSE · 마에 · smape · 마페 · 마세 · MSPE · RMS · RMSE/RMSD · R2 · MDA · 미친
분류	F점수 · P4 · 정확성. · 정확 · 리콜 · 카파 · MCC · AUC · 록 · 감도 및 특이성 · 로그 손실
클러스터링	실루엣 · 칼린스키하라바시 · 데이비스 볼딘 · 던 지수 · 홉킨스 통계 · 자카드 지수 · 랜드 인덱스 · 유사성 측정 · SMC · 심해시
순위	MRR · DCG · NDCG · 액세스 포인트
컴퓨터 비전	PSNR · SSIM · IOU
NLP	곤혹스러움 · 블루
딥 러닝 관련 메트릭스	개시점수 · FID
추천 시스템	범위 · 리스트 내 유사성
유사성	코사인 유사도 · 유클리드 거리 · Pearson 상관 계수
혼란 행렬

Search

개시점수

네임스페이스

더

정의.

해석

레퍼런스