페이스넷

페이스넷(FaceNet)은 플로리안 슈로프(Florian Schroff), 드미트리 칼레니첸코(Dmitry Kalenicenko), 제임스 필비나(James Philbina)가 개발한 안면인식 시스템입니다.이 시스템은 2015년에 열린 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스에서 처음 발표되었습니다.^[1]시스템은 심층 컨볼루션 신경망을 사용하여 얼굴 이미지 세트에서 128차원 유클리드 공간으로의 매핑(내장이라고도 함)을 학습하고, 128차원 유클리드 공간에서 해당 정규화된 벡터 간의 유클리드 거리 제곱을 기반으로 두 얼굴 이미지 간의 유사성을 평가합니다.시스템은 비용 함수로 삼중항 손실 함수를 사용하고 새로운 온라인 삼중항 채굴 방법을 도입했습니다.이 시스템은 외부 데이터 프로토콜이 제한되지 않은 상태에서 야생 데이터 세트의 라벨이 부착된 얼굴에서 가장 높은 점수인 99.63%의 정확도를 달성했습니다.^[2]

구조.

기본구조

도 1은 페이스넷(FaceNet) 페이스넷 인식 시스템의 구조를 개략적으로 나타낸 것이다.

훈련을 위해 연구원들은 각 신원에 대해 약 40개의 유사한 이미지와 여러 개의 다른 신원과 관련된 임의로 샘플링된 이미지가 있는 약 1800개의 이미지를 입력 묶음으로 사용했습니다.이러한 배치는 심층 컨볼루션 신경망에 공급되었으며 표준 역전파와 Adaptive Gradient Optimizer(AdaGrad) 알고리듬을 사용하여 확률적 기울기 강하 방법을 사용하여 네트워크를 훈련했습니다.학습률은 처음에 0.05로 설정되었고, 이후 모델을 완성하면서 낮아졌습니다.

CNN의 구조

연구원들은 NN1과 NN2라고 불리는 두 종류의 아키텍처를 사용했고, 그들의 상호작용을 탐구했습니다.모형 간의 실제적인 차이는 모수와 FLOPS의 차이에 있습니다.NN1 모델에 대한 자세한 내용은 아래 표에 제시되어 있습니다.

FaceNet 얼굴인식 시스템에서 NN1 모델에 사용된 CNN의 구조
층	사이즈인 (행×콜×#filters)	사이즈아웃 (행×콜×#filters)	알맹이 (행 × 콜, 보폭)	매개변수	플롭스
conv1	220×220×3	110×110×64	7×7×3, 2	9K	115M
풀장1	110×110×64	55×55×64	3×3×64, 2	0	—
rnorm1	55×55×64	55×55×64		0
conv2a	55×55×64	55×55×64	1×1×64, 1	4K	13M
conv2	55×55×64	55×55×192	3×3×64, 1	111K	335M
rnorm2	55×55×192	55×55×192		0
풀2	55×55×192	28×28×192	3×3×192, 2	0
conv3a	28×28×192	28×28×192	1×1×192, 1	37K	29M
conv3	28×28×192	28×28×384	3×3×192, 1	664K	521M
풀3	28×28×384	14×14×384	3×3×384, 2	0
conv4a	14×14×384	14×14×384	1×1×384, 1	148K	29M
conv4	14×14×384	14×14×256	3×3×384, 1	885K	173M
conv5a	14×14×256	14×14×256	1×1×256, 1	66K	13M
conv5	14×14×256	14×14×256	3×3×256, 1	590K	116M
conv6a	14×14×256	14×14×256	1×1×256, 1	66K	13M
conv6	14×14×256	14×14×256	3×3×256, 1	590K	116M
풀4	14×14×256	3×3×256, 2	7×7×256	0
콘캣	7×7×256	7×7×256		0
fc1	7×7×256	1×32×128	maxout p=2	103M	103M
fc2	1×32×128	1×32×128	maxout p=2	34M	34M
fc7128	1×32×128	1×1×128		524K	0.5M
L2	1×1×128	1×1×128		0

총				140M	1.6B

삼중항손실함수

FaceNet 시스템에서 사용되었던 손실 함수는 "트리플릿 손실 함수"라고 불렸습니다.이것은 페이스넷 시스템 개발자들이 소개한 새로운 아이디어였습니다.이 기능은 훈련 영상의 형태 $(A,P,N)$ ${\displaystyle(A,P,N)}$ 의 특정 삼중항을 사용하여 정의됩니다.이 삼중항에서 A ${\displaystyle A}("$ 앵커 이미지"라고 함)는 사람의 이미지를 나타내고, $P$ ${\displaystyle P}("$ 긍정 이미지"라고 함)는 이미지가 $A$ $A$ 이고 $A$ N {\ $displaystyle$ N $}("$ 부정 이미지"라고 함)은 이미지가 A인 사람과 다른 다른 사람의 이미지를 나타냅니다. ${\displaystyle A$ $x$ $x$ 를 $어떤$ $x$ 이미지라고 하고 $f(x)$ $f(x)$ ${\displaystyle f(x))$ 를 $f(x)$ 128차원 유클리드 공간에 $x$ $x$ $x$ 의 임베딩이라고 하자. $f(x)$ $f(x)$ 의 L2-norm은 통일성이라고 $f(x)$ 가정합니다.(The L2 norm of a vector $X$ in a finite dimensional Euclidean space is denoted by $\Vert X\Vert$ .) We pick such triplets from the training data set and let there be $N$ such triplets and $(A^{(i)},P^{(i)},N^{(i)})$ be a typical triplet.학습 후, "삼중항 제약"이라고 하는 다음 조건이 학습 데이터 세트의 모든 $(A^{(i)},P^{(i)},N^{(i)})$ 세 쌍둥이 ( $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ P $(A^{(i)},P^{(i)},N^{(i)})$ ( $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ N $(A^{(i)},P^{(i)},N^{(i)})$ ) ${\displaystyle (A^{(i )}, P^{(i )},$ N $^{(i )}}$ 에 의해 충족되도록 하는 것입니다.

\Vert f(A^{(i)})-f(P^{(i)})\Vert _{2}^{2}+\alpha <\Vert f(A^{(i)})-f(N^{(i)})\Vert _{2}^{2}

여기서 $\alpha$ $\alpha$ 는 $\alpha$ 마진이라 불리는 상수이며 값은 수동으로 설정해야 합니다.값이 0.2로 설정되었습니다.

따라서 최소화할 함수는 다음과 같은 함수를 삼중항 손실 함수라고 합니다.

L=\sum _{i=1}^{N}\max {\Big(})\Vert f(A^{(i)})-f(P^{(i)})\Vert _{2}^{2}-f(N^{(i)})\Vert _{2}^{2}+\alpha,0{\Big}}

세쌍둥이 선발

일반적으로 형식 $(A^{(i)},P^{(i)},N^{(i)})$ ( $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ ( $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ $(A^{(i)},P^{(i)},N^{(i)})$ ( $(A^{(i)},P^{(i)},N^{(i)})$ ) $(A^{(i )}, P^{(i )}, N^{(i )}$ 의 세 쌍둥이 수는 매우 큽니다 $(A^{(i)},P^{(i)},N^{(i)})$ .계산 속도를 높이기 위해 구글 연구진은 삼중항 제약을 위반하는 삼중항만을 고려했습니다.이거는.for a given anchor image $A^{(i)}$ they chose that positive image $P^{(i)}$ for which $\Vert f(A^{(i)})-f(P^{(i)})\Vert _{2}^{2}$ is maximum (such a positive image was called a "hard positive image") and that negative image ${\displaystyle N^{(i)$ $}}$ $\Vert f(A^{(i)})-f(N^{(i)})\Vert _{2}^{2}$ f ( $\Vert f(A^{(i)})-f(N^{(i)})\Vert _{2}^{2}$ ( $\Vert f(A^{(i)})-f(N^{(i)})\Vert _{2}^{2}$ i ) - f ( N ( i ) $‖$ $\Vert f(A^{(i)})-f(N^{(i)})\Vert _{2}^{2}$ {\displaystyle \Vert f(A^{(i))}) - f(N^{(i)})\Vert _{2}^{2}}가 최소값입니다(이러한 긍정적인 이미지를 "하드 네거티브 이미지"라고 함).하드 포지티브 이미지와 하드 네거티브 이미지를 결정하기 위해 전체 훈련 데이터 세트를 사용하는 것은 계산적으로 비싸고 실행이 불가능했기 때문에, 연구원들은 세 쌍둥이를 선택하기 위한 몇 가지 방법으로 실험했습니다.

데이터의 부분 집합에서 최소값과 최대값을 계산하는 세 쌍둥이 오프라인을 생성합니다.
미니 배치 내에서 하드 포지티브/네거티브 예를 선택하여 온라인으로 트리플렛을 생성합니다.

성능

널리 사용되는 LFW(Labeled Faces in the Wild) 데이터 세트에서, FaceNet 시스템은 제한 없는 외부 데이터 프로토콜에서 LFW에서 가장 높은 점수인 99.63%의 정확도를 달성했습니다.^[2]YouTube Faces DB에서 이 시스템은 95.12%^[1]의 정확도를 달성했습니다.

참고 항목

추가열람

Rajesh Gopakumar; Karunagar A; Kotegar, M.; Vishal Anand (September 2023). "A Quantitative Study on the FaceNet System": in Proceedings of ICACCP 2023. Singapore: Springer Nature. pp. 211–222. ISBN 9789819942848.
Ivan William; De Rosal Ignatius Moses Setiadi; Eko Hari Rachmawanto; Heru Agus Santoso; Christy Atika Sari (2019). "Face Recognition using FaceNet (Survey, Performance Test, and Comparison)" in Proceedings of Fourth International Conference on Informatics and Computing. IEEE Xplore. Retrieved 6 October 2023.
딥페이크 비디오에 대한 응용 프로그램에서 Facnet 기반 얼굴 인식 알고리즘의 취약성에 대한 토론:
Android에서 얼굴 확인을 위해 페이스넷을 적용하는 것에 대한 토론:Vasco Correia Veloso (January 2022). Hands-On Artificial Intelligence for Android. BPB Publications. ISBN 9789355510242. 아마존

참고문헌

^ ^a ^b Florian Schroff; Dmitry Kalenichenko; James Philbin. "FaceNet: A Unified Embedding for Face Recognition and Clustering" (PDF). The Computer Vision Foundation. Retrieved 4 October 2023.
^ ^a ^b Erik Learned-Miller; Gary Huang; Aruni RoyChowdhury; Haoxiang Li; Gang Hua (April 2016). "Labeled Faces in the Wild: A Survey". Advances in Face Detection and Facial Image Analysis (PDF). Springer. pp. 189–248. Retrieved 5 October 2023.

[FaceNet-1] Florian Schroff; Dmitry Kalenichenko; James Philbin. "FaceNet: A Unified Embedding for Face Recognition and Clustering" (PDF). The Computer Vision Foundation. Retrieved 4 October 2023.

[survey-2] Erik Learned-Miller; Gary Huang; Aruni RoyChowdhury; Haoxiang Li; Gang Hua (April 2016). "Labeled Faces in the Wild: A Survey". Advances in Face Detection and Facial Image Analysis (PDF). Springer. pp. 189–248. Retrieved 5 October 2023.

[1]

[2]

Search