피쳐 스케일링

피쳐 스케일링은 데이터의 독립 변수 또는 피쳐의 범위를 정규화하는 데 사용되는 방법이다. 데이터 처리에서는 데이터 정규화라고도 하며 일반적으로 데이터 사전 처리 단계에서 수행된다.

동기

원시 데이터의 값 범위는 매우 다양하기 때문에 일부 머신러닝 알고리즘에서는 정규화 없이는 객관적인 기능이 제대로 작동하지 않을 것이다. 예를 들어, 많은 분류자는 유클리드 거리로 두 점 사이의 거리를 계산한다. 형상 중 하나가 광범위한 값을 갖는 경우 거리는 이 특정 형상에 의해 제어된다. 따라서 모든 형상의 범위는 각 형상이 최종 거리에 거의 비례하여 기여하도록 정규화되어야 한다.

피쳐 스케일링이 적용되는 또 다른 이유는 그라데이션 강하가 없는 것보다 피쳐 스케일링으로 훨씬 빠르게 수렴되기 때문이다.^[1]

손실 함수의 일부로 정규화를 사용하는 경우(계수가 적절히 불이익을 받도록) 형상 스케일링을 적용하는 것도 중요하다.

방법들

재할당(최소-최대 정규화)

최소-최대 스케일링 또는 최소-최대 정규화라고도 하는 재스케일링은 가장 간단한 방법이며 [0, 1] 또는 [-1, 1]에서 범위를 스케일링하기 위한 형상의 범위를 재스케일링하는 데 있다. 대상 범위를 선택하는 것은 데이터의 특성에 따라 달라진다. [0, 1] 최소값의 일반 공식은 다음과 같이 주어진다.

x'={\frac {x-{\text{min}}{\text{max}-{\text{min}}}}

여기서 $x$ ${\displaystyle$ x $}$ 은 $x$ (는) 원래 값이고 $x^{}$ ′ ${\$ x $'}$ 은 $x'$ (는) 정규화된 값이다. 예를 들어, 우리가 학생들의 체중 데이터를 가지고 있고 학생들의 체중이 [160파운드, 200파운드]에 걸쳐 있다고 가정합시다. 이 데이터의 크기를 조정하기 위해 먼저 각 학생의 체중에서 160을 빼서 결과를 40(최대 무게와 최소 무게의 차이)으로 나눈다.

임의의 값 집합 사이의 범위를 재조정하려면 [a, b] 공식은 다음과 같이 된다.

x'=a+{\frac {(x-{\text{min})(x)(b-a)}{{\text{max(x)-{\text{min}}}}}}

$a,b$ 서 a , $b$ $a,b$ 은 $a,b$ (는) 최소-최대 값이다.

평균 정규화

x'={\frac {x-{\text{verage}{\text{max}}{\text{min}}}}}

여기서 $x$ ${\displaystyle$ x $}$ 은 $x$ (는) 원래 값이고 $x^{}$ ′ ${\$ x $'}$ 은 $x'$ (는) 정규화된 값이다. 표준화라고도 하는 표준 편차로 나누는 또 다른 형태의 수단 정규화가 있다.

표준화(Z-점수 정규화)

머신러닝(machine learning)에서는 영상 데이터의 오디오 신호, 픽셀 값 등 다양한 유형의 데이터를 처리할 수 있으며, 이 데이터에는 다차원이 포함될 수 있다. 형상 표준화는 데이터의 각 형상의 값을 0평균(분자의 평균을 빼는 경우)과 단위-분산을 갖도록 한다. 이 방법은 많은 머신러닝 알고리즘(예: 지원 벡터 머신, 로지스틱 회귀, 인공신경망)에서 정상화에 널리 사용된다.^[2]^{[citation needed]} 일반적인 계산 방법은 각 형상에 대한 분포 평균과 표준 편차를 결정하는 것이다. 다음은 각 형상에서 평균을 뺀다. 그런 다음 각 형상의 값(평균은 이미 감산됨)을 표준 편차로 나눈다.

x'={\frac {x-{\bar{x}}{\parma }}

여기서 $x$ $x$ 이 $x$ (가) 원래 형상 벡터인 경우 ${\bar {x}}={\text{average}}(x)$ 의 ${\bar {x}}={\text{average}}(x)$ = ${\bar {x}}={\text{average}}(x)$ x ${\bar {x}}={\text{average}}(x)$ ) ${\x}={\text{평균}}}$ 은 ${\bar {x}}={\text{average}}(x)$ 해당 형상 벡터의 평균이고, $\sigma$ $\sigma$ 은 표준 편차인 것이다 $\sigma$ .

단위 길이로 스케일링

기계학습에서 널리 사용되는 또 다른 옵션은 완전한 벡터의 길이가 1이 되도록 형상벡터의 구성요소를 축척하는 것이다. 이는 일반적으로 각 성분을 벡터의 유클리드 길이로 나눈다는 것을 의미한다.

x'={\frac {x}{\왼쪽\{x}\오른쪽\}}}}

일부 응용 프로그램(예: 히스토그램 피쳐)에서는 형상 벡터의₁ L 규범(즉, 택사브 기하학)을 사용하는 것이 더 실용적일 수 있다. 이는 다음의 학습 단계에서 거리 측정으로 스칼라 측정법을 사용하는 경우에 특히 중요하다.^[why?]

적용

확률적 그라데이션 강하에서는 형상 스케일링이 알고리즘의^[2]^{[citation needed]} 수렴 속도를 향상시킬 수 있다. 서포트 벡터 기계에서는 서포트 벡터를 찾는 시간을 줄일 수 있다.^[3] 기능 스케일링으로 SVM 결과가^{[citation needed]} 변경된다는 점에 유의하십시오.

참고 항목

정규화(통계)
표준점수
fMLR, 형상 공간 최대우도 선형 회귀 분석

참조

^ Ioffe, Sergey; Christian Szegedy (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167 [cs.LG].
^ ^a ^b Grus, Joel (2015). Data Science from Scratch. Sebastopol, CA: O'Reilly. pp. 99, 100. ISBN 978-1-491-90142-7.
^ Juszczak, P.; D. M. J. Tax; R. P. W. Dui (2002). "Feature scaling in support vector data descriptions". Proc. 8th Annu. Conf. Adv. School Comput. Imaging: 25–30. CiteSeerX 10.1.1.100.2524.

추가 읽기

Han, Jiawei; Kamber, Micheline; Pei, Jian (2011). "Data Transformation and Data Discretization". Data Mining: Concepts and Techniques. Elsevier. pp. 111–118. ISBN 9780123814807.

외부 링크

Andrew Ng의 피쳐 스케일링

[1] Ioffe, Sergey; Christian Szegedy (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167 [cs.LG].

[:0-2] Grus, Joel (2015). Data Science from Scratch. Sebastopol, CA: O'Reilly. pp. 99, 100. ISBN 978-1-491-90142-7.

[3] Juszczak, P.; D. M. J. Tax; R. P. W. Dui (2002). "Feature scaling in support vector data descriptions". Proc. 8th Annu. Conf. Adv. School Comput. Imaging: 25–30. CiteSeerX 10.1.1.100.2524.

[1]

[2]

[3]

Search