선형 판별 분석

Linear discriminant analysis

선형 판별 분석(LDA), 정규 판별 분석(NDA) 또는 판별 함수 분석은 피셔의 선형 판별 분석(통계학 및 기타 분야에서 사용되는 방법)을 일반화하여 두 개 이상의 개체 또는 사건의 클래스를 특성화하거나 분리하는 기능의 선형 조합을 찾는 것입니다.결과 조합은 선형 분류기로 사용할 수도 있고, 더 일반적으로 나중에 분류하기 전에 차원 축소를 위해 사용할 수도 있다.

LDA는 하나의 종속 변수를 다른 특징 또는 측정값의 선형 조합으로 표현하려는 분산 분석(ANOVA)[1][2]회귀 분석과 밀접한 관련이 있습니다.그러나 분산 분석에서는 범주형 독립 변수와 연속형 종속 변수를 사용하는 반면 판별 분석에는 연속형 독립 변수와 범주형 종속 변수(예: 클래스 레이블)[3]가 있습니다.로지스틱 회귀 분석 및 프로빗 회귀 분석은 연속형 독립 변수의 값으로 범주형 변수를 설명하기 때문에 분산 분석보다 LDA와 더 유사합니다.이러한 다른 방법은 독립 변수가 정규 분포를 따른다고 가정하는 것이 타당하지 않은 애플리케이션에서 선호된다. 이는 LDA 방법의 기본 가정이다.

LDA는 데이터를 [4]가장 잘 설명하는 변수의 선형 조합을 찾는다는 점에서 주성분 분석(PCA) 및 인자 분석과도 밀접한 관련이 있습니다.LDA는 명시적으로 데이터 클래스 간의 차이를 모형화하려고 시도합니다.반면 PCA는 클래스의 차이를 고려하지 않으며 인자 분석에서는 유사성이 아닌 차이에 따라 피쳐 조합을 구축합니다.판별 분석은 또한 상호의존 기법이 아니라는 점에서 인자 분석과 다르다: 독립 변수와 종속 변수(기준 변수라고도 함)를 구별해야 한다.

시작할 때마다 관찰을 위한 치수를 독립 변수들에 의해 만들어진다 연속 양 LDA 일한다.언제 정언적 독립 변수를 다루는데 있어서 동등한 테크닉은 판별 대응 분석.[5][6]

그룹들이 선험적인(클러스터 분석에서 달리)으로 알려져 있Discriminant 분석 사용된다.각각의 문제는 하나 이상의 정량적인 예언자라고 정책에 대한 점수이고 그룹 조치에 점수를 얻어야 한다.[7]간단히 말해서 그룹, 클래스 또는 같은 형태의 범주에 물건을 유포 판별 함수 분석은 분류- 하는 행위이다.

역사

최초의 이분법적 판별 분석은 1936년 [8]로널드 피셔 경이 개발했다.분산 분석 또는 다변량 분산 분석과는 다릅니다. 분산 분석 또는 다변량 분산 분석에서는 하나 이상의 독립적인 범주형 변수를 사용하여 연속형 종속 변수 또는 다중 종속 변수를 예측합니다.판별 함수 분석은 일련의 변수가 범주 구성원을 [9]예측하는 데 효과적인지 여부를 결정하는 데 유용합니다.

2개 클래스의 LDA

가 알려진 개체 또는 이벤트의 각 샘플에 대해 x {{{특징, 속성, 변수 또는 측정이라고도 함)의 를 고려합니다.이 샘플 세트를 교육 세트라고 합니다.따라서 분류 문제는 x {\ {x[10]: 338 만 주어진다면 (훈련 세트로부터 반드시 나온 것은 아님) 동일한 분포의 샘플의 yy 대해 적절한 예측 변수를 찾는 것이다.

LDA는 조건부 확률밀도 p vec p y 1)({ p)가 모두 평균공분산 모수 정규 분포라고 가정하여 문제에 접근한다._ { , \_ { \ }( ( ( ( , 1) 。{ \ { \ _ { 1} \ 이 가정 하에서 Bayes 최적 솔루션은 우도비의 로그가 일부 임계값 T보다 클 경우 두 번째 클래스의 점으로 예측하여 다음과 같이 하는 것입니다.

더 이상의 가정 없이 결과 분류기를 2차 판별 분석(QDA)이라고 한다.

대신 LDA는 추가적인 단순화 균질성 가정(즉, 클래스 공분산이 동일하다는 가정, 0 = \ _} = \_{1} = \Sigma )을 만들고 공분류는 완전한 순위를 갖는다.이 경우 여러 항이 취소됩니다.

{\ _ {{-1} {x i{ _ 에르미트어이므로

그리고 위의 결정 기준이 도트 제품의 임계값이 된다.

어떤 임계값 상수 c에 대해서, 여기서

, 클래스에 있는 x {\ 기준은 단순히 알려진 관측치의 선형 조합의 함수임을 의미합니다.

이러한 결론을 기하학적 용어로 보는 것은 종종 유용합니다. 입력 x 기준은 다차원 공간 점 {\(를) w {\에 투영하는 함수입니다.따라서 우리는 그것의 방향만을 고려합니다.)즉, 하는 x {\(가) w {에 수직인 하이퍼플레인 특정 쪽에 위치할 경우 관측치는 y y 속합니다.평면의 위치는 임계값 c에 의해 정의됩니다.

전제 조건

판별 분석의 가정은 다변량 분산 분석의 가정과 동일합니다.분석은 특이치에 상당히 민감하며 가장 작은 그룹의 크기가 예측 변수의 [7]수보다 커야 합니다.

  • 다변량 정규성:독립 변수는 그룹화 [9][7]변수의 각 수준에 대해 정규 분포를 따릅니다.
  • 분산/공분산의 균질성(동질성):그룹 변수 간의 분산은 예측 변수의 여러 수준에서 동일합니다.Box의 M [9]통계로 테스트할 수 있습니다.그러나 공분산이 같을 때는 선형 판별 분석을 사용하고, 공분산이 [7]같지 않을 때는 2차 판별 분석을 사용할 수 있다고 제안되었다.
  • 다중 공선성: 예측 변수 [7]간의 상관 관계가 증가함에 따라 예측 검정력이 감소할 수 있습니다.
  • 독립성: 참가자는 무작위로 추출되는 것으로 가정하고, 한 변수에 대한 참가자의 점수는 다른 [9][7]모든 참가자에 대한 해당 변수에 대한 점수와 무관하다고 가정한다.

판별 분석은 이러한 [11]가정의 약간의 위반에 대해 비교적 강력하며, 판별 분석은 이분법 변수(다변량 정규성이 종종 [12]위반되는 경우)를 사용할 때 여전히 신뢰할 수 있는 것으로 나타났다.

Discriminant 기능

판별 분석은 예측 변수의 선형 조합을 하나 이상 생성하여 각 함수에 대해 새로운 잠재 변수를 생성하는 방식으로 작동합니다.이러한 함수를 판별 함수라고 합니다.사용 가능한 함수 N g - g}-이며, 서 Ng {g} = 그룹 수 p {p}(예측 변수 수) 중 값입니다.처음 생성된 함수는 해당 함수에 대한 그룹 간의 차이를 최대화합니다.두 번째 함수는 해당 함수의 차이를 최대화하지만 이전 함수와 상관되지 않아야 합니다.이는 새로운 기능이 이전 기능과 상관되지 않아야 하는 요건을 가진 후속 기능에서도 계속됩니다.

j {\ j \displaystyle \ 집합의 샘플 공간을 지정하면 xR { x{ 판별 분석은 style의 양호한 영역을 찾는 판별 규칙이 있습니다. 분류 오류를 최소화하기 위해 분류 테이블에 [13]분류된 정답률이 높아집니다.

각 함수에는 그룹 배치를 얼마나 잘 예측하는지 확인하기 위한 판별 점수가[clarification needed] 부여됩니다.

  • 구조 상관 계수:각 예측 변수와 각 함수의 판별 점수 사이의 상관 관계입니다.이는 0차 상관 관계입니다(즉, 다른 예측 [14]변수에 대해서는 보정되지 않음).
  • 표준화된 계수:선형 조합에 포함된 각 예측 변수의 가중치가 판별 함수입니다.회귀 방정식에서처럼 이러한 계수는 부분적(즉, 다른 예측 변수에 대해 보정됨)입니다.그룹 할당을 예측할 때 각 예측 변수의 고유한 기여도를 나타냅니다.
  • Group Centroid의 기능:각 그룹화 변수에 대한 평균 판별 점수가 각 함수에 대해 제공됩니다.평균이 멀리 떨어져 있을수록 분류에 오류가 적게 발생합니다.

차별 규칙

  • 최대 가능성:모집단([15]그룹) 밀도를 최대화하는 그룹에 x를 할당합니다.
  • Bayes 판별 규칙:하는 그룹에 할당합니다.여기i 는 해당 분류의 이전 확률 는 모집단 [15]밀도를 나타냅니다.
  • Fisher 선형 판별 규칙: SS와 SS 사이within 비율between 최대화하고 그룹을 [15]예측할 예측 변수의 선형 조합을 찾습니다.

Eigenvalues

판별 분석에서 고유값은 각 [clarification needed]함수의 특성 근입니다.이는 해당 함수가 그룹을 얼마나 잘 구별하는지 나타냅니다. 고유값이 클수록 함수가 [7]더 잘 구별합니다.그러나 고유값에는 [9][7]상한이 없으므로 이 값은 주의하여 해석해야 합니다.고유값은 종속 변수가 판별 함수이고 그룹이 [9]IV[clarification needed] 수준인 경우 분산 분석에서와 같이 제곱합과 제곱합의within 비율between 볼 수 있습니다.즉, 가장 큰 고유값은 첫 번째 함수와, 두 번째로 큰 고유값은 두 번째 함수와 연관되어 있습니다.

효과 크기

일부에서는 효과 크기 측도로 고유값을 사용할 것을 제안하지만 일반적으로 [9]이 방법은 지원되지 않습니다.대신, 표준 상관 관계가 효과 크기를 측정하는 데 선호되는 척도입니다.이 값은 고유값과 비슷하지만 SS와 SSbetweentotal 비율의 제곱근입니다.그룹과 기능 [9]간의 상관관계입니다.효과 크기에 대한 또 다른 일반적인 척도는 각 함수에 대한[clarification needed] 분산 비율입니다.이것은 다음과 같이 계산됩니다. ( σi / xx ) X 100 。여기서 isx 함수의 고유값이고 λ는i 모든 고유값의 합계입니다.이것은 특정 함수에 대한 예측이 다른 [9]함수에 비해 얼마나 강한지 말해줍니다.정확하게 분류된 백분율은 효과 크기로도 분석할 수 있습니다.카파 값은 우연 [9]합치를 수정하는 동안 이를 설명할 수 있습니다.카파는 유의하게 양호하거나 성능이 낮은 클래스에 [clarification needed][16]치우치기보다는 모든 범주에서 정규화합니다.

k 클래스에 대한 표준 판별 분석

표준 판별 분석(CDA)은 범주를 가장 잘 구분하는 축(k - 1 표준 좌표, k는 클래스 수)을 찾습니다.이러한 선형 함수는 상관 관계가 없으며 k개 그룹의 투영을 가장 잘 분리하는 n차원 데이터 구름을 통해 최적의 k - 1 공간을 정의한다.상세한 것에 대하여는, 다음의 「멀티클래스 LDA」를 참조해 주세요.

피셔 선형 판별

피셔의 원래 기사[1] 실제로 약간 다른 판별식을 설명하지만, 피셔의 선형 판별식LDA라는 용어는 종종 서로 바꿔서 사용된다. 이는 정규 분포 클래스 또는 동등한 클래스 공분산같은 LDA의 가정 중 일부를 만들지 않는다.

두 가지 관찰 클래스가 μ ({{\ {\}})과 공분산 ces 1 \을 의미한다고 가정합니다.그런 다음 의 선형 조합 w x {{(는) w i { w T σ i { { }{ {cdisplaystyle {x}의 됩니다. 0 , 1 { i ,) 。Fisher는 이 두 분포 간의 분리를 클래스 간 분산과 클래스 내 분산의 비율로 정의했습니다.

이 척도는 어떤 의미에서 클래스 라벨링의 신호잡음비의 척도다.최대 분리는 다음과 같은 경우에 발생함을 알 수 있습니다.

LDA의 가정이 충족되면 위의 방정식은 LDA와 같다.

축으로 시각화된 피셔의 선형 판별기

w {{(는) 식별 하이퍼플레인정상입니다.예를 들어, 2차원 문제에서 두 그룹을 가장 잘 나누는 선은 w {\{\에 수직입니다.

일반적으로 식별해야 할 데이터 지점은 w {\{\에 투영되며, 데이터를 가장 잘 분리하는 역치는 1차원 분포 분석에서 선택됩니다.임계값에 대한 일반적인 규칙은 없습니다.단, 두 클래스의 점의 투영 분포가 거의 동일할 경우 w (\ \ cdot {\ {w displaystyle { _ _ _ 1의 하이퍼플레인이 적합합니다. 이 경우 임계값 w > { {} \ \ { } > } 파라미터 c는 명시적으로 찾을 수 있습니다.

_{{mu

Otsu의 방법은 Fisher의 선형 판별과 관련이 있으며, 클래스 내 분산을 최소화하고 흑백 픽셀 클래스에 할당된 그레이스케일 내/사이 클래스 간 분산을 최대화하는 블랙/화이트 임계값을 최적으로 선택하여 그레이스케일 영상에서 픽셀의 히스토그램을 2치화하기 위해 만들어졌다.

Multiclass 국지 산개 지역

3d의 4개 등급에 대한 모든 LDA 축에 대한 시각화
4개 클래스에 대해 선형 판별 축을 따른 투영

클래스가 3개 이상인 경우, 피셔 판별자의 도출에 사용되는 분석을 확장하여 클래스 [17]변동성을 모두 포함하는 것으로 보이는 부분 공간을 찾을 수 있습니다.이 일반화는 C. R. Rao[18]의한 것입니다.각 C 클래스가 _와 동일한 공분산(\displaystyle \를 가지고 있다고 가정합니다.그러면 클래스 변동 간의 산란은 클래스 평균의 샘플 공분산으로 정의할 수 있습니다.

μ {\ 클래스 평균입니다.이 경우 w{ 방향의 클래스 분리는 다음과 같습니다.

즉, w () - b의 고유 벡터일 \}\ _{ 분리는 대응하는 고유 값과 동일합니다.

- 1 b (\ \Sigma ^{- _ 대각선화가 가능한 경우 피쳐 간의 변동은 C - 1의 최대 고유값에 대응하는 고유 벡터에 의해 확장되는 서브스페이스에 포함됩니다({ \}는 최대 C - 1의 랭크이므로).이러한 고유 벡터는 주로 PCA와 같이 기능 감소에 사용됩니다.더 작은 고유값에 해당하는 고유 벡터는 훈련 데이터의 정확한 선택에 매우 민감한 경향이 있으며, 종종 다음 절에 설명된 대로 정규화를 사용해야 한다.

분류가 필요한 경우 치수 축소 대신 여러 가지 대체 기법을 사용할 수 있습니다.예를 들어 클래스를 분할하고 각 분할을 분류하기 위해 표준 Fisher 판별자 또는 LDA를 사용할 수 있습니다.이에 대한 일반적인 예로는 한 클래스의 포인트가 한 그룹에 배치되고 다른 모든 것이 다른 그룹에 배치되며, 그 후 LDA가 적용되는 "다른 클래스와의 비교"가 있습니다.그 결과 C 분류자가 생성되고 그 결과가 결합됩니다.또 하나의 일반적인 방법은 쌍별 분류입니다.각 클래스의 쌍(총 C(C - 1)/2개의 분류자를 부여)에 대해 새로운 분류자가 작성되며, 개개의 분류자가 조합되어 최종 분류가 생성됩니다.

증분 LDA

LDA 기법의 일반적인 구현에서는 모든 샘플을 사전에 입수할 수 있어야 한다.그러나 데이터 세트 전체를 사용할 수 없고 입력 데이터가 스트림으로 관찰되는 경우가 있습니다.이 경우 전체 데이터 세트에서 알고리즘을 실행하지 않고 새 샘플을 관찰하여 계산된 LDA 피쳐를 업데이트하는 기능이 LDA 피쳐 추출에 바람직합니다.예를 들어, 모바일 로보틱스 또는 온라인 얼굴 인식과 같은 많은 실시간 애플리케이션에서는 새로운 관찰을 이용할 수 있게 되는 즉시 추출된 LDA 특징을 업데이트하는 것이 중요하다.새로운 샘플을 단순히 관찰함으로써 LDA 특징을 업데이트할 수 있는 LDA 특징 추출 기법은 증분 LDA 알고리즘이며, 이 아이디어는 지난 [19]20년 동안 광범위하게 연구되어 왔다.Chatterjee와 Roychowdhury는 LDA [20]기능을 업데이트하기 위해 증분 자기 조직화된 LDA 알고리즘을 제안했다.다른 연구에서, Demir와 Ozmehmet은 오류 수정과 Hebbian 학습 [21]규칙을 사용하여 LDA 기능을 점진적으로 업데이트하기 위한 온라인 로컬 학습 알고리즘을 제안했다.나중에 Aliyari 등은 새로운 샘플을 [19]관찰하여 LDA 특징을 업데이트하기 위한 빠른 증분 알고리즘을 도출했다.

활용

실제로 클래스 평균과 공분산은 알려져 있지 않습니다.단, 트레이닝 세트로부터 추정할 수 있습니다.위의 방정식의 정확한 값 대신 최대우도 추정치 또는 최대 사후 추정치를 사용할 수 있다.공분산의 추정치가 어떤 의미에서는 최적이라고 간주될 수 있지만, 정규 분포 등급의 가정이 정확하더라도 이러한 값을 대입하여 얻은 결과 판별식이 어떤 의미에서도 최적이라는 것을 의미하지는 않는다.

실제 데이터에 LDA와 피셔 판별자를 적용하는 데 있어 또 다른 복잡성은 각 표본의 측정 횟수(즉, 각 데이터 벡터의 차원)가 [4]각 등급의 표본 수를 초과할 때 발생한다.이 경우 공분산 추정치의 순위는 완전 순위가 아니므로 되돌릴 수 없습니다.이 문제에 대처하는 방법에는 여러 가지가 있습니다.하나는 위의 공식에서 일반적인 행렬 역행렬 대신 의사 역행렬을 사용하는 것입니다.그러나 먼저 \[22]에 걸쳐 있는 부분 공간에 문제를 투영하면 더 나은 수치 안정성을 얻을 수 있습니다. 작은 표본 크기를 다루는 또 다른 전략은 수학적으로 다음과 같이 표현될 수 있는 공분산 행렬의 수축 추정기를 사용하는 것입니다.

I(\ I 아이덴티티 매트릭스,(\ 수축 강도 또는 정규화 파라미터입니다.이는 정규 판별 분석[23] 또는 수축 판별 분석의 [24]틀로 이어진다.

또한, 많은 실제 사례에서 선형 판별자는 적합하지 않습니다.LDA 및 Fisher의 판별자는 커널 트릭을 통해 비선형 분류에 사용할 수 있도록 확장할 수 있습니다.여기서, 원래의 관측치는 보다 높은 차원의 비선형 공간에 효과적으로 매핑된다.이 비선형 공간에서의 선형 분류는 원래 공간에서의 비선형 분류와 동일합니다.가장 일반적으로 사용되는 예는 커널 피셔 판별자입니다.

LDA는 다중 판별 분석으로 일반화할 수 있으며, 여기서 c는 두 개 대신 N개의 가능한 상태를 가진 범주형 변수가 됩니다.마찬가지로 클래스 조건부 p c )({ p c 공유공분산(c x 에서 정규값인 경우, P})에 대한 충분한 통계량은 space걸친 N프로젝트의 이다.e 역공분산 행렬.이러한 예측은 일반화된 고유값 문제를 풀어서 찾을 수 있습니다. 여기서 분자는 평균을 표본으로 처리하여 형성된 공분산 행렬이고 분모는 공유 공분산 행렬입니다.자세한 내용은 위의 "멀티클래스 LDA"를 참조하십시오.

적용들

아래 예시와 더불어 LDA는 포지셔닝제품 관리에 적용됩니다.

파산 예측

회계비율 및 기타 재무변수에 기초한 파산예측에서 선형 판별분석은 도산한 기업과 생존한 기업을 체계적으로 설명하기 위해 최초로 적용된 통계적 방법이었다.LDA의 정규 분포 가정에 대한 알려진 회계 비율의 불일치를 포함한 한계에도 불구하고, Edward Altman의 1968년 모델은 여전히 실제 적용에서 선도적인 모델이다.

얼굴인식

컴퓨터화된 얼굴 인식에서 각 얼굴은 다수의 픽셀 값으로 표현된다.여기서 선형 판별 분석은 주로 분류하기 전에 특징 수를 관리하기 쉬운 수로 줄이기 위해 사용됩니다.각각의 새로운 치수는 템플릿을 형성하는 픽셀 값의 선형 조합입니다.Fisher의 선형 판별식을 사용하여 얻은 선형 조합을 Fisher 면이라고 하며, 관련 주성분 분석을 사용하여 얻은 선형 조합을 고유면이라고 합니다.

마케팅.

마케팅에서, 한 때, 판별 분석은 조사나 다른 형태의 수집된 데이터를 바탕으로 다양한 유형의 고객 및/또는 제품을 구별하는 요소를 결정하기 위해 종종 사용되었다.이제 로지스틱 회귀 분석 또는 기타 방법이 더 일반적으로 사용됩니다.마케팅에서 판별 분석의 사용은 다음 단계로 설명할 수 있습니다.

  1. 문제를 공식화하고 데이터를 수집합니다.소비자가 이 카테고리의 제품을 평가하기 위해 사용하는 주요 속성을 특정합니다.양적 마케팅 조사 기법(조사 등)을 사용하여 모든 제품 속성의 등급에 대한 잠재적 고객 표본으로부터 데이터를 수집합니다.데이터 수집 단계는 일반적으로 마케팅 조사 전문가에 의해 수행됩니다.설문 조사 질문은 응답자에게 연구자가 선택한 속성 범위에 따라 제품을 1에서 5까지(또는 1에서 7까지 또는 1에서 10까지) 평가하도록 요구합니다.5 ~ 20개의 속성이 선택됩니다.사용의 용이성, 중량, 정확성, 내구성, 색채, 가격, 크기 등이 있습니다.선택한 속성은 연구 대상 제품에 따라 달라집니다.연구의 모든 제품에 대해 동일한 질문을 합니다.여러 제품의 데이터는 코드화되어 R, SPSS, SAS 의 통계 프로그램에 입력됩니다(이 단계는 인자 분석과 동일합니다).
  2. 판별 함수 계수 추정 및 통계적 유의성 및 타당성 결정: 적절한 판별 분석 방법을 선택합니다.직접 방법에는 모든 예측 변수가 동시에 평가되도록 판별 함수를 추정하는 것이 포함됩니다.단계적 방법은 예측 변수를 순차적으로 입력합니다.종속 변수가 두 개의 범주 또는 상태를 가질 경우 2-그룹 방법을 사용해야 합니다.다중 판별 방법은 종속 변수의 범주형 상태가 세 개 이상인 경우에 사용됩니다.Wilks의 람다를 사용하여 SAS의 SPSS 또는 F 통계분석에서 유의성을 검정할 수 있습니다.유효성을 검사하는 데 사용되는 가장 일반적인 방법은 표본을 추정 또는 분석 표본과 검증 또는 보류 표본으로 나누는 것입니다.추정 표본은 판별 함수를 구성하는 데 사용됩니다.검증 샘플은 올바르게 분류된 경우와 잘못 분류된 경우의 수를 포함하는 분류 매트릭스를 구성하는 데 사용됩니다.정확하게 분류된 사례의 비율을 히트율이라고 합니다.
  3. 결과를 2차원 지도에 표시하고 치수를 정의하며 결과를 해석합니다.통계 프로그램(또는 관련 모듈)이 결과를 매핑합니다.지도에 각 제품이 표시됩니다(보통 2차원 공간).제품 간의 거리는 제품이 얼마나 다른지를 나타냅니다.치수는 연구자가 라벨을 붙여야 합니다.이것은 주관적인 판단을 필요로 하며 종종 매우 어렵다.지각 매핑을 참조하십시오.

생물의학 연구

의학에서 판별 분석의 주요 적용 분야는 환자의 심각도 상태와 질병 결과의 예후 평가이다.예를 들어, 소급 분석 중에 환자는 질병의 심각도에 따라 경증, 중등, 중증으로 분류된다.그런 다음 연구 그룹 내에서 통계적으로 다른 변수를 밝히기 위해 임상 및 실험실 분석 결과를 연구한다.이러한 변수를 사용하여 미래 환자의 질병을 경증, 중간 또는 중증으로 객관적으로 분류하는 데 도움이 되는 판별 기능을 구축한다.

생물학에서는, 예를 들면 푸리에 변환 [25]적외선 스펙트럼에 근거해 살모넬라 장기의 파지 타입을 정의해, 그 독성 인자를[26] 연구하는 대장균의 동물원을 검출하는 등, 다른 생물학적 오브젝트의 그룹을 분류 및 정의하기 위해서, 같은 원리가 사용된다.

지구과학

[clarification needed] 방법을 사용하여 변경 영역을 분리할 수 있습니다.예를 들어, 다양한 구역의 다른 데이터를 사용할 수 있는 경우 판별 분석을 통해 데이터 내의 패턴을 찾아 효과적으로 [27]분류할 수 있습니다.

로지스틱 회귀 분석과의 비교

판별 함수 분석은 로지스틱 회귀 분석과 매우 유사하며 둘 다 동일한 연구 질문에 [9]답하는 데 사용할 수 있습니다.로지스틱 회귀 분석에는 판별 분석만큼 많은 가정과 제한이 없습니다.그러나 판별 분석의 가정이 충족되면 로지스틱 회귀 [28]분석보다 강력합니다.로지스틱 회귀 분석과 달리 판별 분석은 표본 크기가 작은 경우에도 사용할 수 있습니다.표본 크기가 같고 분산/공분산 고정의 균질성이 있는 경우 판별 분석이 더 [7]정확한 것으로 나타났습니다.이러한 모든 이점에도 불구하고 판별 분석의 가정이 [8][7]거의 충족되지 않기 때문에 로지스틱 회귀 분석이 가장 일반적인 선택이 되었습니다.

고차원 선형 판별식

더 높은 차원의 기하학적 이상은 차원이라는 유명한 저주로 이어집니다.그러나 측정현상의 집중도를 적절히 활용하면 계산이 [29]쉬워진다.Donoho와 Tanner는 이러한 차원 현상의 축복의 중요한 사례를 강조하였다. 표본이 본질적으로 고차원적인 것이라면, 기하급수적으로 큰 [30]표본이라도 높은 확률로 각 점을 선형 부등식으로 표본의 나머지 부분과 분리할 수 있다.이러한 선형 부등식은 확률 [31]분포의 풍부한 계열에 대한 선형 판별식의 표준(Fisher's) 형태로 선택할 수 있습니다.특히, 이러한 정리는 다차원 정규 분포포함한 로그 오목 분포(로그 오목 측정의[32] 농도 부등식에 기초함)와 다차원 큐브 상의 제품 측정(제품 확률 공간에 대한 Talagrand의 농도 부등식을 사용하여 증명됨)에 대해 증명된다.기존의 선형 판별기에 의한 데이터 분리성은 고차원 [33]인공지능 시스템의 오류 수정 문제를 단순화합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  2. ^ McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 978-0-471-69115-0. MR 1190469.
  3. ^ 정량 데이터 분석: 사회 연구자를 위한 소개, Debra Wetcher-Hendricks, 페이지 288
  4. ^ a b Martinez, A. M.; Kak, A. C. (2001). "PCA versus LDA" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (2): 228–233. doi:10.1109/34.908974.
  5. ^ Abdi, H. (2007) "차별 대응 분석"인: N.J. Salkind(편집): 측정 및 통계 백과사전.Thousand Oaks (CA): 현자. 페이지 270~275.
  6. ^ Perriere, G.; Thioulouse, J. (2003). "Use of Correspondence Discriminant Analysis to predict the subcellular location of bacterial proteins". Computer Methods and Programs in Biomedicine. 70 (2): 99–105. doi:10.1016/s0169-2607(02)00011-1. PMID 12507786.
  7. ^ a b c d e f g h i j BöKEOluLU, O 및 BüYüKöZTURK, §. (2008)판별 함수 분석: 개념과 응용 프로그램.에이팀 아라쉬티르말라리 데르기시, (33), 73-92.
  8. ^ a b 코헨 등행동 과학에 대한 다중 회귀/상관 분석을 적용했다. (2003)테일러 & 프란시스 그룹
  9. ^ a b c d e f g h i j k 그린, S.B. 살킨드, N. J. & Akey, T. M. (2008)Windows 및 Macintosh용 SPSS 사용: 데이터 분석 및 이해뉴저지: 프렌티스 홀.
  10. ^ Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer Verlag. ISBN 978-0-387-95457-8.
  11. ^ 라첸브루흐, P. A.(1975년)판별 분석.하프너
  12. ^ Klecka, William R.(1980).판별 분석.사회과학 시리즈 19호 정량적 응용사우전드 오크스, 캘리포니아: 세이지 출판사.
  13. ^ Hardle, W., Simar, L. (2007)응용 다변량 통계 분석.스프링거 베를린 하이델베르크, 페이지 289-303.
  14. ^ Garson, G.D. (2008)판별 함수 분석.https://web.archive.org/web/20080312065328/http://www2.chass.ncsu.edu/garson/pA765/discrim.htm.
  15. ^ a b c Hardle, W., Simar, L. (2007)응용 다변량 통계 분석.스프링거 베를린 하이델베르크, 페이지 289-303
  16. ^ Israel, Steven A. (June 2006). "Performance Metrics: How and When". Geocarto International. 21 (2): 23–32. doi:10.1080/10106040608542380. ISSN 1010-6049. S2CID 122376081.
  17. ^ Garson, G.D. (2008)판별 함수 분석.: CS1 maint: 제목(링크)으로 아카이브된 복사"Archived copy". Archived from the original on 2008-03-12. Retrieved 2008-03-04.{{cite web}}.
  18. ^ Rao, R. C. (1948). "The utilization of multiple measurements in problems of biological classification". Journal of the Royal Statistical Society, Series B. 10 (2): 159–203. JSTOR 2983775.
  19. ^ a b Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (2015-06-01). "Fast incremental LDA feature extraction". Pattern Recognition. 48 (6): 1999–2012. Bibcode:2015PatRe..48.1999A. doi:10.1016/j.patcog.2014.12.012.
  20. ^ Chatterjee, C.; Roychowdhury, V.P. (1997-05-01). "On self-organizing algorithms and networks for class-separability features". IEEE Transactions on Neural Networks. 8 (3): 663–678. doi:10.1109/72.572105. ISSN 1045-9227. PMID 18255669.
  21. ^ Demir, G. K.; Ozmehmet, K. (2005-03-01). "Online Local Learning Algorithms for Linear Discriminant Analysis". Pattern Recognit. Lett. 26 (4): 421–431. Bibcode:2005PaReL..26..421D. doi:10.1016/j.patrec.2004.08.005. ISSN 0167-8655.
  22. ^ Yu, H.; Yang, J. (2001). "A direct LDA algorithm for high-dimensional data — with application to face recognition". Pattern Recognition. 34 (10): 2067–2069. Bibcode:2001PatRe..34.2067Y. CiteSeerX 10.1.1.70.3507. doi:10.1016/s0031-3203(00)00162-x.
  23. ^ Friedman, J. H. (1989). "Regularized Discriminant Analysis" (PDF). Journal of the American Statistical Association. 84 (405): 165–175. CiteSeerX 10.1.1.382.2682. doi:10.2307/2289860. JSTOR 2289860. MR 0999675.
  24. ^ Ahdesmäki, M.; Strimmer, K. (2010). "Feature selection in omics prediction problems using cat scores and false nondiscovery rate control". Annals of Applied Statistics. 4 (1): 503–519. arXiv:0903.2003. doi:10.1214/09-aoas277. S2CID 2508935.
  25. ^ Preisner, O; Guiomar, R; Machado, J; Menezes, JC; Lopes, JA (2010). "Application of Fourier transform infrared spectroscopy and chemometrics for differentiation of Salmonella enterica serovar Enteritidis phage types". Appl Environ Microbiol. 76 (11): 3538–3544. Bibcode:2010ApEnM..76.3538P. doi:10.1128/aem.01589-09. PMC 2876429. PMID 20363777.
  26. ^ David, DE; Lynne, AM; Han, J; Foley, SL (2010). "Evaluation of virulence factor profiling in the characterization of veterinary Escherichia coli isolates". Appl Environ Microbiol. 76 (22): 7509–7513. Bibcode:2010ApEnM..76.7509D. doi:10.1128/aem.00726-10. PMC 2976202. PMID 20889790.
  27. ^ Tahmasebi, P.; Hezarkhani, A.; Mortazavi, M. (2010). "Application of discriminant analysis for alteration separation; sungun copper deposit, East Azerbaijan, Iran. Australian" (PDF). Journal of Basic and Applied Sciences. 6 (4): 564–576.
  28. ^ Trevor Hastie; Robert Tibshirani; Jerome Friedman. The Elements of Statistical Learning. Data Mining, Inference, and Prediction (second ed.). Springer. p. 128.
  29. ^ 카이넨 P.C.(1997년) 고차원 기하학적 이상 활용: 복잡해지면 계산이 쉬워집니다.입력: 제어 및 신호 처리에서의 컴퓨터 집약적 방법:차원성의 저주, 스프링어, 1997, 페이지 282–294.
  30. ^ Donoho, D., Tanner, J. (2009) 고차원 기하학에서 현대 데이터 분석신호 처리와 관련된 위상 전이의 보편성을 관찰했다.트랜스.R. Soc. A367, 4273-4293.
  31. ^ Gorban, Alexander N.; Golubkov, Alexander; Grechuck, Bogdan; Mirkes, Evgeny M.; Tyukin, Ivan Y. (2018). "Correction of AI systems by linear discriminants: Probabilistic foundations". Information Sciences. 466: 303–322. arXiv:1811.05321. doi:10.1016/j.ins.2018.07.040. S2CID 52876539.
  32. ^ Guédon, O., Milman, E. (2011) 등방성 로그-오목 측정에 대한 박각날카로운 대편차 추정치, Geam.펑트. 항문. 21(5), 1043~1068.
  33. ^ Gorban, Alexander N.; Makarov, Valeri A.; Tyukin, Ivan Y. (July 2019). "The unreasonable effectiveness of small neural ensembles in high-dimensional brain". Physics of Life Reviews. 29: 55–88. arXiv:1809.07656. Bibcode:2019PhLRv..29...55G. doi:10.1016/j.plrev.2018.09.005. PMID 30366739.

추가 정보

외부 링크