통계구분

Statistical classification

통계학에서 분류관측치가 속한 범주 집합(하위 모집단)을 식별하는 문제입니다.예를 들어 "스팸" 또는 "비스팸" 클래스에 지정된 전자 메일을 할당하고 환자의 관찰된 특성(성별, 혈압, 특정 증상의 유무 등)에 따라 지정된 환자에게 진단을 할당하는 것입니다.

종종 개별 관측치는 설명 변수 또는 특징으로 다양하게 알려진 수량화 가능한 특성 세트로 분석됩니다.이러한 속성은 범주형(: 혈액형의 경우 "A", "B", "AB" 또는 "O"), 서수형(예: "대", "중", "소", "소", 정수형(예: 이메일에서 특정 단어의 발생 횟수) 또는 실제 값(예: 혈압 측정)으로 다양할 수 있습니다.다른 분류기는 유사성 또는 거리 함수를 사용하여 관측치를 이전 관측치와 비교하는 방식으로 작동합니다.

분류를 실장하는 알고리즘, 특히 구체적인 실장에서는 분류자라고 불립니다."분류자"라는 용어는 입력 데이터를 범주에 매핑하는 분류 알고리즘에 의해 구현되는 수학 함수를 지칭하기도 합니다.

분야마다 용어가 상당히 다양합니다.로지스틱 회귀 분석 또는 이와 유사한 절차를 사용하여 분류하는 경우, 관측치의 속성을 설명 변수(또는 독립 변수, 회귀 변수 등)라고 하며, 예측할 범주를 결과라고 하며, 종속 변수의 가능한 값으로 간주합니다.기계 학습에서 관찰은 종종 인스턴스(instance)로 알려져 있고, 설명 변수는 특징(특징 벡터로 그룹화)으로 불리며, 예측될 수 있는 범주는 클래스이다.다른 분야에서는 다른 용어를 사용할 수 있습니다.예를 들어 커뮤니티 생태학에서는 일반적으로 "분류"라는 용어는 클러스터 분석을 의미합니다.

기타 문제와의 관계

분류와 클러스터링은 패턴 인식의 보다 일반적인 문제의 예로서 특정 입력 값에 출력 값을 할당하는 것입니다.다른 예로는 각 입력에 실수치 출력을 할당하는 회귀, 의 시퀀스의 각 멤버에게 클래스를 할당하는 시퀀스 라벨링(예를 들어 입력문 내의 각 단어에 음성 일부를 할당하는 음성 태그의 일부), 구문 해석 트리를 입력문에 할당하는 구문 해석 있습니다. 문장의 구조 등

분류의 일반적인 하위 분류는 확률론적 분류이다.이러한 성격의 알고리즘은 통계적 추론을 사용하여 특정 인스턴스에 가장 적합한 클래스를 찾습니다.단순히 "최고의" 클래스를 출력하는 다른 알고리즘과 달리, 확률론적 알고리즘은 인스턴스가 가능한 각 클래스의 멤버일 확률을 출력한다.그런 다음 일반적으로 가장 좋은 클래스가 가장 높은 확률을 가진 클래스로 선택됩니다.단, 그러한 알고리즘은 비확률론적 분류자에 비해 많은 이점이 있다.

  • 선택과 관련된 신뢰값을 출력할 수 있습니다(일반적으로 이를 수행할 수 있는 분류기는 신뢰 가중 분류기로 알려져 있습니다).
  • 따라서 특정 출력을 선택하는 신뢰도가 너무 낮으면 기권할 수 있습니다.
  • 생성되는 확률 때문에 확률론적 분류기는 오류 전파 문제를 부분적으로 또는 완전히 피할 수 있는 방식으로 더 큰 기계 학습 작업에 더 효과적으로 통합될 수 있다.

빈번한 절차

통계 분류에 대한 초기 작업은 두 그룹 문제의 맥락에서 [1][2]피셔에 의해 수행되었고, 새로운 [3]관찰에 그룹을 할당하기 위한 규칙으로서 피셔의 선형 판별 함수로 이어졌다.이 초기 연구에서는 두 그룹 내의 데이터 값이 다변량 정규 분포를 갖는다고 가정했습니다.분류 규칙이 [3][4]선형이어야 한다는 제한이 부과된 상태에서 이러한 동일한 컨텍스트를 두 개 이상의 그룹으로 확장하는 것도 검토되었다.다변량 정규 분포에 대한 이후 연구는 분류기를 [5]비선형화할 수 있게 했다. 몇 가지 분류 규칙은 마할라노비스 거리의 다른 조정을 기반으로 도출할 수 있으며, 새로운 관측치는 관측치로부터 가장 낮은 조정 거리를 가진 그룹에 할당된다.

베이지안 절차

빈도주의 절차와 달리, 베이지안 분류 절차는 전체 [6]모집단 내에서 서로 다른 집단의 상대적 크기에 대한 사용 가능한 정보를 고려하는 자연스러운 방법을 제공한다.베이지안 절차는 계산 비용이 많이 드는 경향이 있으며, 마르코프 연쇄 몬테카를로 계산이 개발되기 전 며칠 동안 베이지안 클러스터링 규칙에 대한 근사치가 [7]고안되었다.

일부 베이지안 절차는 그룹 구성원 확률의 계산을 포함한다. 이러한 절차는 각 새로운 관찰에 대한 단일 그룹 레이블의 단순한 속성보다 더 유용한 결과를 제공한다.

이진 및 다중 클래스 분류

분류는 바이너리 분류와 멀티클래스 분류의 두 가지 문제로 생각할 수 있습니다.더 잘 이해되는 작업인 이진 분류에서는 두 개의 클래스만 포함되지만, 다중 클래스 분류에서는 [8]여러 클래스 중 하나에 개체를 할당합니다.많은 분류 방법이 이진수 분류를 위해 특별히 개발되었기 때문에 멀티클래스 분류에는 여러 이진수 분류기를 함께 사용해야 하는 경우가 많습니다.

특징 벡터

대부분의 알고리즘은 인스턴스의 측정 가능한 개별 속성의 특징 벡터를 사용하여 범주를 예측해야 하는 개별 인스턴스를 기술합니다.각 속성은 기능이라고 하며, 통계학에서는 설명 변수(또는 기능이 통계적으로 독립적일 수도 있고 그렇지 않을 수도 있지만 독립 변수)라고도 합니다.특징은 바이너리(예: "on" 또는 "off"), 범주형(예: 혈액형의 경우 "A", "B", "AB" 또는 "O"), 서수형(예: "대", "중간", "소", 정수값(예: 전자 메일에서 특정 단어의 발생 횟수)이 될 수 있습니다.인스턴스가 이미지일 경우 피쳐 값은 이미지의 픽셀에 해당할 수 있습니다.인스턴스가 텍스트 조각일 경우 피쳐 값은 다른 단어의 발생 빈도가 될 수 있습니다.일부 알고리즘은 이산 데이터에서만 작동하며, 실제 값 또는 정수 값 데이터를 그룹으로 분리해야 한다(예: 5 미만, 5-10 미만 또는 10 이상).

선형 분류기

분류를 위한 다수의 알고리즘은 닷 곱을 이용하여 인스턴스의 특징 벡터와 가중치 벡터를 조합함으로써 가능 카테고리 k에 점수를 할당하는 선형 함수로 표현될 수 있다.예측된 카테고리는 가장 높은 점수를 받은 카테고리입니다.이러한 유형의 점수 함수는 선형 예측 함수라고 하며 다음과 같은 일반적인 형식을 가집니다.

여기i X는 인스턴스 i의 특징 벡터이고k, β는 카테고리 k에 대응하는 가중치의 벡터이며, 점수(Xi, k)는 인스턴스 i를 카테고리 k에 할당하는 것과 관련된 점수이다.인스턴스가 사람을 나타내고 범주가 선택을 나타내는 이산 선택 이론에서 점수는 범주 k를 선택하는 개인 i와 관련된 효용으로 간주된다.

이 기본 설정을 사용하는 알고리즘을 선형 분류기라고 합니다.이들을 구별하는 것은 최적의 가중치/계수를 결정(훈련)하는 절차와 점수가 해석되는 방식이다.

이러한 알고리즘의 예는 다음과 같습니다.

알고리즘

모든 데이터 세트에 대해 단일 형태의 분류가 적절하지 않기 때문에, 대규모 분류 알고리즘 툴킷이 개발되었다.가장 일반적으로 사용되는 것은 다음과 같습니다.[9]

평가하기

분류기의 성능은 분류할 데이터의 특성에 따라 크게 달라진다.주어진 모든 문제에 가장 적합한 단일 분류기는 없습니다(무자유 런치 정리에 의해 설명될 수 있는 현상).분류기 성능을 비교하고 분류기 성능을 결정하는 데이터의 특성을 찾기 위해 다양한 경험적 테스트가 수행되었다.그러나 주어진 문제에 대한 적절한 분류자를 결정하는 것은 과학이라기보다는 예술에 가깝다.

측정 정밀도와 리콜은 분류 시스템의 품질을 평가하는 데 사용되는 일반적인 지표입니다.최근에는 수신기 작동 특성(ROC) 곡선이 분류 알고리즘의 참과 거짓 양성 비율 사이의 트레이드오프를 평가하기 위해 사용되었다.

성능 지표로서, 불확실성 계수는 다른 등급의 상대적 크기에 영향을 받지 않는다는 점에서 단순한 정확도보다 유리하다.[10] 또한 단순히 클래스를 재배치하는 알고리즘에 불이익을 주지 않습니다.

응용 프로그램 도메인

분류에는 많은 응용이 있다.이들 중 일부는 데이터 마이닝 절차로 사용되는 반면, 다른 일부는 보다 상세한 통계 모델링이 수행된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  2. ^ Fisher, R. A. (1938). "The Statistical Utilization of Multiple Measurements". Annals of Eugenics. 8 (4): 376–386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232.
  3. ^ a b Gnanadesikan, R.(1977) 다변량 관측치의 통계 데이터 분석 방법, Wiley.ISBN 0-471-30845-5 (83-86페이지)
  4. ^ Rao, C.R.(1952) Wiley 다변량 분석의 고급 통계 방법(섹션 9c)
  5. ^ Anderson, T.W.(1958) 다변량 통계 분석 입문, Wiley.
  6. ^ Binder, D. A. (1978). "Bayesian cluster analysis". Biometrika. 65: 31–38. doi:10.1093/biomet/65.1.31.
  7. ^ Binder, David A. (1981). "Approximations to Bayesian clustering rules". Biometrika. 68: 275–285. doi:10.1093/biomet/68.1.275.
  8. ^ Har-Peled, S., Roth, D., Zimak, D.(2003) "멀티클래스 분류 및 랭킹에 대한 제약사항 분류"인: Becker, B., Thrun, S., Obermayer, K. (Eds) 신경정보처리시스템에서의 진보 15: 2002년 회의의 진행, MIT 프레스.ISBN 0-262-02550-7
  9. ^ "A Tour of The Top 10 Algorithms for Machine Learning Newbies". Built In. 2018-01-20. Retrieved 2019-06-10.
  10. ^ Peter Mills (2011). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing. 32 (21): 6109–6132. arXiv:1202.2194. Bibcode:2011IJRS...32.6109M. doi:10.1080/01431161.2010.507795. S2CID 88518570.