피쳐 추출

Feature extraction

기계 학습, 패턴 인식 및 이미지 처리에서 피쳐 추출은 초기 측정 데이터 집합에서 시작하여 유용한 정보와 비중복적인 것으로 의도된 파생 값(피쳐)을 구축하여 후속 학습 및 일반화 단계를 용이하게 하고, 경우에 따라 인간 해석을 개선한다. 형상 추출은 차원성 감소와 관련이 있다.[1]

알고리즘에 대한 입력 데이터가 너무 커서 처리할 수 없고 중복(예: 양쪽 발과 미터에서 동일한 측정 또는 픽셀로 표시되는 이미지의 반복성)이 의심될 경우, 축소된 형상 집합(피쳐 벡터라고도 함)으로 변환할 수 있다. 초기 형상의 하위 집합을 결정하는 것을 형상 선택이라고 한다.[2] 선택한 형상은 입력 데이터의 관련 정보를 포함하고 있어 완전한 초기 데이터 대신 이 축소된 표현을 사용하여 원하는 작업을 수행할 수 있을 것으로 예상된다.

일반

기능 추출에는 대규모 데이터 집합을 설명하는 데 필요한 리소스 수를 줄이는 것이 포함된다. 복잡한 데이터의 분석을 수행할 때 주요 문제 중 하나는 관련된 변수의 수에서 비롯된다. 변수가 많은 분석은 일반적으로 많은 양의 메모리와 연산 능력을 필요로 하며, 또한 분류 알고리즘이 훈련 샘플에 과도하게 적합하고 새로운 샘플에 제대로 일반화되지 못할 수 있다. 형상 추출은 충분한 정확도로 데이터를 설명하면서 이러한 문제를 해결하기 위해 변수의 조합을 구성하는 방법에 대한 일반적인 용어다. 많은 머신러닝 실무자들은 적절하게 최적화된 피쳐 추출이 효과적인 모델 구축의 열쇠라고 믿는다.[3]

결과는 일반적으로 전문가에 의해 구축되는 애플리케이션 종속 기능의 구성된 세트를 사용하여 개선할 수 있다. 그러한 과정 중 하나는 피쳐 엔지니어링이라고 불린다. 또는 다음과 같은 일반적인 차원성 감소 기법을 사용한다.

이미지 처리

응용의 매우 중요한 영역 중 하나는 이미지 처리인데, 알고리즘을 사용하여 디지털화된 이미지나 비디오 스트림의 다양한 원하는 부분이나 모양(특징)을 감지하고 분리한다. 특히 광학 문자 인식 분야에서 중요하다.

구현

많은 데이터 분석 소프트웨어 패키지는 기능 추출 및 치수 축소를 제공한다. MATLAB, SciLab, NumPy, Sklearn 및 R 언어와 같은 일반적인 수치 프로그래밍 환경은 내장 명령을 통한 몇 가지 간단한 형상 추출 기법(예: 주성분 분석)을 제공한다. 보다 구체적인 알고리즘은 공개적으로 사용할 수 있는 스크립트 또는 타사 추가 기능으로 사용할 수 있는 경우가 많다. 피쳐 추출에 특화된 특정 소프트웨어 머신러닝 애플리케이션을 대상으로 하는 소프트웨어 패키지도 있다.[4]

참고 항목

참조

  1. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  2. ^ Alpaydin, Ethem (2010). Introduction to Machine Learning. London: The MIT Press. p. 110. ISBN 978-0-262-01243-0. Retrieved 4 February 2017.
  3. ^ "Its all about the features". Reality AI Blog. September 2017.
  4. ^ https://reality.ai/을 참조하십시오.

루스툼, 라비, 아데바요 아델로예, 오로레 시말라. 국제 심포지엄에서는 "Kohonen 자가조직지도(KSOM)가 BOD5의 MLP-ANN 예측모델을 강화하기 위한 기능을 추출했다."고 밝혔다. 지속가능한 수자원 관리를 위한 예측불확도 수량화 및 감소-국제지질물리학연맹(IUG), 제24차 총회, 페이지 181-187. 2007.