기능(기계학습)

Feature (machine learning)

기계학습 패턴인식에서 특징은 개별 측정 가능한 특성 또는 [1]현상의 특성입니다.유익하고 구별되며 독립적인 특징을 선택하는 것은 패턴 인식, 분류회귀에서 효과적인 알고리즘의 중요한 요소이다.피쳐는 일반적으로 숫자이지만 문자열 및 그래프와 같은 구조 피쳐는 구문 패턴 인식에 사용됩니다."특징"의 개념은 선형 회귀와 같은 통계 기법에 사용되는 설명 변수의 개념과 관련이 있다.

분류

수치적 특징은 특징 벡터로 쉽게 기술할 수 있다.이진 분류를 달성하는 한 가지 방법은 특징 벡터를 입력으로 하는 선형 예측 함수(퍼셉트론과 관련)를 사용하는 것입니다.이 방법은 특징 벡터와 가중치 벡터 사이의 스칼라 곱을 계산하여 결과가 임계값을 초과하는 관측치를 한정하는 것으로 구성된다.

특징 벡터로부터의 분류 알고리즘에는 가장 가까운 네이버 분류, 뉴럴 네트워크 및 베이지안 접근법 등통계 기법포함됩니다.

문자인식에 있어서 특징에는 수평방향과 수직방향에 따른 검은색 픽셀의 수, 내부 구멍의 수, 스트로크 검출 등을 카운트하는 히스토그램이 포함될 수 있다.

음성 인식에 있어서, 음소를 인식하기 위한 특징에는, 노이즈비, 소리의 길이, 상대 전력, 필터 매치등이 있습니다.

스팸 검출 알고리즘에서는, 특정의 전자 메일 헤더의 유무, 전자 메일 구조, 언어, 특정의 용어의 빈도, 텍스트의 문법적 정확성을 특징으로 하는 기능이 있습니다.

컴퓨터 비전에는 모서리 및 개체와 같은 많은 가능한 기능이 있습니다.

내선번호

패턴 인식과 기계 학습에서 특징 벡터는 어떤 대상을 나타내는 숫자 특징의 n차원 벡터이다.이러한 표현은 처리와 통계 분석을 용이하게 하기 때문에 기계학습의 많은 알고리즘은 객체의 수치 표현을 필요로 한다.영상을 나타낼 때 특징 값은 영상의 픽셀에 해당하는 반면, 텍스트를 나타낼 때 특징은 텍스트 용어의 발생 빈도가 될 수 있습니다.특징 벡터는 선형 회귀 분석과 같은 통계 절차에서 사용되는 설명 변수의 벡터와 동일합니다.예측 점수를 결정하는 데 사용되는 선형 예측 함수를 구성하기 위해 특징 벡터는 종종 도트 곱을 사용하여 가중치와 결합됩니다.

이러한 벡터와 관련된 벡터 공간을 종종 피쳐 공간이라고 합니다.특징 공간의 치수를 줄이기 위해 다수의 치수 감소 기술을 사용할 수 있다.

이미 사용 가능한 특징에서 더 높은 수준의 특징을 얻고 특징 벡터에 추가할 수 있다. 예를 들어 질병 연구의 경우 '나이' 특징이 유용하며 연령 = '죽은 해'에서 '생년'을 으로 정의된다.이 프로세스를 기능 [2][3]구성이라고 합니다.기능 구축은 구성 연산자 집합을 기존 기능 집합에 적용하여 새로운 기능을 구축하는 것입니다.그러한 건설적인 사업자의 예는 평등 조건에 대한 확인을 포함한다{=, ≠}, 산술 연산자{+,−,×,/}하는 배열과 사업자{max(S), min(S), average(S)}뿐만 아니라 다른 더 정교한 사업자, 예를 들어 countᆬ[4]는 계산 수의 기능에서 형상 벡터 S만족하는 일부 조건 C나, exa.융점le, 일부 수용 장치에 의해 일반화된 다른 인식 클래스까지의 거리.기능 구성은 특히 고차원 문제에서 [5]구조의 정확성과 이해를 높이기 위한 강력한 도구로 오랫동안 여겨져 왔다.응용 분야에는 질병 및 [6]언어로부터의 감정 인식 연구가 포함됩니다.

선택 및 추출

초기 원시 기능 세트는 중복될 수 있으며 너무 커서 관리할 수 없습니다.따라서 많은 기계 학습패턴 인식 응용 프로그램의 예비 단계는 기능의 하위 집합을 선택하거나 학습을 촉진하고 일반화와 해석성을[citation needed] 개선하기 위해 새로운 기능 및 축소된 기능 세트를 구성하는 것이다.

특징을 추출하거나 선택하는 것은 예술과 과학의 조합입니다.그러기 위한 시스템을 개발하는 것을 특징 공학이라고 합니다.여기에는 다양한 가능성을 실험하고 도메인 전문가의 직관과 지식을 갖춘 자동화된 기술의 조합이 필요합니다.이 프로세스를 자동화하는 것은 기능 학습입니다.기계는 학습에 기능을 사용할 뿐만 아니라 기능 자체를 학습합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Bishop, Christopher (2006). Pattern recognition and machine learning. Berlin: Springer. ISBN 0-387-31073-8.
  2. ^ Liu, H., Motoda H.(1998) 지식 발견 및 데이터 마이닝을 위한 기능 선택, Kluwer Academic Publishers.노웰, 매사추세츠, 1998년
  3. ^ 피라무투, S., 시코라 R.T. 귀납적 학습 알고리즘을 개선하기 위한 반복적 기능 구성.어플리케이션을 포함한 Expert Systems 저널에 기재되어 있습니다.제36권, 제2호(2009년 3월), 3401-3406페이지, 2009년
  4. ^ Bloedorn, E., Michalski, R. Data-drived constructive induction: 방법론과 그 응용.IEEE 인텔리전트 시스템, 기능 변환 및 서브셋 선택에 관한 특별호, 페이지 30-37, 1998년 3월/4월
  5. ^ Breiman, L. Friedman, T., Olshen, R., Stone, C.(1984) 분류회귀 나무, Wadsworth
  6. ^ 시도로바, J, 바디아 TESEDA.1을 위한 구문 학습, 향상된 음성 감정 감지분석을 위한 도구.인터넷 테크놀로지 및 시큐어 트랜잭션 컨퍼런스 2009(ICITST-2009), 11월 9일부터 12일까지 런던.IEEE