피쳐 선택

Feature selection

기계 학습통계에서, 가변 선택, 속성 선택 또는 가변 서브셋 선택이라고도 하는 형상 선택은 모델 구성에 사용할 관련 형상(변수, 예측 변수)의 하위 집합을 선택하는 과정이다. 형상 선택 기법은 다음과 같은 몇 가지 이유로 사용된다.

  • 모델을 단순화하여 연구자/사용자가 해석하기 쉽게 한다.[1]
  • 짧은 훈련 시간,[2]
  • 차원성의 저주를 피하기 [3]위해
  • 학습 모델 수업과의 데이터 호환성 [4]향상
  • 입력 공간에 존재하는 고유 대칭을 인코딩한다.[5][6][7][8]

형상 선택 기법을 사용할 때 중심 전제는 데이터가 중복되거나 관련이 없는 일부 특징을 포함하고 있기 때문에 정보 손실을 크게 일으키지 않고 제거할 수 있다는 것이다.[9] 하나의 관련 특성은 그것이 강하게 상관되는 다른 관련 특성의 존재에서 중복될 수 있기 때문에 중복성과 관련성은 두 가지 뚜렷한 개념이다.[10]

형상 선택 기법은 형상 추출과 구별되어야 한다.[11] 피쳐 추출은 원래 피쳐의 기능에서 새로운 피쳐를 생성하는 반면 피쳐 선택은 피쳐의 하위 집합을 반환한다. 피쳐 선택 기법은 피쳐가 많고 상대적으로 샘플(또는 데이터 포인트)이 적은 도메인에서 종종 사용된다. 형상선정을 위한 원형 사례로는 수천 개의 형상이 존재하는 서면 텍스트DNA 마이크로어레이 데이터 분석, 수 십에서 수백 개의 표본 분석 등이 있다.

소개

형상 선택 알고리즘은 다양한 형상 부분 집합을 점수화하는 평가 측도와 함께 새로운 형상 부분 집합을 제안하기 위한 검색 기법이 결합된 것으로 볼 수 있다. 가장 간단한 알고리즘은 오류율을 최소화하는 기능을 찾는 가능한 각 기능 하위 집합을 테스트하는 것이다. 이것은 공간에 대한 철저한 조사로, 가장 작은 특징 세트를 제외한 모든 특징에 대해 계산적으로 난해한 것이다. 평가 메트릭의 선택은 알고리즘에 큰 영향을 미치며, 이러한 평가 메트릭은 특성 선택 알고리즘의 세 가지 주요 범주(패퍼, 필터 및 내장 방법)를 구별하는 것이다.[10]

  • 래퍼 메서드는 예측 모델을 사용하여 피쳐 하위 세트를 점수 매긴다. 각각의 새로운 서브셋은 모델을 훈련시키기 위해 사용되며, 이는 홀드아웃 세트에서 시험된다. 보류 집합에서 발생한 실수 수(모델의 오류율)를 계산하면 해당 부분 집합에 대한 점수가 나온다. 래퍼 방식은 각 서브셋에 대해 새로운 모델을 훈련시킬 때, 그것들은 매우 계산적으로 집약적이지만, 일반적으로 그러한 특정 유형의 모델이나 일반적인 문제에 대해 최상의 기능 세트를 제공한다.
  • 필터 방법은 오류율 대신 프록시 측정값을 사용하여 형상 부분 집합을 점수화한다. 이 측정치는 계산 속도가 빠르면서도 기능 세트의 유용성을 포착하기 위해 선택된다. 공통 척도에는 상호 정보,[10] 포인트와이즈 상호 정보,[12] Pearson 제품-순간 상관 계수, 완화 기반 알고리즘 [13]및 클래스 간 거리 또는 각 클래스/특성 조합에 대한 유의성 시험 점수가 포함된다.[12][14] 필터는 보통 포장지에 비해 계산 집약도가 낮지만 특정 유형의 예측 모델에 맞춰 조정되지 않은 기능 세트를 생성한다.[15] 이러한 튜닝 부족은 필터의 피쳐 세트가 래퍼의 세트보다 일반적이며 일반적으로 래퍼보다 낮은 예측 성능을 제공한다는 것을 의미한다. 그러나 형상 집합에는 예측 모형의 가정이 포함되어 있지 않으므로 형상 간의 관계를 노출하는 데 더 유용하다. 많은 필터는 명시적인 최량 피쳐 부분집합이 아닌 피쳐 순위를 제공하며, 랭킹의 컷오프 지점은 교차 검증을 통해 선택된다. 필터 방법은 또한 포장지 방법의 사전 처리 단계로 사용되어 더 큰 문제에 포장지를 사용할 수 있게 되었다. 또 다른 일반적인 접근방식은 반복적으로 모델을 구성하고 저중량으로 형상을 제거하기 위해 Support Vector Machine과 함께 일반적으로 사용되는 Repursive Feature Removal 알고리즘이다.[16]
  • 임베디드 방법은 모델 구성 과정의 일부로 형상 선택을 수행하는 모든 기법의 집합이다. 이 접근방식의 예로는 선형 모델을 구축하기 위한 LASSO 방법이 있는데, 이 방법은 L1 패널티로 회귀 계수를 벌칙하여 많은 계수를 0으로 축소시킨다. 회귀 계수가 0이 아닌 형상은 LASSO 알고리즘에 의해 '선택'된다. RASSO 개선사항으로는 시료를 부트스트랩하는 볼라소,[17] RASSO의 L1 페널티와 능선회귀의 L2 페널티를 결합한 탄력적정규화, 회귀계수의 조합해석을 바탕으로 모든 형상을 채점하는 FeaElect 등이 있다.[18] AEFS는 자동 코딩기를 사용한 비선형 시나리오까지 LASSO를 확장한다.[19] 이러한 접근법은 계산 복잡성의 측면에서 필터와 포장지 사이에 있는 경향이 있다.

전통적인 회귀 분석에서 특징 선택의 가장 일반적인 형태는 단계적 회귀 분석인데, 이것은 포장 기법이다. 라운드마다 최고의 피쳐를 추가(또는 최악의 피쳐를 삭제)하는 욕심 많은 알고리즘이다. 주된 제어 문제는 알고리즘을 언제 중지할지를 결정하는 것이다. 기계 학습에서 이것은 일반적으로 교차 검증에 의해 이루어진다. 통계학에서는 일부 기준이 최적화되어 있다. 이것은 보금자리 보금자리 본연의 문제로 이어진다. 분기경계 및 조각상 선형 네트워크와 같은 보다 강력한 방법을 탐구하였다.

부분 집합 선택

부분 집합 선택은 적합성에 대한 그룹으로 형상의 부분 집합을 평가한다. 부분집합 선택 알고리즘은 포장지, 필터, 임베디드 방식으로 나눌 수 있다. 래퍼는 검색 알고리즘을 사용하여 가능한 형상의 공간을 검색하고 서브셋에서 모델을 실행하여 각 서브셋을 평가한다. 포장지는 계산적으로 비쌀 수 있으며 모델에 과도하게 적합될 위험이 있다. 필터는 검색 접근방식의 래퍼와 유사하지만 모델에 대해 평가하는 대신 더 간단한 필터를 평가한다. 내재된 기법은 모델에 내장되어 있으며 특정 모델에 한정되어 있다.

많은 인기 있는 검색 접근법은 탐욕스러운 언덕 등반을 사용하는데, 이것은 반복적으로 후보 특징의 부분 집합을 평가한 다음 부분 집합을 수정하고 새로운 부분 집합이 이전 부분보다 개선되었는지 여부를 평가한다. 하위 집합을 평가하려면 형상의 하위 집합을 등급으로 지정하는 점수 메트릭이 필요하다. 철저한 검색은 일반적으로 비실용적이기 때문에 어떤 구현자(또는 운영자)가 정의한 정지점에서는 해당 지점까지 발견된 최고 점수를 가진 형상 부분집합이 만족스러운 형상 부분집합으로 선택된다. 정지 기준은 알고리즘에 따라 달라진다. 가능한 기준은 서브셋 점수가 임계값을 초과하며 프로그램의 최대 허용 실행 시간이 초과된 경우 등이다.

대체 검색 기반 기법은 점수가 높은 데이터의 저차원 투영을 찾는 표적 투영 추구에 기초한다. 즉, 저차원 공간에서 가장 큰 투영을 갖는 형상이 선택된다.

검색 접근법에는 다음이 포함된다.

분류 문제에 대한 두 가지 일반적인 필터 지표는 상관관계상호 정보로, 비록 수학적 의미에서 진정한 측정 기준이나 '거리 측정'은 아니지만, 삼각형 불평등을 따르지 않고 따라서 실제 '거리'를 계산하지 않기 때문에, 오히려 '점수'로 간주되어야 한다. 이 점수는 후보 피쳐(또는 피쳐 세트)와 원하는 출력 범주 사이에서 계산된다. 그러나 상호 정보의 단순한 기능인 진정한 메트릭스가 있다.[30] 여기를 참조하십시오.

기타 사용 가능한 필터 메트릭은 다음과 같다.

  • 계급분리성
  • 일관성 기반 기능 선택
  • 상관 기반 피쳐 선택

최적성 기준

형상선정 과제에 여러 가지 목적이 있기 때문에 최적성 기준의 선택은 어렵다. 많은 공통 기준에는 선택한 형상의 수로 벌점을 받는 정확도 측도가 포함된다. 각각의 추가된 특징에 대해 2의 패널티를 갖는 Akaike 정보 기준(AIC)과 Mallows의 Cp 그 예다. AIC는 정보이론에 기초하며, 최대 엔트로피 원리를 통해 효과적으로 도출된다.[31][32]

Other criteria are Bayesian information criterion (BIC), which uses a penalty of for each added feature, minimum description length (MDL) which asymptotically uses , Bonferroni / RIC which use 최대 종속성 특징 선택 및 에 가까운 것을 사용하는 잘못된 검색 속도에 의해 동기 부여되는 다양한 새로운 기준 최대 엔트로피 비율 도 가장 적절한 기능의 하위 집합을 선택하는 데 사용할 수 있다[33]

구조학습

필터 피쳐 선택은 구조 학습이라 불리는 보다 일반적인 패러다임의 특정한 경우다. 피쳐 선택은 특정 대상 변수에 대한 관련 피쳐 세트를 찾는 반면 구조 학습은 일반적으로 이러한 관계를 그래프로 표현함으로써 모든 변수 사이의 관계를 찾는다. 가장 일반적인 구조 학습 알고리즘은 데이터가 베이시안 네트워크에 의해 생성된다고 가정하며, 따라서 구조는 지시그래픽 모델이다. 필터 기능 선택 문제에 대한 최적의 해결책은 대상 노드의 마르코프 블랭킷이며, 베이시안 네트워크에는 각 노드마다 고유한 마르코프 블랭킷이 있다.[34]

정보이론 기반 특성 선택 메커니즘

서로 다른 형상을 채점하기 위해 상호 정보를 활용하는 다양한 형상 선택 메커니즘이 주변에 있다. 일반적으로 동일한 알고리즘을 모두 사용한다.

  1. 모든 기능( F과 대상 클래스(c) 사이의 점수로 상호 정보를 계산하십시오.
  2. 가장 큰 점수(예: f ( (f ,c f_를 선택하여 선택한 기능 집합에 추가하십시오.
  3. 상호 정보에서 도출될 수 있는 점수 계산
  4. 점수가 가장 큰 형상을 선택하고 선택한 기능 집합에 추가하십시오: f F( , )derived
  5. 특정 개수의 형상이 선택될 때까지(: S= 3. 및 4.를 반복하십시오

가장 단순한 접근방식은 상호 정보를 "원래" 점수로 사용한다.[35]

그러나 기능 간 중복성을 줄이려는 접근법은 다르다.

최소 재분산-최대 범위(mRMR) 피쳐 선택

[36]연구진은 상호 정보, 상관 관계 또는 거리/비슷한 점수를 사용하여 형상을 선택할 수 있는 형상 선택 방법을 제안했다. 목적은 선택된 다른 기능들이 있는 상태에서 기능의 중복성에 의해 기능의 관련성을 처벌하는 것이다. 등급 c에 대한 형상 집합 S의 관련성은 다음과 같이 개별 형상 fi 등급 c 사이의 모든 상호 정보 값의 평균 값으로 정의된다.

( S, )= S f (i ; ) .

세트 S의 모든 형상의 중복성은 fi 형상과 fj 형상의 모든 상호 정보 값의 평균값이다.

mRMR 기준은 위에서 제시한 두 가지 조치의 조합으로 다음과 같이 정의된다.

풀세트 기능이 n개 있다고 가정해 보십시오. xii=1은 존재감을 나타내고 xi=0은 전역 최적 형상 집합에서 fi 형상이 없음을 나타내도록 fi 형상에 대해 설정된 멤버쉽 표시기 함수가 되도록 한다. c= ( ; c) i = ; ) . 그 다음, 위의 내용은 최적화 문제로 기록될 수 있다.

mRMR 알고리즘은 이론적으로 최적의 최대 종속 형상 선택 알고리즘의 근사치로, 선택된 형상의 공동 분포와 분류 변수 사이의 상호 정보를 최대화한다. mRMR은 두 변수만을 포함하는 훨씬 더 작은 일련의 문제와 결합 추정 문제를 근사하므로, 따라서 보다 견고한 쌍방향의 결합 확률을 사용한다. 특정 상황에서 알고리즘은 관련성을 증가시킬 수 있는 형상들 간의 상호작용을 측정할 방법이 없기 때문에 형상의 유용성을 과소평가할 수 있다. 이는 특징이 개별적으로 무용지물일 때 성능[35] 저하를 초래할 수 있지만 결합할 때 유용하다(클래스가 형상의 패리티 함수일 때 병리학적 사례가 발견된다). 전체적으로 알고리즘은 이론적으로 최적의 최대 종속성 선택보다 (필요한 데이터의 양 측면에서) 더 효율적이지만, 쌍으로 된 중복성이 거의 없는 기능 세트를 생산한다.

mRMR은 서로 다른 방식으로 관련성과 중복성 사이에서 교환하는 대규모 필터 방법의 한 예다.[35][37]

2차 프로그래밍 피쳐 선택

mRMR은 피쳐 선택을 위한 점증적 탐욕 전략의 전형적인 예로서, 피쳐를 선택한 후에는 나중의 단계에서 선택을 취소할 수 없다. mRMR은 일부 기능을 줄이기 위해 부동 검색을 사용하여 최적화할 수 있지만, 다음과 같이 글로벌 2차 프로그래밍 최적화 문제로 재조정될 수도 있다.[38]

여기서 =[ I( ; c),… ,I( ; ) is the vector of feature relevancy assuming there are n features in total, is the matrix of feature pairwise redundancy, and represents relative feat요소 역기 QPFS는 2차 프로그래밍을 통해 해결된다. QFPS는 H의 대각선 상에 형상 자기 중복 용어 i i 를 배치하기 때문에 [39]엔트로피가 작은 형상에 치우친 것으로 최근 나타났다.

조건상호정보

상호 정보에 대해 도출된 또 다른 점수는 조건부 관련성에 기초한다.[39]

여기서 = ( ) = i; i j j

SPECCMI 장점은 Q의 지배적인 고유 벡터를 찾는 것만으로 해결할 수 있어 확장성이 매우 높다는 것이다. SPECCMI 2차 피쳐 상호 작용도 처리한다.

공동상호정보

서로 다른 점수에 대한 연구에서 브라운 외 연구진은 피쳐 선택을 위한 좋은 점수로 공동 상호 정보[40] 추천했다.[35] 점수는 중복성을 피하기 위해 이미 선택된 기능에 가장 새로운 정보를 추가하는 형상을 찾으려고 한다. 점수는 다음과 같이 공식화된다.

점수는 조건부 상호 정보상호 정보를 사용하여 이미 선택된 기능( S S과 조사 중인 기능( 사이의 중복성을 추정한다.

Hilbert-Schmidt 독립 기준 Lasso 기반 형상 선택

고차원 및 소량 표본 데이터(예: 치수 > 105 및 표본 수 < 103)의 경우 힐버트-슈미트 독립 기준 라소(HSIC Lasso)가 유용하다.[41] HSIC Lasso 최적화 문제는 다음과 같이 제시된다.

여기서 ( k, c)= ( ( ) L is a kernel-based independence measure called the (empirical) Hilbert-Schmidt independence criterion (HSIC), denotes the trace, is the regularization parameter, and are input and output centered Gram matrices, and are Gram matrices, and are kernel functions, is the centering matrix, is the m-dimensional identity matrix (m: the number of samples), is the m-dimensional vector with all ones, and is the -norm. HSIC는 항상 음이 아닌 값을 취하며, 가우스 커널과 같은 범용 재생산 커널을 사용할 때 두 개의 랜덤 변수가 통계적으로 독립되어 있는 경우에만 0이다.

HSIC 라소는 다음과 같이 쓸 수 있다.

여기서 \는 프로베니우스 표준이다. 최적화 문제는 라소 문제여서 듀얼 증강 라그랑지안 방식 등 최첨단 라소솔루버로 효율적으로 해결할 수 있다.

상관 피쳐 선택

상관 형상 선택(CFS) 측정은 "좋은 형상 부분 집합은 분류와 상관관계가 높지만 서로 상관관계가 없는 형상을 포함한다"[42][43]라는 가설을 근거로 형상의 부분 집합을 평가한다. 다음 방정식은 k 형상으로 구성된 형상 부분집합 S의 장점을 제공한다.

여기서 은(는) 모든 형상 분류 상관관계의 평균값이며, f(는) 모든 형상 특성 상관관계의 평균값이다. CFS 기준은 다음과 같이 정의된다.

(와) 변수를 상관 계수라고 부르지만 반드시 Pearson의 상관 계수스피어맨의 ρ은 아니다. 홀의 논문은 이 두 가지를 모두 사용하지 않고 관련성, 최소 기술 길이(MDL), 대칭적 불확실성, 완화성의 세 가지 다른 척도를 사용한다.

xi 형상 fi 대해 설정된 멤버십 지표 함수로 하고, 위의 내용을 최적화 문제로 다시 작성할 수 있다.

위의 결합 문제는 실제로 분기 및 바인딩 알고리즘을 사용하여 해결할 수 있는 0–1 선형 프로그래밍의 혼합 문제들이다.[44]

정규화된 나무

의사결정 트리나 트리 앙상블의 특징은 중복된 것으로 보인다. 정규화된 트리라는[45] 최근 방법을 형상 부분 집합 선택에 사용할 수 있다. 정규화된 트리는 현재 노드를 분할하기 위해 이전 트리 노드에서 선택한 변수와 유사한 변수를 사용하여 불이익을 준다. 정규화된 트리는 하나의 트리 모델(또는 하나의 트리 앙상블 모델)만 구축하면 되기 때문에 계산적으로 효율적이다.

정규화된 트리는 자연스레 수치와 범주형 특징, 상호작용과 비선형성을 처리한다. 이들은 척도(단위)를 속성에 불변하며 특이치에 민감하지 않기 때문에 정규화와 같은 데이터 사전 처리가 거의 필요하지 않다. 정규화된 무작위 숲(RRF)[46]은 정규화된 나무의 한 유형이다. 안내된 RRF는 일반 무작위 포리스트의 중요도 점수로 안내되는 향상된 RRF이다.

메타휴리스틱스 방법 개요

메타휴리스틱은 고전적 해결 방법이 없는 어려운(일반적으로 NP-하드 문제) 최적화 문제를 해결하기 위한 전용 알고리즘의 일반적인 설명이다. 일반적으로 메타휴리스틱은 전지구적 최적점에 도달하기 위한 확률적 알고리즘이다. 단순한 로컬 검색에서 복잡한 글로벌 검색 알고리즘에 이르기까지 많은 메타휴리스틱스가 있다.

주요 원리

형상선정방법은 전형적으로 선택 알고리즘과 모델 구축을 결합하는 방법에 따라 세 가지 등급으로 제시된다.

여과법

피쳐 선택을 위한 필터 방법

필터 유형 방법은 모형에 관계없이 변수를 선택한다. 예측해야 할 변수와의 상관관계와 같은 일반적인 특징에만 기초한다. 필터 방법은 가장 관심 없는 변수를 억제한다. 다른 변수는 데이터를 분류하거나 예측하는 데 사용되는 분류 또는 회귀 모형의 일부일 것이다. 이러한 방법은 특히 시간 계산에 효과적이며 오버피팅에 강하다.[47]

필터 방법은 변수 간의 관계를 고려하지 않을 때 중복 변수를 선택하는 경향이 있다. 그러나 보다 정교한 기능들은 고속 상관 기반 필터(FCBF) 알고리즘과 같이 상호 연관성이 높은 변수를 제거함으로써 이 문제를 최소화하려고 한다.[48]

래퍼 방식

특성 선택을 위한 래퍼 방법

래퍼 방법은 필터 접근방식과 달리 변수 사이의 가능한 상호작용을 탐지할 수 있는 변수의 하위 집합을 평가한다.[49] 이러한 방법의 두 가지 주요 단점은 다음과 같다.

  • 관측치의 수가 충분하지 않을 때 적합도가 높은 위험 증가.
  • 변수 수가 큰 경우의 유의한 계산 시간.

임베디드 방식

피쳐 선택을 위한 내장형 방법

두 가지 이전 방법의 장점을 결합하려고 하는 임베디드 방법이 최근 제안되었다. 학습 알고리즘은 자체 가변 선택 프로세스를 활용하고 FRMT 알고리즘과 같이 형상 선택과 분류를 동시에 수행한다.[50]

형상선택 메타휴리스틱스 적용

최근 문헌에 사용된 피쳐 선택 메타휴리스틱스 적용에 대한 조사다. 이 조사는 J. Hammon이 2013년 논문에서 실현한 것이다.[47]

적용 알고리즘. 접근하다 분류기 평가 함수 참조
SNPs 형상 유사성을 사용한 형상 선택 필터 r2 푸엉 2005[49]
SNPs 유전 알고리즘 포장지 의사 결정 트리 분류 정확도(10배) 샤 2004년[51]
SNPs 힐 클라이밍 필터 + 래퍼 순진한 베이시안 예측 잔차 제곱합 롱 2007년[52]
SNPs 시뮬레이션 어닐링 순진한 베이지안 분류 정확도(5배) 우스툰카 2011[53]
세그먼트 가석방 개미 군락 포장지 인공신경망 MSE 알아니 2005[citation needed]
마케팅 시뮬레이션 어닐링 포장지 회귀 AIC, r2 메이리 2006[54]
경제학 시뮬레이션 어닐링, 유전 알고리즘 포장지 회귀 BIC 카페타니오스 2007[55]
스펙트럼 질량 유전 알고리즘 포장지 다중 선형 회귀 분석, 부분 최소 제곱 예측의 루트-수정-제곱 오차 브로드허스트 외 1997년[56]
스팸 이진 PSO + 돌연변이 포장지 결정 트리 가중원가 2014년[25]
마이크로어레이 Tabu 검색 + PSO 포장지 지원 벡터 머신, K 가장 가까운 이웃 유클리드 거리 츄앙 2009[57]
마이크로어레이 PSO + 유전 알고리즘 포장지 서포트 벡터 머신 분류 정확도(10배) 알바 2007[58]
마이크로어레이 유전 알고리즘 + 반복 로컬 검색 임베디드 서포트 벡터 머신 분류 정확도(10배) 듀발 2009[59]
마이크로어레이 반복된 로컬 검색 포장지 회귀 후행 확률 한스 2007[60]
마이크로어레이 유전 알고리즘 포장지 K 가장 가까운 이웃들 분류 정확도(Lep-one-out 교차 검증) 지라페흐우페이 2005[61]
마이크로어레이 하이브리드 유전 알고리즘 포장지 K 가장 가까운 이웃들 분류 정확도(Lep-one-out 교차 검증) 오 2004년[62]
마이크로어레이 유전 알고리즘 포장지 서포트 벡터 머신 민감성 및 특수성 쉬안 2011[63]
마이크로어레이 유전 알고리즘 포장지 쌍으로 구성된 모든 지원 벡터 머신 분류 정확도(Lep-one-out 교차 검증) 펑 2003년[64]
마이크로어레이 유전 알고리즘 임베디드 서포트 벡터 머신 분류 정확도(10배) 에르난데스 2007[65]
마이크로어레이 유전 알고리즘 잡종 서포트 벡터 머신 분류 정확도(Lep-one-out 교차 검증) 후에르타 2006[66]
마이크로어레이 유전 알고리즘 서포트 벡터 머신 분류 정확도(10배) 무니 2006[67]
마이크로어레이 유전 알고리즘 포장지 서포트 벡터 머신 EH-DILL, 클럼프 2005년[68] 주르단
알츠하이머병 웰치의 t-테스트 필터 서포트 벡터 머신 분류 정확도(10배) 2015년[69]
컴퓨터 비전 무한 피쳐 선택 필터 독립적 평균 정밀도, ROC AUC 로포 2015[70]
마이크로레이 아이겐벡터 중앙성 FS 필터 독립적 평균 정밀도, 정확도, ROC AUC 로포 & 멜지 2016[71]
XML 대칭 타우(ST) 필터 구조 연관 분류 정확도, 적용 범위 샤하라니 & 하디치 2014

학습 알고리즘에 포함된 기능 선택

일부 학습 알고리즘은 전체 작동의 일부로 피쳐 선택을 수행한다. 여기에는 다음이 포함된다.

  • - 스파스 회귀 분석, LASSO 및 -SVM 등 정규화 기법
  • 정규화된 트리([45]예: RRF 패키지에[46] 구현된 정규화된 랜덤 포리스트)
  • 결정 트리[72]
  • 메미틱 알고리즘
  • RMNL(Random 다항 로짓)
  • 병목 계층을 사용하여 네트워크 자동 인코딩
  • 하위 모델 피쳐 선택[73][74][75]
  • 로컬 학습 기반 기능 선택.[76] 기존 방식과 비교하면 휴리스틱 검색이 전혀 수반되지 않고, 멀티클래스 문제를 쉽게 처리할 수 있으며, 선형 및 비선형 문제 모두에 효과가 있다. 또한 강력한 이론적 토대가 뒷받침하고 있다. 수치 실험 결과, 데이터에 1M 이상의 관련성이 없는 기능이 포함되어 있어도 최적화에 가까운 솔루션을 얻을 수 있는 것으로 나타났다.
  • 피쳐 선택을 기반으로 한 추천자 시스템.[77] 추천자 시스템 연구에 특징 선정 방법을 도입한다.

참고 항목

참조

  1. ^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. p. 204.
  2. ^ Brank, Janez; Mladenić, Dunja; Grobelnik, Marko; Liu, Huan; Mladenić, Dunja; Flach, Peter A.; Garriga, Gemma C.; Toivonen, Hannu; Toivonen, Hannu (2011), "Feature Selection", in Sammut, Claude; Webb, Geoffrey I. (eds.), Encyclopedia of Machine Learning, Boston, MA: Springer US, pp. 402–406, doi:10.1007/978-0-387-30164-8_306, ISBN 978-0-387-30768-8, retrieved 2021-07-13
  3. ^ Kramer, Mark A. (1991). "Nonlinear principal component analysis using autoassociative neural networks". AIChE Journal. 37 (2): 233–243. doi:10.1002/aic.690370209. ISSN 1547-5905.
  4. ^ Kratsios, Anastasis; Hyndman, Cody (2021). "NEU: A Meta-Algorithm for Universal UAP-Invariant Feature Representation". Journal of Machine Learning Research. 22 (92): 1–51. ISSN 1533-7928.
  5. ^ Persello, Claudio; Bruzzone, Lorenzo (July 2014). "Relevant and invariant feature selection of hyperspectral images for domain generalization". 2014 IEEE Geoscience and Remote Sensing Symposium. IEEE: 3562–3565. doi:10.1109/igarss.2014.6947252. ISBN 978-1-4799-5775-0. S2CID 8368258.
  6. ^ Hinkle, Jacob; Muralidharan, Prasanna; Fletcher, P. Thomas; Joshi, Sarang (2012). Fitzgibbon, Andrew; Lazebnik, Svetlana; Perona, Pietro; Sato, Yoichi; Schmid, Cordelia (eds.). "Polynomial Regression on Riemannian Manifolds". Computer Vision – ECCV 2012. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. 7574: 1–14. arXiv:1201.2395. doi:10.1007/978-3-642-33712-3_1. ISBN 978-3-642-33712-3. S2CID 8849753.
  7. ^ Yarotsky, Dmitry (2021-04-30). "Universal Approximations of Invariant Maps by Neural Networks". Constructive Approximation. arXiv:1804.10306. doi:10.1007/s00365-021-09546-1. ISSN 1432-0940. S2CID 13745401.
  8. ^ Hauberg, Søren; Lauze, François; Pedersen, Kim Steenstrup (2013-05-01). "Unscented Kalman Filtering on Riemannian Manifolds". Journal of Mathematical Imaging and Vision. 46 (1): 103–120. doi:10.1007/s10851-012-0372-9. ISSN 1573-7683. S2CID 8501814.
  9. ^ Kratsios, Anastasis; Hyndman, Cody (June 8, 2021). "NEU: A Meta-Algorithm for Universal UAP-Invariant Feature Representation". JMLR. 22: 1−51. Bibcode:2015NatSR...510312B.
  10. ^ a b c Guyon, Isabelle; Elisseeff, André (2003). "An Introduction to Variable and Feature Selection". JMLR. 3.
  11. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  12. ^ a b Yang, Yiming; Pedersen, Jan O. (1997). A comparative study on feature selection in text categorization (PDF). ICML.
  13. ^ Urbanowicz, Ryan J.; Meeker, Melissa; LaCava, William; Olson, Randal S.; Moore, Jason H. (2018). "Relief-Based Feature Selection: Introduction and Review". Journal of Biomedical Informatics. 85: 189–203. arXiv:1711.08421. doi:10.1016/j.jbi.2018.07.014. PMC 6299836. PMID 30031057.
  14. ^ Forman, George (2003). "An extensive empirical study of feature selection metrics for text classification" (PDF). Journal of Machine Learning Research. 3: 1289–1305.
  15. ^ Yishi Zhang; Shujuan Li; Teng Wang; Zigang Zhang (2013). "Divergence-based feature selection for separate classes". Neurocomputing. 101 (4): 32–42. doi:10.1016/j.neucom.2012.06.036.
  16. ^ Guyon I.; Weston J.; Barnhill S.; Vapnik V. (2002). "Gene selection for cancer classification using support vector machines". Machine Learning. 46 (1–3): 389–422. doi:10.1023/A:1012487302797.
  17. ^ Bach, Francis R (2008). Bolasso: model consistent lasso estimation through the bootstrap. Proceedings of the 25th International Conference on Machine Learning. pp. 33–40. doi:10.1145/1390156.1390161. ISBN 9781605582054. S2CID 609778.
  18. ^ Zare, Habil (2013). "Scoring relevancy of features based on combinatorial analysis of Lasso with application to lymphoma diagnosis". BMC Genomics. 14: S14. doi:10.1186/1471-2164-14-S1-S14. PMC 3549810. PMID 23369194.
  19. ^ Kai Han; Yunhe Wang; Chao Zhang; Chao Li; Chao Xu (2018). Autoencoder inspired unsupervised feature selection. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
  20. ^ Hazimeh, Hussein; Mazumder, Rahul; Saab, Ali (2020). "Sparse Regression at Scale: Branch-and-Bound rooted in First-Order Optimization". arXiv:2004.06152 [stat.CO].
  21. ^ Soufan, Othman; Kleftogiannis, Dimitrios; Kalnis, Panos; Bajic, Vladimir B. (2015-02-26). "DWFS: A Wrapper Feature Selection Tool Based on a Parallel Genetic Algorithm". PLOS ONE. 10 (2): e0117988. Bibcode:2015PLoSO..1017988S. doi:10.1371/journal.pone.0117988. ISSN 1932-6203. PMC 4342225. PMID 25719748.
  22. ^ Figueroa, Alejandro (2015). "Exploring effective features for recognizing the user intent behind web queries". Computers in Industry. 68: 162–169. doi:10.1016/j.compind.2015.01.005.
  23. ^ Figueroa, Alejandro; Guenter Neumann (2013). Learning to Rank Effective Paraphrases from Query Logs for Community Question Answering. AAAI.
  24. ^ Figueroa, Alejandro; Guenter Neumann (2014). "Category-specific models for ranking effective paraphrases in community Question Answering". Expert Systems with Applications. 41 (10): 4730–4742. doi:10.1016/j.eswa.2014.02.004. hdl:10533/196878.
  25. ^ a b Zhang, Y.; Wang, S.; Phillips, P. (2014). "Binary PSO with Mutation Operator for Feature Selection using Decision Tree applied to Spam Detection". Knowledge-Based Systems. 64: 22–31. doi:10.1016/j.knosys.2014.03.015.
  26. ^ FC 가르시아 로페즈, M 가르시아 토레스, B 멜리안, J.A. 모레노페레스, J.M. 모레노베가. Parallel Spant Search, European Journal of Operational Research, vol. 169, 2, 페이지 477–489, 2006에 의한 형상 부분 집합 선택 문제 해결.
  27. ^ García-Torres, Miguel; Gómez-Vela, Francisco; Divina, Federico; Pinto-Roa, Diego P.; Noguera, José Luis Vázquez; Román, Julio C. Mello (2021). "Scatter search for high-dimensional feature selection using feature grouping". Proceedings of the Genetic and Evolutionary Computation Conference Companion. pp. 149–150. doi:10.1145/3449726.3459481. ISBN 9781450383516. S2CID 235770316.
  28. ^ FC 가르시아 로페즈, M 가르시아 토레스, B 멜리안, J.A. 모레노페레스, J.M. 모레노베가. 하이브리드 메타휴리스틱에 의한 피쳐 부분 집합 선택 문제 해결. 하이브리드 메타휴리스틱스에 관한 제1차 국제 워크숍, 페이지 59–68, 2004.
  29. ^ 가르시아-토레스, F. 고메즈벨라, B. 멜리안, J.M 모레노베가 피쳐 그룹화를 통한 고차원 피쳐 선택: Variable Neighborhood Search 접근방식, 정보과학, vol. 326, 페이지 102-118, 2016.
  30. ^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G; Grassberger, Peter (2003). "Hierarchical Clustering Based on Mutual Information". arXiv:q-bio/0311039. Bibcode:2003q.bio....11039K. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  31. ^ Akaike, H. (1985), "Prediction and entropy", in Atkinson, A. C.; Fienberg, S. E. (eds.), A Celebration of Statistics (PDF), Springer, pp. 1–24.
  32. ^ Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference: A practical information-theoretic approach (2nd ed.), Springer-Verlag, ISBN 9780387953649.
  33. ^ Einicke, G. A. (2018). "Maximum-Entropy Rate Selection of Features for Classifying Changes in Knee and Ankle Dynamics During Running". IEEE Journal of Biomedical and Health Informatics. 28 (4): 1097–1103. doi:10.1109/JBHI.2017.2711487. PMID 29969403. S2CID 49555941.
  34. ^ Aliferis, Constantin (2010). "Local causal and markov blanket induction for causal discovery and feature selection for classification part I: Algorithms and empirical evaluation" (PDF). Journal of Machine Learning Research. 11: 171–234.
  35. ^ a b c d Brown, Gavin; Pocock, Adam; Zhao, Ming-Jie; Luján, Mikel (2012). "Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection". Journal of Machine Learning Research. 13: 27–66.[1]
  36. ^ Peng, H. C.; Long, F.; Ding, C. (2005). "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy". IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765. doi:10.1109/TPAMI.2005.159. PMID 16119262. S2CID 206764015. 프로그램
  37. ^ Nguyen, H, Franke, K, Petrovic, S. (2010) "침입 탐지를 위한 일반 특성-선택 조치", In Proc. 터키 이스탄불에서 열린 국제 패턴인식 콘퍼런스 [2]
  38. ^ Rodriguez-Lujan, I.; Huerta, R.; Elkan, C.; Santa Cruz, C. (2010). "Quadratic programming feature selection" (PDF). JMLR. 11: 1491–1516.
  39. ^ a b 응우옌 X. Vinh, Jeffrey Chan, Simone Romano 및 James Bailey, "상호 정보에 기반한 효과적인 글로벌 접근 방식". 2014년 8월 24일~27일, 뉴욕 시에서 제20회 ACM SIGKDD 컨퍼런스(KDD'14)의 진행. "[3]"
  40. ^ Yang, Howard Hua; Moody, John (2000). "Data visualization and feature selection: New algorithms for nongaussian data" (PDF). Advances in Neural Information Processing Systems: 687–693.
  41. ^ Yamada, M.; Jitkrittum, W.; Sigal, L.; Xing, E. P.; Sugiyama, M. (2014). "High-Dimensional Feature Selection by Feature-Wise Non-Linear Lasso". Neural Computation. 26 (1): 185–207. arXiv:1202.0515. doi:10.1162/NECO_a_00537. PMID 24102126. S2CID 2742785.
  42. ^ Hall, M. (1999). Correlation-based Feature Selection for Machine Learning (PDF) (PhD thesis). University of Waikato.
  43. ^ Senliol, Baris; et al. (2008). "Fast Correlation Based Filter (FCBF) with a different search strategy". 2008 23rd International Symposium on Computer and Information Sciences: 1–4. doi:10.1109/ISCIS.2008.4717949. ISBN 978-1-4244-2880-9. S2CID 8398495.
  44. ^ Nguyen, Hai; Franke, Katrin; Petrovic, Slobodan (December 2009). "Optimizing a class of feature selection measures". Proceedings of the NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML). Vancouver, Canada.
  45. ^ a b H.Dung, G. Runger, "정규화된 나무를 통한 특성 선택", 2012년 신경망 국제 공동 회의(IJCN), IEEE, 2012
  46. ^ a b RRF: 정규화된 랜덤 포리스트, CRAN의 R 패키지
  47. ^ a b Hamon, Julie (November 2013). Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale (Thesis) (in French). Lille University of Science and Technology.
  48. ^ Yu, Lei; Liu, Huan (August 2003). "Feature selection for high-dimensional data: a fast correlation-based filter solution" (PDF). ICML'03: Proceedings of the Twentieth International Conference on International Conference on Machine Learning: 856–863.
  49. ^ a b T. M. 푸엉, Z. 린 외 R. B. 알트먼 피쳐 선택을 사용하여 SNP 선택 2016-09-13년 웨이백 머신 프로시저 / IEEE 컴퓨터 시스템 생물정보학 컨퍼런스, CSB. IEEE 컴퓨터 시스템 생물정보학 컨퍼런스, 301-309, 2005페이지에 보관. PMID 16447987.
  50. ^ Saghapour, E.; Kermani, S.; Sehhati, M. (2017). "A novel feature ranking method for prediction of cancer stages using proteomics data". PLOS ONE. 12 (9): e0184203. Bibcode:2017PLoSO..1284203S. doi:10.1371/journal.pone.0184203. PMC 5608217. PMID 28934234.
  51. ^ Shah, S. C.; Kusiak, A. (2004). "Data mining and genetic algorithm based gene/SNP selection". Artificial Intelligence in Medicine. 31 (3): 183–196. doi:10.1016/j.artmed.2004.04.002. PMID 15302085.
  52. ^ Long, N.; Gianola, D.; Weigel, K. A (2011). "Dimension reduction and variable selection for genomic selection : application to predicting milk yield in Holsteins". Journal of Animal Breeding and Genetics. 128 (4): 247–257. doi:10.1111/j.1439-0388.2011.00917.x. PMID 21749471.
  53. ^ Üstünkar, Gürkan; Özöğür-Akyüz, Süreyya; Weber, Gerhard W.; Friedrich, Christoph M.; Aydın Son, Yeşim (2012). "Selection of representative SNP sets for genome-wide association studies: A metaheuristic approach". Optimization Letters. 6 (6): 1207–1218. doi:10.1007/s11590-011-0419-7. S2CID 8075318.
  54. ^ Meiri, R.; Zahavi, J. (2006). "Using simulated annealing to optimize the feature selection problem in marketing applications". European Journal of Operational Research. 171 (3): 842–858. doi:10.1016/j.ejor.2004.09.010.
  55. ^ Kapetanios, G. (2007). "Variable Selection in Regression Models using Nonstandard Optimisation of Information Criteria". Computational Statistics & Data Analysis. 52 (1): 4–15. doi:10.1016/j.csda.2007.04.006.
  56. ^ Broadhurst, D.; Goodacre, R.; Jones, A.; Rowland, J. J.; Kell, D. B. (1997). "Genetic algorithms as a method for variable selection in multiple linear regression and partial least squares regression, with applications to pyrolysis mass spectrometry". Analytica Chimica Acta. 348 (1–3): 71–86. doi:10.1016/S0003-2670(97)00065-2.
  57. ^ Chuang, L.-Y.; Yang, C.-H. (2009). "Tabu search and binary particle swarm optimization for feature selection using microarray data". Journal of Computational Biology. 16 (12): 1689–1703. doi:10.1089/cmb.2007.0211. PMID 20047491.
  58. ^ E. 알바, J. 가리아-니에토, L. Jourdan et E.G. 탈비. PSO-SVM과 GA-SVM 하이브리드 알고리즘을 이용한 암 분류에서의 유전자 선택. 진화 연산 의회, 싱카포 : 싱가포르 (2007년), 2007년)
  59. ^ B. 듀발, J.K. 하오 외 J. C. 에르난데스 에르난데스 암의 유전자 선택과 분자 분류에 대한 memic 알고리즘. GECCO '09, 201-208페이지, 뉴욕, 뉴욕, 미국, 2009년 제11차 유전자 및 진화 연산 관련 연례 회의의 절차에서. ACM
  60. ^ C. 한스, A. 도브라 외 M. 웨스트, 'large p' 회귀 분석을 위한 엽총 확률적 탐색 미국통계협회지 2007.
  61. ^ Aitken, S. (2005). "Feature selection and classification for microarray data analysis : Evolutionary methods for identifying predictive genes". BMC Bioinformatics. 6 (1): 148. doi:10.1186/1471-2105-6-148. PMC 1181625. PMID 15958165.
  62. ^ Oh, I. S.; Moon, B. R. (2004). "Hybrid genetic algorithms for feature selection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 26 (11): 1424–1437. CiteSeerX 10.1.1.467.4179. doi:10.1109/tpami.2004.105. PMID 15521491.
  63. ^ Xuan, P.; Guo, M. Z.; Wang, J.; Liu, X. Y.; Liu, Y. (2011). "Genetic algorithm-based efficient feature selection for classification of pre-miRNAs". Genetics and Molecular Research. 10 (2): 588–603. doi:10.4238/vol10-2gmr969. PMID 21491369.
  64. ^ Peng, S. (2003). "Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines". FEBS Letters. 555 (2): 358–362. doi:10.1016/s0014-5793(03)01275-4. PMID 14644442.
  65. ^ Hernandez, J. C. H.; Duval, B.; Hao, J.-K. (2007). "A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data". Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics. EvoBIO 2007. Lecture Notes in Computer Science. Vol. 4447. Berlin: Springer Verlag. pp. 90–101. doi:10.1007/978-3-540-71783-6_9. ISBN 978-3-540-71782-9.
  66. ^ Huerta, E. B.; Duval, B.; Hao, J.-K. (2006). "A Hybrid GA/SVM Approach for Gene Selection and Classification of Microarray Data". Applications of Evolutionary Computing. EvoWorkshops 2006. Lecture Notes in Computer Science. Vol. 3907. pp. 34–44. doi:10.1007/11732242_4. ISBN 978-3-540-33237-4.
  67. ^ Muni, D. P.; Pal, N. R.; Das, J. (2006). "Genetic programming for simultaneous feature selection and classifier design". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics : Cybernetics. 36 (1): 106–117. doi:10.1109/TSMCB.2005.854499. PMID 16468570. S2CID 2073035.
  68. ^ Jourdan, L.; Dhaenens, C.; Talbi, E.-G. (2005). "Linkage disequilibrium study with a parallel adaptive GA". International Journal of Foundations of Computer Science. 16 (2): 241–260. doi:10.1142/S0129054105002978.
  69. ^ Zhang, Y.; Dong, Z.; Phillips, P.; Wang, S. (2015). "Detection of subjects and brain regions related to Alzheimer's disease using 3D MRI scans based on eigenbrain and machine learning". Frontiers in Computational Neuroscience. 9: 66. doi:10.3389/fncom.2015.00066. PMC 4451357. PMID 26082713.
  70. ^ Roffo, G.; Melzi, S.; Cristani, M. (2015-12-01). Infinite Feature Selection. 2015 IEEE International Conference on Computer Vision (ICCV). pp. 4202–4210. doi:10.1109/ICCV.2015.478. ISBN 978-1-4673-8391-2. S2CID 3223980.
  71. ^ Roffo, Giorgio; Melzi, Simone (September 2016). "Features Selection via Eigenvector Centrality" (PDF). NFmcp2016. Retrieved 12 November 2016.
  72. ^ R. Kohavi와 G. John, "특징 부분집합을 위한 추적", 인공지능 97.1-2 (1997): 273-324
  73. ^ Das, Abhimanyu; Kempe, David (2011). "Submodular meets Spectral: Greedy Algorithms for Subset Selection, Sparse Approximation and Dictionary Selection". arXiv:1102.3975 [stat.ML].
  74. ^ Rui 등, 고차원 음향 점수 공간에 대한 서브모듈라 기능 선택 2015-10-17 Wayback Machine보관
  75. ^ Jung et al., Wayback Machine보관된 2015-11-18 비디오에서 동작 인식을 위한 하위 속성 선택
  76. ^ Sun, Y.; Todorovic, S.; Goodison, S. (2010). "[https://ieeexplore.ieee.org/abstract/document/5342431/ Local-Learning-Based Feature Selection for High-Dimensional Data Analysis]". IEEE Transactions on Pattern Analysis and Machine Intelligence. 32 (9): 1610–1626. doi:10.1109/tpami.2009.190. PMC 3445441. PMID 20634556. {{cite journal}}: 외부 링크 위치 title= (도움말)
  77. ^ D.H.왕, Y.C.량, D.Xu, X.Y.펑, R.C.관(2018), "컴퓨터 과학 출판물용 콘텐츠 기반 추천자 시스템", 지식 기반 시스템, 157: 1-9

추가 읽기

외부 링크