귀납적 바이어스
Inductive bias학습 알고리즘의 유도 편향(학습 편향이라고도 함)은 학습자가 접하지 않은 주어진 입력의 출력을 예측하기 위해 사용하는 가정 집합이다.[1]
머신러닝(machine learning)에서는 특정 목표 출력을 예측하는 것을 배울 수 있는 알고리즘을 구성하는 것을 목표로 한다. 이를 달성하기 위해, 학습 알고리즘은 입력과 출력 값의 의도된 관계를 증명하는 몇 가지 교육 사례를 제시한다. 그런 다음, 학습자는 훈련 중에 보여지지 않은 예에 대해서도 정확한 결과를 대략적으로 파악해야 한다. 보이지 않는 상황이 임의의 출력값을 가질 수 있기 때문에 추가적인 가정 없이는 이 문제를 해결할 수 없다. 목표함수의 성격에 관하여 필요한 가정들의 종류는 귀납적 편견이라는 문구에 요약되어 있다.[1][2]
귀납적 편향의 고전적인 예는 목표 기능에 대한 가장 단순한 일관적인 가설이 실제로 최고라고 가정하는 오캄의 면도기다. 여기서 일관성은 학습자의 가설이 알고리즘에 주어진 모든 예에 대해 정확한 출력을 산출한다는 것을 의미한다.
귀납적 편견에 대한 보다 공식적인 정의에 대한 접근법은 수학적 논리에 기초한다. 여기서 귀납적 편향은 교육 데이터와 함께 학습자에 의해 생성된 가설을 논리적으로 수반하는 논리적 공식이다. 그러나 이러한 엄격한 형식주의는 많은 실제적인 사례에서 실패하는데, 유도 편향은 대략적인 설명(예: 인공 신경망의 경우)으로만 줄 수 있거나 전혀 그렇지 않다.
종류들
다음은 머신러닝 알고리즘의 일반적인 귀납적 편향의 목록이다.
- 최대 조건부 독립성: 이 가설이 베이시안 틀에서 주조될 수 있는 경우 조건부 독립성을 최대화하도록 시도하십시오. 이것은 순진한 베이즈 분류기에서 사용되는 편견이다.
- 최소 교차 검증 오류: 가설 중에서 선택하려고 할 때 교차 검증 오류가 가장 낮은 가설을 선택하십시오. 교차 검증은 편견이 없는 것처럼 보일 수 있지만, "무료 점심식사 금지"의 이론은 교차 검증이 편향되어야 한다는 것을 보여준다.
- 최대 여백: 두 클래스 사이에 경계를 그릴 때 경계 너비를 최대화하십시오. 이것은 지지 벡터 기계에 사용되는 편향이다. 그 가정은 구별되는 계급이 넓은 경계로 분리되는 경향이 있다는 것이다.
- 최소 설명 길이: 가설을 형성할 때 가설에 대한 설명 길이를 최소화하도록 시도하십시오. 가정은 단순한 가설들이 더 사실일 가능성이 높다는 것이다. 이것은 오컴의 면도칼이 말하는 것이 아니다. 단순한 모델은 "진실 가능성이 더 높다"가 아니라 더 테스트할 수 있다. 오컴의 면도기를 보라.
- 최소 형상: 형상이 유용하다는 좋은 증거가 없는 한 해당 형상은 삭제해야 한다. 이것은 형상 선택 알고리즘의 이면에 있는 가정이다.
- 가장 가까운 이웃: 피처 스페이스에 있는 작은 동네의 경우 대부분이 같은 부류에 속한다고 가정한다. 클래스를 알 수 없는 경우를 가정해 보면, 바로 이웃에 있는 다수와 같은 클래스에 속한다고 추측한다. 이것은 k-가장 가까운 이웃 알고리즘에서 사용되는 편견이다. 서로 가까운 경우는 같은 부류에 속하는 경향이 있다는 가정이다.
편향 이동
대부분의 학습 알고리즘은 정적 편향성을 가지고 있지만, 일부 알고리즘은 더 많은 데이터를 획득함에 따라 편향을 바꾸도록 설계된다.[3] 이것은 편향 이동 과정 자체가 편향을 가져야 하기 때문에 편향을 피하지 않는다.
참고 항목
참조
- ^ a b Mitchell, T. M. (1980), The need for biases in learning generalizations, CBM-TR 5-110, New Brunswick, New Jersey, USA: Rutgers University, CiteSeerX 10.1.1.19.5466
- ^ DesJardins, M.; Gordon, D. F. (1995), Evaluation and selection of biases in machine learning, Machine Learning Journal, 5:1--17
- ^ Utgoff, P. E. (1984), Shift of bias for inductive concept learning, New Brunswick, New Jersey, USA: Doctoral dissertation, Department of Computer Science, Rutgers University, ISBN 9780934613002