조건부 기대치 교체

Alternating conditional expectations

교대 조건부 기대치(ACE)는 회귀 [1]분석에서 반응 변수와 예측 변수 사이의 최적 변환을 찾기 위한 알고리즘입니다.

서론

통계학에서 변수의 비선형 변환은 회귀 문제에서 일반적으로 사용됩니다.교대 조건부 기대치(ACE)는 가장 적합한 가법 모형을 생성하는 변환을 찾는 방법 중 하나입니다.이러한 변환에 대한 지식은 반응 변수와 예측 변수 간의 관계를 해석하고 이해하는 데 도움이 된다.

ACE는 설명되지 않은 분산 비율을 최소화하기 위해 반응 Y(\ Y 예측 변수 })를 변환합니다.변환은 비선형이며 반복적인 방법으로 데이터에서 얻습니다.

수학적 설명

Y 1, p \ Y 랜덤 변수로 합니다.1, X {\ 하여 Y Y)를 예측합니다 」 、 「 、「 \( Y ) 、 \ 1 ( ) } 、 { 1 { ( Y 없음

일반적으로 설명되지 않는 부분을 최소화하는 최적의 변환은 직접 계산하기 어렵습니다.대안으로 ACE는 최적의 변환을 계산하기 위한 반복적인 방법입니다.ACE 의 순서는, 다음과 같습니다.

  1. 1 ( ) , , p ( )\ _ ( _ { ) , \ , \ _ { ( X _ {} )를 고정하고 2 ( \ e E [] i( 1 ) i ) 。
  2. 단위 분산을 1 ( _ 정규화합니다.
  3. (\ k에 대해 를 수정하고 e2}})를 합니다.해결 방법은
  4. 오류 허용 범위 내에 있을 까지 위의 세 단계를 반복합니다.

이변량 케이스

p { p}에 의 변환 Y) 、( X) \ \ }는 다음을 만족합니다.

{ Pearson 상관 계수입니다.( ( ,Y ){ \rho ^ { * ( X , ) }는 { X}와Y { Y}의 최대 상관관계로 알려져 있으며, 일반적인 의존성 측정으로 사용할 수 있습니다.

이변량의 경우 ACE 알고리즘은 두 변수 간의 최대 상관관계를 추정하는 방법으로도 간주할 수 있다.

소프트웨어 구현

ACE 알고리즘은 기존의 분포의 맥락에서 개발되었습니다.실제로 데이터 분포는 거의 알려져 있지 않으며 조건부 기대치는 데이터로부터 추정해야 합니다.R 언어에는 ACE 알고리즘을 실장하는 패키지가 있습니다.다음으로 그 사용 예를 나타냅니다.

도서관(에이스 팩) 투피 <-> 8 * atan(1) x <-> 실행하다(200, 0, 투피) y <-> exp((x) + 불규칙하다(200)/2) a <-> 에이스(x, y) (mfrow.=c(3,1)) 줄거리.(a$y, a$ty)  # 응답 변환 표시 줄거리.(a$x, a$tx)  # 캐리어 트랜스포메이션 표시 줄거리.(a$tx, a$ty) # 적합 모형의 선형성 검사 

논의

ACE 알고리즘은 다중 회귀에서 최적의 변환을 추정하기 위한 완전히 자동화된 방법을 제공합니다.또한 랜덤 변수 간의 최대 상관 관계를 추정하는 방법도 제공합니다.반복 프로세스는 보통 제한된 횟수로 종료되므로 알고리즘의 시간 복잡도는 O p O입니다. 서 nn은 샘플 수입니다.이 알고리즘은 상당히 컴퓨터 효율적입니다.

ACE 절차의 강력한 장점은 추정할 수 있는 값의 집합 측면에서 상당히 다른 유형의 변수를 통합할 수 있다는 것입니다. (y ) 、 ( xi ) { ( y ) 、 \ { i } ( _ { } )는 실제 행의 값을 가정합니다.그러나 이러한 인수는 임의의 집합에서 값을 가정할 수 있습니다.예를 들어, 순서가 매겨진 실수 및 순서가 매겨지지 않은 범주형 변수를 동일한 회귀 방정식에 통합할 수 있습니다.혼합형 변수를 사용할 수 있습니다.

데이터 분석 툴로서 ACE 프로시저는 변환의 필요성을 나타내는 그래픽 출력을 제공하고 변환의 선택을 안내합니다.특정 플롯이 변환에 익숙한 함수 형식을 제안할 경우 이 함수 형식을 사용하여 데이터를 사전 변환하고 ACE 알고리즘을 재실행할 수 있습니다.

모든 회귀 분석 절차와 마찬가지로 예측 변수 간의 높은 연관성으로 인해 전체 모형이 상당히 안정적이더라도 개별 변환 추정치가 매우 변동될 수 있습니다.이것이 의심될 경우 랜덤으로 선택된 데이터 서브셋 또는 부트스트랩샘플에서 알고리즘을 실행하면 변동성을 평가하는 데 도움이 됩니다.

레퍼런스

  1. ^ Breiman, L. 및 Friedman, J. H. 다중 회귀상관 관계에 대한 최적 변환 추정.J. Am. Stat.Assoc., 80(391) : 580-598, 1985년 9월. Public Domain 이 문서에는 퍼블릭 도메인에 있는 이 소스로부터의 텍스트가 포함되어 있습니다..