분산 분석-동시 성분 분석

ANOVA–simultaneous component analysis

계산 생물학생물정보학에서 분산 분석 - 동시 성분 분석(ASCA 또는 ANOVA–SCA)은 주성분 분석(PCA)과 유사한 방법인 SCA에 의해 변동을 분할하고 이러한 분할에 대한 해석을 가능하게 하는 방법이다.분산 분석(Anova)은 차이를 분석하는 데 사용되는 통계적 모형 및 관련 추정 절차의 모음입니다.통계 결합 분석(SCA)은 단백질 다중 시퀀스 정렬(MSA)에서 아미노산 쌍 사이의 공분산을 측정하기 위해 생물정보학에서 사용되는 기법이다.

이 방법은 다변량 분산 분석(ANOVA)의 다변량 또는 심지어 메가변량 확장이다.변동 분할은 분산 분석과 유사하다.각 분할 영역은 효과나 인자에 의해 유발되는 모든 변동, 대개 처리 체계 또는 실험 조건과 일치한다.계산된 효과 파티션을 효과 추정치라고 한다.효과 추정치조차 다변량이기 때문에 이러한 효과 추정치의 해석은 직관적이지 않다.효과 추정치에 SCA를 적용하면 간단한 해석 가능한 결과를 얻을 수 있다.[1][2][3]두 개 이상의 효과가 있는 경우, 이 방법은 다른 효과가 상관되지 않는 방식으로 효과를 추정한다.

세부 사항

많은 연구 영역에서는 단지 몇 개의 표본에서만 변수의 수가 점점 더 많아지고 있다.표본 대 가변 비율이 낮으면 다중 공선성과 특이성으로 알려진 문제가 발생한다.이 때문에 대부분의 전통적인 다변량 통계 방법은 적용할 수 없다.

ASCA 알고리즘

이 절에서는 하나의 상호작용 효과를 갖는 두 개의 주효과 사례에 대한 ASCA 모델을 계산하는 방법을 자세히 설명한다.선언된 근거를 더 많은 주효과와 더 많은 상호작용 효과로 확장하는 것은 쉽다.첫 번째 효과가 시간이고 두 번째 효과가 용량이라면 시간과 용량 사이의 상호 작용만 존재한다.우리는 4개의 시기와 3개의 복용량이 있다고 가정한다.

X를 데이터를 저장하는 행렬이 되게 하라.X는 평균 중심이므로 평균 열이 0이다.A와 B는 주효과를 나타내고 AB는 이들 효과의 상호작용을 나타낸다.생물학적 실험에서 두 가지 주효과는 시간(A)과 pH(B)일 수 있으며, 이 두 가지 효과는 상호작용할 수 있다.이러한 실험을 설계할 때 주효과를 여러 (최소 두) 수준으로 제어한다.효과의 다른 수준은 실험 시작 후 2, 3, 4, 5시간을 나타내는 A1, A2, A3 및 A4로 언급할 수 있다.예를 들어, pH 6, pH 7, pH 8은 효과 수준으로 간주될 수 있다.

효과 추정치가 직교해야 하고 분할이 고유해야 하는 경우 A와 B는 균형을 이루어야 한다.매트릭스 E는 어떤 효과에도 할당되지 않은 정보를 가지고 있다.분할은 다음과 같은 표기법을 제공한다.

주효과 추정치 A(또는 B) 계산

A 수준 1 효과에 해당하는 모든 행을 찾아 이 행의 평균을 구하십시오.결과는 벡터다.다른 효과 수준에 대해 이 과정을 반복하십시오.동일한 크기의 X 행렬을 새로 만들고 계산된 평균을 일치 행에 배치하십시오.즉, 효과와 일치하는 모든 행을 지정하십시오(즉,A 레벨 1 효과 A 레벨 1의 평균.효과에 대한 수준 추정치를 완료한 후 SCA를 수행하십시오.이 SCA의 점수는 효과에 대한 표본 편차이며, 이 효과의 중요한 변수는 SCA 부하 벡터의 가중치에 있다.

교호작용 효과 추정 AB 계산

교호작용 효과 추정은 주효과 추정과 유사하다.차이점은 교호작용 추정치의 경우 A 수준 1과 일치하는 행이 효과 B 수준 1과 결합되고 효과와 수준의 모든 조합이 순환된다는 것이다.본 예제 설정에서 4개의 시점과 3개의 투여량 수준에는 12개의 상호 작용 집합이 있다. {A1-B1, A1B2, A2B1, A2B2 등.교호작용 효과를 추정하기 전에 주효과를 감압(제거)하는 것이 중요하다.

파티션 A, B 및 AB의 SCA

동시 성분 분석은 PCA와 수학적으로 동일하지만, 동시에 다른 물체나 주제를 모델링한다는 점에서 의미론적으로 다르다.SCA – 및 PCA – 모델의 표준 표기법은 다음과 같다.

여기서 X는 데이터, T는 구성요소 점수, P는 구성요소 적재다.E잔차 또는 오차 행렬이다.ASCA는 SCA에 의해 변동 파티션을 모델링하므로, 효과 추정의 모델은 다음과 같다.

모든 파티션에는 자체 오류 행렬이 있다는 점에 유의하십시오.그러나 대수학에서는 두 수준 시스템마다 균형잡힌 평균 중심 데이터 집합이 1위임을 지시한다.순위 1 매트릭스는 단일 성분 점수 및 로딩 벡터의 산물로 기록될 수 있으므로 오차가 0이 된다.

SCA를 포함한 두 가지 효과와 상호작용을 가진 완전한 ASCA 모델은 다음과 같다.

분해:

효과로서의 시간

'시간'은 ASCA 이전의 분산 분석 분해에서 질적 요인으로 취급되기 때문에 비선형 다변량 시간 궤적을 모델링할 수 있다.이에 대한 예는 이 참조의 그림 10에 나타나 있다.[4]

참조

  1. ^ 스밀드, 에이지 K, 얀센, 여로엔 J;Hoefsloot, Huub C. J.; Lamers, Robert-Jan A. N.; van der Greef, Jan; Timmerman, Marieke E. (2005) "ANOVA-simultaneous component analysis (ASCA): a new tool for analyzing designed metabolomics data", Bioinformatics, 21 (13), 3043-3048. doi:10.1093/bioinformatics/bti476
  2. ^ Jansen, J. J.; Hoefsloot, H. C. J.; Van der Greef, J.; Timmerman, M. E.; Westhuis, J. A.;Smilde, A. K. (2005) "ASCA: 실험 설계에서 얻은 다변량 데이터의 분석"화학측정학 저널, 19: 469–481. doi:10.1002/cm.952
  3. ^ Daniel J Vis , Johan A Westerhuis , Age K Smilde: Jan van der Gref(2007) "ASCA에서의 메가바리아이트 효과의 통계적 검증", BMC Biological informatics" , 8:322 doi:10.11886/1471-05-8-322
  4. ^ 스밀드, A. K., Hoefsloot, H. C.와 웨스터후이스, J. A.(2008) 「ASCA의 기하학」.화학측정학 저널, 22, 464–471. doi:10.1002/cm.1175