다변량 통계량

Multivariate statistics

다변량 통계량은 둘 이상의 결과 변수에 대한 동시 관측 및 분석을 포함하는 통계량의 하위 구분입니다.다변량 통계는 각 다변량 분석의 서로 다른 형태와 목적, 배경, 그리고 서로 어떻게 관련이 있는지를 이해하는 것과 관련이 있습니다.특정 문제에 대한 다변량 통계의 실제 적용에는 변수 간의 관계와 연구 중인 문제에 대한 변수 간의 관련성을 이해하기 위해 몇 가지 유형의 일변량 및 다변량 분석이 포함될 수 있다.

또한 다변량 통계량은 다음 두 가지 측면에서 다변량 확률 분포와 관련이 있습니다.

  • 관측된 데이터의 분포를 나타내기 위해 이러한 데이터를 어떻게 사용할 수 있는가.
  • 통계적 추론의 일부로 사용할 수 있는 방법, 특히 동일한 분석에서 여러 다른 수량이 관심 있는 경우.

단순 선형 회귀 분석 및 다중 회귀 분석과 같은 다변량 데이터와 관련된 특정 유형의 문제는 다른 변수가 주어진 단일 결과 변수의 (단변수) 조건부 분포를 고려하여 처리되기 때문에 일반적으로 다변량 통계량의 특수한 경우로 간주되지 않습니다.

다변량 분석

다변량 분석(MVA)은 다변량 통계량의 원리를 기반으로 합니다.일반적으로 MVA는 각 실험 단위에서 다중 측정이 이루어지는 상황을 다루기 위해 사용되며 이러한 측정과 그 구조 사이의 관계가 중요하다.[1]MVA의 현대적 중복 분류에는 다음이 포함됩니다.[1]

  • 정규 및 일반 다변량 모형 및 분포 이론
  • 관계의 연구와 측정
  • 다차원 영역의 확률 계산
  • 데이터 구조 및 패턴 탐색

다변량 분석은 계층적 "시스템"에 대한 변수의 효과를 계산하기 위해 물리학 기반 분석을 포함하려는 욕구로 인해 복잡해질 수 있습니다.다변량 분석을 사용하려는 연구는 종종 문제의 차원에 의해 중단됩니다.이러한 우려는 종종 물리 기반 코드의 고정밀 근사인 대리 모델을 사용함으로써 완화된다.대리 모형은 방정식의 형태를 취하기 때문에 매우 빠르게 평가할 수 있습니다.이는 대규모 MVA 연구의 가능 요소가 된다. 설계 공간 전체에 걸친 몬테 카를로 시뮬레이션은 물리학 기반 코드로 어렵지만, 종종 반응 표면 방정식의 형태를 취하는 대리 모델을 평가할 때 사소한 것이 된다.

분석의 종류

다음과 같은 여러 가지 모델이 있으며, 각각 고유한 분석 유형이 있습니다.

  1. 다변량 분산 분석(MANOVA)은 동시에 분석할 종속 변수가 둘 이상 있는 경우를 포함하도록 분산 분석을 확장합니다. 자세한 내용은 다변량 공분산 분석(MANCOVA)을 참조하십시오.
  2. 다변량 회귀 분석에서는 변수 벡터의 요소가 다른 변수의 변화에 동시에 반응하는 방법을 설명할 수 있는 공식을 확인하려고 합니다.선형 관계의 경우 여기서 회귀 분석은 일반 선형 모형의 형식을 기반으로 합니다.일부에서는 다변량 회귀 분석이 과학 분야에서 [2]일관되게 사실이 아닌 논의되는 다변량 회귀 분석과 구별된다고 제안합니다.
  3. 주성분 분석(PCA)은 원래 집합과 동일한 정보를 포함하는 새 직교 변수 집합을 생성합니다.변동 축을 회전시켜 변동의 감소하는 비율을 요약하도록 새 직교 축 집합을 제공합니다.
  4. 인자 분석은 PCA와 유사하지만 사용자가 원래 세트보다 적은 수의 합성 변수를 추출할 수 있으므로 나머지 원인 불명의 변동은 오류로 남습니다.추출된 변수를 잠재 변수 또는 요인이라고 하며, 각 변수는 관측 변수 그룹의 공변화를 설명해야 할 수 있습니다.
  5. 표준 상관 분석에서는 두 변수 집합 사이의 선형 관계를 찾습니다. 이변량[3] 상관의 일반화된(즉, 표준) 버전입니다.
  6. Redundancy Analysis(RDA; 용장성 분석)는 표준 상관 분석과 유사하지만 사용자는 다른 (독립) 집합에서 가능한 한 많은 분산을 설명하는 하나의 (독립) 변수 집합에서 지정된 수의 합성 변수를 도출할 수 있습니다.이것은 회귀의 다변량 유사체입니다.
  7. 대응 분석(CA)은 (PCA와 같이) 원래 집합을 요약하는 합성 변수 집합을 찾습니다.기본 모형은 기록(사례) 간의 카이 제곱 차이를 가정한다.
  8. 대응 분석과 다변량 회귀 분석의 조합인 두 변수 집합(예: 중복성 분석)의 접합 변동을 요약하기 위한 표준(또는 "제한된") 대응 분석(CCA).기본 모형은 기록(사례) 간의 카이 제곱 차이를 가정한다.
  9. 다차원 스케일링은 레코드 간의 쌍방향 거리를 가장 잘 나타내는 합성 변수 집합을 결정하기 위한 다양한 알고리즘으로 구성됩니다.원래 방법은 주좌표 분석(PCoA; PCA 기반)입니다.
  10. 판별 분석 또는 표준 변동 분석은 변수 집합을 사용하여 두 개 이상의 사례 그룹을 구분할 수 있는지 여부를 확인하려고 시도합니다.
  11. 선형 판별 분석(LDA)은 새 관측치를 분류할 수 있도록 정규 분포 데이터의 두 집합에서 선형 예측 변수를 계산합니다.
  12. 클러스터링 시스템은 동일한 클러스터의 개체(케이스)가 서로 다른 클러스터의 개체보다 더 유사하도록 개체를 그룹(클러스터라고 함)에 할당합니다.
  13. 재귀 파티셔닝은 이분법 종속 변수를 기반으로 모집단의 구성원을 올바르게 분류하는 결정 트리를 만듭니다.
  14. 인공 신경망은 회귀 및 클러스터링 방법을 비선형 다변량 모델로 확장한다.
  15. 다변량 데이터를 탐색하는 데 둘러보기, 평행 좌표도, 산점도 행렬과 같은 통계적 그래픽을 사용할 수 있습니다.
  16. 연립 방정식 모형에는 서로 다른 종속 변수를 함께 추정하는 둘 이상의 회귀 방정식이 포함됩니다.
  17. 벡터 자동 회귀에는 다양한 시계열 변수 자체와 서로 지연된 값이 동시에 회귀됩니다.
  18. 주요 반응 곡선 분석(PRC)은 사용자가 시간에 따른 대조군 치료의 변화를 수정하여 시간 [4]경과에 따른 치료 효과에 집중할 수 있도록 하는 RDA 기반 방법이다.
  19. 상관관계 아이콘그래피는 "주목한" 상관관계가 실선(양의 상관관계) 또는 점선(음의 상관관계)으로 표현되는 다이어그램으로 상관행렬을 대체하는 것으로 구성됩니다.

중요 확률 분포

다변량 분석에는 정규 분포데이터 집합에 적합할 때 일변량 분석에 사용되는 해당 분포 집합과 유사한 역할을 하는 확률 분포 집합이 있습니다.이러한 다변량 분포는 다음과 같습니다.

역위샤르트 분포베이지안 추론, 예를 들어 베이지안 다변량 선형 회귀에서 중요하다.또한 Hoteling의 T-제곱 분포는 다변량 가설 검정에 사용되는 학생의 t-분포를 일반화하는 다변량 분포입니다.

역사

앤더슨의 1958년 교과서, 다변량 통계 분석 [5]입문서는 이론가들과 응용 통계학자들을 교육했습니다; 앤더슨의 책은 우도비 테스트를 통한 가설 테스트와 검정력 함수의 특성, 수용성,[6][7] 편향성단조로움을 강조합니다.

MVA는 한때 기초 데이터 세트의 크기, 복잡성 및 높은 계산 소비로 인해 통계 이론 영역에만 존재했다.계산 능력이 비약적으로 성장함에 따라 MVA는 데이터 분석에서 점점 더 중요한 역할을 수행하고 OMICS 분야에서 광범위하게 응용되고 있습니다.

적용들

소프트웨어 및 도구

다변량 분석을 위한 소프트웨어 패키지 및 기타 도구는 다음과 같습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Olkin, I.; Sampson, A. R. (2001-01-01), "Multivariate Analysis: Overview", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Pergamon, pp. 10240–10247, ISBN 9780080430768, retrieved 2019-09-02
  2. ^ Hidalgo, B; Goodman, M (2013). "Multivariate or multivariable regression?". Am J Public Health. 103: 39–40. doi:10.2105/AJPH.2012.300897. PMC 3518362. PMID 23153131.
  3. ^ 이변량 가우스 문제의 비전문 분석가는 단순히 N개의 잔차 제곱의 합 S를 취하고, 합 Sm을 최소로 뺀 다음, 이 차이를 Sm으로 나누고, 결과에 (N - 2)을 곱하고, 그 곱의 반ln 역수를 취함으로써 확률을 정확하게 측정하는 조잡하지만 정확한 방법을 찾을 수 있다.
  4. ^ Ter Braak, Cajo J.F. & Shmilauer, Petr(2012).Canoco 참조 매뉴얼 사용자 가이드: 주문용 소프트웨어(버전 5.0), p292.뉴욕주 이타카시 마이크로컴퓨터 파워
  5. ^ T.W. Anderson(1958) 다변량 분석 입문(뉴욕): Wiley ISBN 0471026409; 2e(1984) ISBN 0471889873; 3e(2003) ISBN 0471360910
  6. ^ 센, Pranab 쿠마르, 앤더슨, T.W. 아놀드, S.F.;이튼, M.L.;기리 씨가, N.C;Gnanadesikan, R.;켄들, M.G.;Kshirsagar, A.M.;(알.(1986년 6월).":현대에는 교과서 Multivariate 통계 분석에:.APanoramic 평가와 Critique".미국 통계 협회의. 81(394):560–564. doi:10.2307/2289251.ISSN 0162-1459.JSTOR 2289251.(페이지 560–561)
  7. ^ Schervish, Mark J. (November 1987). "A Review of Multivariate Analysis". Statistical Science. 2 (4): 396–413. doi:10.1214/ss/1177013111. ISSN 0883-4237. JSTOR 2245530.
  8. ^ CRAN은 다변량 데이터 분석에 사용할 수 있는 패키지에 대한 세부 정보를 제공합니다.

추가 정보

  • Johnson, Richard A.; Wichern, Dean W. (2007). Applied Multivariate Statistical Analysis (Sixth ed.). Prentice Hall. ISBN 978-0-13-187715-3.
  • KV Mardia; JT Kent; JM Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
  • A. Sen, M. Srivastava, Regression Analysis - 이론, 방법응용 프로그램, Springer-Verlag, Berlin, 2011 (제4쇄)
  • Cook, Swayne (2007). Interactive Graphics for Data Analysis.
  • 말라쿠티, B. (2013년)다양한 목표를 가진 운영 및 운영 시스템John Wiley & Sons.
  • T. W. Anderson, 다변량 통계 분석 입문, 뉴욕, Wiley, 1958.
  • KV Mardia; JT Kent & JM Bibby (1979). Multivariate Analysis. Academic Press. ISBN 978-0124712522. (M.A. 수준의 '가능성' 접근법)
  • 파인스타인, A. R.(1996) 다변수 분석.뉴헤이븐, CT: 예일대학교 출판부.
  • Hair, J. F. Jr.(1995년) 판독치를 사용한 다변량 데이터 분석, 4차 ed.프렌티스 홀.
  • Johnson, Richard A.; Wichern, Dean W. (2007). Applied Multivariate Statistical Analysis (Sixth ed.). Prentice Hall. ISBN 978-0-13-187715-3.
  • Shafer, J. L.(1997) 불완전한 다변량 데이터의 분석.CRC 프레스 (고급)
  • Sharma, S.(1996) 다변량 기법 적용.와일리 (비공식, 적용)
  • Izenman, Alan J. (2008)현대 다변량 통계 기법: 회귀, 분류 및 다양체 학습.통계정보의 스프링거 텍스트.뉴욕: Springer-Verlag.ISBN 9780387781884.
  • "응용 다변량 통계 및 수학적 모델링 Science Direct 핸드북"2019-09-03을 취득했습니다.

외부 링크