다차원 스케일링
Multidimensional scaling
다차원 스케일링(MDS)은 데이터 집합의 개별 사례의 유사성 수준을 시각화하는 수단이다. MDS는 " 개의 객체 또는 개인 집합 중 쌍으로 된 '간격'에 대한 정보"를 추상적인 데카르트 공간에 매핑된 개의 점으로 구성하기 위해 사용된다.[1]
보다 기술적으로 MDS는 특히 거리 행렬에 포함된 정보를 표시하기 위해 정보 시각화에 사용되는 일련의 관련 서열화 기법을 말한다. 그것은 비선형적 차원성 감소의 한 형태다.
집합의 각 물체 쌍 사이의 거리 행렬과 선택된 치수 수의 거리 행렬이 주어진 MDS 알고리즘은 각 물체를 N차원 공간(낮은 차원 표현)에 배치하여 물체 간 거리를 가능한 한 잘 보존한다. N = 1, 2, 3의 경우, 결과점을 산점도에서 시각화할 수 있다.[2]
MDS에 대한 핵심 이론적 기여는 제임스 O에 의해 이루어졌다. 기능 데이터 분석의[3] 창시자로도 평가받는 맥길 대학의 램지.
종류들
MDS 알고리즘은 입력 매트릭스의 의미에 따라 분류법에 들어간다.
고전적 다차원 스케일링
PCoA(주좌표 분석), Torgerson 스케일링 또는 Torgerson-Gower 스케일링이라고도 한다. 항목 쌍 간의 차이를 주는 입력 행렬을 사용하고, 변형률이라는 손실 함수를 최소화하는 좌표 행렬을 출력한다.[2] For example, given the Euclidean aerial distances between various cities indexed by i and j, you want to find the coordinates of the cities such that 이 예에서는 정확한 용액이 가능하다(유클리드 거리가 정확하다고 가정한다). 실무에서 이것은 일반적으로 해당되지 않으며 따라서 MDS는 손실 함수를 최소화하여 저차원 표현에 근사치를 추구한다. General forms of loss functions called stress in distance MDS and strain in classical MDS. The strain is given by: 여기서 x 는 N차원 에서 벡터를 나타낸다.는 x 와 사이의 스칼라 제품을 나타내며 j 는 거리로부터 계산된 다음 알고리즘의 2단계에 정의된 B B}의이다.
- 클래식 MDS 알고리즘의 단계:
- 기존 MDS는 좌표 행렬 X이(가) = ′ 의 고유값 분해에 의해 도출될 수 있다는 사실을 사용하며 B 은(가) 더블 센터링을 사용하여 근접 행렬 D에서 연산할 수 있다.[4]
- 근접 거리 제곱 행렬 ( )=[ d 설정
- Apply double centering: using the centering matrix , where is the number of objects, is the identity matrix, and 은(는) 의 n× n {\ n이다 .
- Determine the largest eigenvalues and corresponding eigenvectors of (where is the number of dime출력에 필요한 nsion).
- Now, , where is the matrix of eigenvectors and is the diagonal matrix of eigenvalues of .
- 고전적 MDS는 유클리드 거리를 가정한다. 따라서 이것은 직접적인 상이한 등급에는 적용되지 않는다.
미터법 다차원 스케일링(mMDS)
다양한 손실 함수와 가중치 등으로 알려진 거리의 입력 행렬에 대한 최적화 절차를 일반화하는 고전적 MDS의 상위 집합이다. 이러한 맥락에서 유용한 손실 함수를 스트레스라고 하는데, 스트레스 전공화라는 절차를 사용하여 최소화하는 경우가 많다. 미터법 MDS는 "스트레스"라는 비용 함수를 최소화하며, 이는 나머지 제곱합이다.
- 미터법 스케일링에서는 거리에 대해 사용자 제어지수 p {\p} : j - d j p 와 함께 전력 변환을 사용한다. 고전적 스케일링 = 비금속 스케일링은 비모수적 추정에 대한 동위원소 회귀 분석을 사용하여 이종격차의 변환을 추정함으로써 정의된다.
비금속 다차원 스케일링(nMDS)
미터법 MDS와 대조적으로, 비금속 MDS는 항목-항목 행렬의 상이한 차이와 항목 사이의 유클리드 거리 사이의 비모수 단조적 관계와 저차원 공간에서 각 항목의 위치를 모두 찾는다. 관계는 일반적으로 동위원소 회귀 분석을 사용하여 발견된다: x은(는) 근위성의 벡터를 나타내고, (x) f(x d 점 거리의 단조 변환을 나타내며, 그 다음 좌표를 찾아야 하며, 이는 소위 응력을 최소화해야 한다.
- 이 비용 함수의 몇 가지 변형들이 존재한다. MDS 프로그램은 MDS 솔루션을 얻기 위해 자동으로 스트레스를 최소화한다.
- 비금속 MDS 알고리즘의 핵심은 2중 최적화 과정이다. 첫째로, 근위부의 최적 단조적 변환을 찾아야 한다. 둘째로, 구성의 지점은 가능한 한 가까운 거리에 일치하도록 최적으로 배치되어야 한다. 비금속 MDS 알고리즘의 기본 단계는 다음과 같다.
- 예를 들어 정규 분포에서 표본을 추출하여 점의 랜덤 구성을 찾으십시오.
- 점 사이의 거리 d를 계산한다.
- 최적의 크기 조정 데이터 ( ) 을(를) 얻으려면 프록시의 최적 단일 변환을 찾으십시오
- 새로운 점 구성을 찾아 최적의 크기 데이터 및 거리 사이의 스트레스를 최소화하십시오.
- 스트레스를 어떤 기준과 비교하라. 스트레스가 충분히 작으면 알고리즘을 종료하고 그렇지 않으면 2로 돌아가십시오.
루이 구트만의 최소 공간 분석(SSA)은 비금속 MDS 절차의 예다.
일반화 다차원 스케일링(GMD)
메트릭 다차원 스케일링의 확장, 대상 공간이 임의의 부드러운 비유클리드 공간인 경우. 차이점이 표면의 거리이고 목표 공간이 다른 표면인 경우, GMDS는 한 표면이 다른 표면으로 내장되는 최소 편차를 찾을 수 있다.[5]
세부 사항
분석할 데이터는 거리 함수가 정의된 객체(색상, 면, 주식, . .)의 집합이다.
- , i -th와 -th 개체 사이의 거리.
이 거리는 상이한 행렬의 항목이다.
MDS의 목표는 을(를 부여하여 벡터 1,x 을 찾는 것이다.
- - x , \dots , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . , . , . , . . . . . . . . . . . . .
여기서 \ \cdot \}은 벡터 표준이다. 고전적 MDS에서 이 규범은 유클리드 거리지만, 더 넓은 의미에서는 미터법이나 임의의 거리 함수가 될 수 있다.[6]
즉, MDS는 거리가 보존되도록 개체에서 N ^{로 매핑을 찾으려고 시도한다. 치수 을 (를) 2 또는 3으로 선택한 경우 벡터 i 를 그려 M 개체 의 유사성을 시각화할 수 있다. 벡터 는 고유하지 않다는 점에 유의하십시오. 유클리드 거리를 사용하면 이러한 변환은 쌍방향 거리‖ x - \을(를) 변경하지 않으므로 임의로 번역, 회전 및 반영할 수 있다
(Note: The symbol indicates the set of real numbers, and the notation refers to the Cartesian product of copies of , which is an -dimensional vector space over the 실제 숫자의 필드)
벡터 를 결정하는 데는 다양한 접근방식이 있다 예를 들어, MDS는 최적화 문제로 공식화된다. 여기서( ,…, x ) 은 일부 비용함수의 최소화제로 발견된다.
그 다음 수치 최적화 기법으로 해결책을 찾을 수 있다. 특별히 선택된 일부 비용 함수의 경우 최소화는 매트릭스 eigendecompositions 관점에서 분석적으로 명시될 수 있다.[citation needed]
절차
MDS 연구를 수행하는 데는 다음과 같은 몇 가지 단계가 있다.
- 문제 공식화 – 어떤 변수를 비교하시겠습니까? 몇 개의 변수를 비교하시겠습니까? 이 연구는 어떤 목적으로 사용되어야 하는가?
- 입력 데이터 획득 – 예를 들어 :- 응답자에게 일련의 질문을 한다. 각 제품 쌍에 대해 유사성을 평가하도록 요청받는다(보통 매우 다른 것과 매우 유사한 7점 리커트 척도로). 첫 번째 질문은 예를 들어 코카콜라/페시(Coke/Hires rootbeer), 펩시/닥터 페퍼(Pepzi/Dr Pepper), 닥터 페퍼/히어 루트비어(Dr. Pepper/Hires rootbeer) 등일 수 있다. 질문 수는 수 함수로 Q= N- 1 / Q로 계산할 수 있으며, 여기서 Q는 질문 수, N은 브랜드 수이다. 이 접근방식을 "허용 데이터 : 직접 접근"이라고 한다. 다른 두 가지 접근법이 있다. 제품을 의미적 차등 척도로 등급이 매겨진 속성으로 분해하는 "인정 데이터 : 파생 접근법"이 있다. 다른 하나는 응답자에게 유사성보다는 선호도를 묻는 "선호 데이터 접근법"이다.
- MDS 통계 프로그램 실행 – 절차를 실행하기 위한 소프트웨어는 많은 통계 소프트웨어 패키지에서 이용할 수 있다. 종종 미터법 MDS(간격 또는 비율 수준 데이터를 다루는 MDS)와 비메트릭 MDS[7](서수형 데이터를 다루는 MDS) 사이에서 선택할 수 있다.
- 치수 결정 – 연구자는 컴퓨터가 만들려는 치수 수를 결정해야 한다. MDS 솔루션의 해석성은 종종 중요하며, 일반적으로 저차원 솔루션은 해석하고 시각화하기가 더 쉽다. 그러나 치수 선택 역시 언더피팅과 오버피팅의 균형을 맞추는 문제다. 저차원 솔루션은 상이한 데이터의 중요한 치수를 배제하여 부적합할 수 있다. 고차원 용액은 상이한 차이 측정에서 노이즈에 과도하게 적합할 수 있다. 따라서 AIC/BIC, 베이즈 계수 또는 교차 검증과 같은 모델 선택 도구는 언더피팅과 오버피팅의 균형을 유지하는 치수 선택 시 유용할 수 있다.
- 결과 매핑 및 치수 정의 – 통계 프로그램(또는 관련 모듈)이 결과를 매핑한다. 지도에는 각 제품(대개 2차원 공간)이 표시된다. 제품이 서로 근접하다는 것은 어떤 접근법을 사용했느냐에 따라 제품이 얼마나 비슷한지, 얼마나 선호하는지를 나타낸다. 그러나 임베딩의 치수가 실제로 시스템 동작의 치수에 어떻게 대응하는지 반드시 명백하지는 않다. 여기서, 통신에 관한 주관적 판단을 내릴 수 있다(지각적 지도 참조).
- 신뢰성과 유효성에 대한 결과를 검정 – MDS 절차로 설명할 수 있는 스케일링된 데이터의 분산 비율을 결정하기 위해 R-제곱 계산. R-제곱 0.6은 최소 허용 수준으로 간주된다.[citation needed] R-제곱 0.8은 미터법 스케일링에 좋고, .9는 비금속 스케일링에 좋은 것으로 간주된다. 다른 가능한 테스트로는 Kruskal의 스트레스, 분할된 데이터 테스트, 데이터 안정성 테스트(즉, 하나의 브랜드 제거) 및 테스트-retest 신뢰성이 있다.
- 결과를 종합적으로 보고한다 – 맵핑과 함께 최소 거리 측정(예: 소렌슨 지수, 자카드 지수)과 신뢰성(예: 응력 값)이 제공되어야 한다. 또한 (때로는 알고리즘 보고서를 대체하는) 프로그램에 의해 자주 정의되는 알고리즘(예: Kruskal, Mather)을 출발 구성을 주었거나 무작위 선택을 한 경우, 런 수, 차원성 평가, 몬테카를로 방법 결과, 반복 횟수, 평가인에게 부여하는 것이 매우 바람직하다.안정성의 t 및 각 축의 비례 분산(r-제곱)
구현
- ELKI는 두 개의 MDS 구현을 포함한다.
- MATLAB에는 두 개의 MDS 구현(클래식(cmdscale) 및 비클래식(mdscale) MDS가 포함된다.
- R 프로그래밍 언어는 몇 가지 MDS 구현을 제공한다.
- sklearn은 sklearn.properties를 포함한다.MDS.
참고 항목
![]() | 위키미디어 커먼스는 다차원적 스케일링과 관련된 미디어를 보유하고 있다. |
참조
- ^ Mead, A (1992). "Review of the Development of Multidimensional Scaling Methods". Journal of the Royal Statistical Society. Series D (The Statistician). 41 (1): 27–39. JSTOR 234863.
Abstract. Multidimensional scaling methods are now a common statistical tool in psychophysics and sensory analysis. The development of these methods is charted, from the original research of Torgerson (metric scaling), Shepard and Kruskal (non-metric scaling) through individual differences scaling and the maximum likelihood methods proposed by Ramsay.
- ^ a b Borg, I.; Groenen, P. (2005). Modern Multidimensional Scaling: theory and applications (2nd ed.). New York: Springer-Verlag. pp. 207–212. ISBN 978-0-387-94845-4.
- ^ Genest, Christian; Nešlehová, Johanna G.; Ramsay, James O. (2014). "A Conversation with James O. Ramsay". International Statistical Review / Revue Internationale de Statistique. 82 (2): 161–183. JSTOR 43299752. Retrieved 30 June 2021.
- ^ 위켈마이어, 플로리안 "MDS 소개."덴마크 알보리대 음질연구부(2003년) : 46
- ^ Bronstein AM, Bronstein MM, Kimmel R (January 2006). "Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching". Proc. Natl. Acad. Sci. U.S.A. 103 (5): 1168–72. Bibcode:2006PNAS..103.1168B. doi:10.1073/pnas.0508601103. PMC 1360551. PMID 16432211.
- ^ Kruskal, J. B. 및 Wish, M.(1978), 다차원 스케일링, Sage University Paper 시리즈, 사회과학의 정량적 적용에 관한 07-011. 비벌리 힐즈와 런던: 세이지 출판사.
- ^ Kruskal, J. B. (1964). "Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis". Psychometrika. 29 (1): 1–27. doi:10.1007/BF02289565. S2CID 48165675.
참고 문헌 목록
- Cox, T.F.; Cox, M.A.A. (2001). Multidimensional Scaling. Chapman and Hall.
- Coxon, Anthony P.M. (1982). The User's Guide to Multidimensional Scaling. With special reference to the MDS(X) library of Computer Programs. London: Heinemann Educational Books.
- Green, P. (January 1975). "Marketing applications of MDS: Assessment and outlook". Journal of Marketing. 39 (1): 24–31. doi:10.2307/1250799. JSTOR 1250799.
- McCune, B. & Grace, J.B. (2002). Analysis of Ecological Communities. Oregon, Gleneden Beach: MjM Software Design. ISBN 978-0-9721290-0-8.
- Young, Forrest W. (1987). Multidimensional scaling: History, theory, and applications. Lawrence Erlbaum Associates. ISBN 978-0898596632.
- Torgerson, Warren S. (1958). Theory & Methods of Scaling. New York: Wiley. ISBN 978-0-89874-722-5.