갤턴 문제

Galton's problem

프란시스 갈튼 경의 이름을 딴 갈튼의 문제는 현재 자기 상관이라고 불리는 통계적 현상 때문에 문화간 자료에서 추론을 끌어내는 문제다.이 문제는 이제 모든 비논리적 연구와 실험 설계에도 적용되는 일반적인 문제로 인식되고 있다.표본 추출된 원소가 통계적으로 독립적이지 않을 때 통계적 추정을 할 때 외부 의존성의 문제로 가장 간단히 기술된다.예를 들어 같은 집에 있는 두 사람에게 TV 시청 여부를 묻는 것은 통계적으로 독립적인 답을 주지 않는다.이 경우 독립 관측치에 대한 표본 크기 n은 2가 아니라 1이다.외부 의존성을 다루는 적절한 조정이 이루어지면, 통계적 독립성에 관한 확률 이론의 공리가 적용될 것이다.이러한 공리는 예를 들어, 또는 통계적 유의성의 검정과 같은 분산 측정치를 도출하는 데 중요하다.

기원

1888년 에드워드 타일러 경이 왕립 인류학 연구소에서 논문을 발표했을 때 갈튼이 참석했다.Tylor는 350개의 문화에 대한 결혼과 혈통 제도에 대한 정보를 수집하고 이러한 제도와 사회적 복잡성의 척도를 조사했다.Tylor는 그의 결과를 사회가 점점 복잡해짐에 따라 기관들이 모계 라인에서 부계 라인으로 초점을 바꾸는 일반적인 진화 과정의 징후로 해석했다.Galton은 문화간의 유사성이 차용에 의한 것일 수도 있고, 공동의 계통에 의한 것일 수도 있고, 진화적 발전에 의한 것일 수도 있다고 지적하면서 동의하지 않았다; 그는 차용과 공동의 계통에 대한 통제 없이는 진화적 발전에 관한 유효한 추론을 할 수 없다고 주장했다.Galton의 비평은 첫 번째 통계적 해결책을 제안한 [2][3]Raoul Naroll에 의해 명명된 유명한 Galton의 문제가 되었다.[1]: 175

20세기 초까지 일변도적 진화론은 버려졌고 그것과 함께 상관관계에서 진화적 순서에 이르는 직접적인 추론을 그렸다.그러나 갤턴의 비판은 상관관계로부터 기능적 관계를 추론하는 데 있어서 똑같이 타당하다는 것이 입증되었다.자기 상관 문제는 남아 있었다.

해결 방법

통계학자 윌리엄 S. 고셋은 1914년 시간이나 공간의 위치가 유사성에 어떻게 영향을 미치는지 때문에 가짜 상관관계를 없애는 방법을 개발했다.오늘날의 선거 여론 조사도 비슷한 문제가 있는데, 선거에 가까울수록 개인이 독자적으로 마음을 정하지 못하고, 특히 오차범위신뢰한계 등 여론조사 결과의 비신뢰성이 크다는 점이다.표본에서 나온 독립 사례의 유효 n은 선거가 가까워질수록 감소한다.통계적 유의성은 더 낮은 유효 표본 크기와 함께 떨어진다.

문제는 사회학자들이 그들의 인터뷰를 위한 이동 시간을 줄이고자 할 때, 그리고 그들은 그들의 인구를 지역 클러스터로 나누고 무작위로 클러스터들을 표본으로 추출한 다음 클러스터 내에서 다시 표본으로 추출할 때 표본조사 표본에서 나타난다.만약 그들이 m 크기의 군집을 가진 n명의 사람들을 인터뷰한다면, 각 군집의 모든 사람이 동일하다면, 유효 표본 크기(ef)는 1 + (n - 1) / m의 하한을 가질 것이다.군집 내에서 부분적인 유사성만 존재할 경우, 이 공식의 m은 그에 따라 낮아져야 한다.이러한 종류의 공식은 1 + d (n - 1)이며 여기서 d는 해당 통계량에 대한 쇄도상관관계다.[4]일반적으로 적절한 EFS의 추정은 평균, 카이-제곱, 상관 계수, 회귀 계수 및 이들의 분산과 같이 추정된 통계량에 따라 달라진다.

교차 문화 연구의 경우, 머독과 화이트[5] 186개 사회의 표본에서 유사한 점의 크기를 추정했다.그들이 실험한 네 가지 변수들 - 언어, 경제, 정치적 통합, 그리고 혈통 - 은 3 사이즈에서 10 사이즈까지 다양했던 유사점들을 가지고 있었다.매우 조잡한 경험 법칙은 유사성-패치 크기의 제곱근을 n으로 나누어 이러한 패치에 대해 유효 표본 크기가 각각 58과 107이 되도록 하는 것일 수 있다.다시 말하지만, 통계적 유의성은 더 낮은 유효 표본 크기와 함께 떨어진다.

현대 분석에서 공간적 시차들은 현대 사회의 세계화의 정도를 추정하기 위해 모델링되었다.[6]

공간 의존성 또는 자기 상관성은 지리학의 기본 개념이다.공간 자기 상관에[7][8] 대해 측정하고 제어하는 지리학자에 의해 개발된 방법은 상관관계의 유의성 검정에 대한 유효 n을 줄이는 것보다 훨씬 더 많은 것을 한다.한 예로 "사회에서 도박의 존재는 상업적 돈의 존재와 상당한 사회경제적 차이가 존재하는 것과 정비례하며, 사회가 유목민 목축사회인지 아닌지와 반비례한다"는 복잡한 가설을 들 수 있다.[9] 60개 사회의 표본에서 이 가설을 검정한 결과 귀무 가설을 기각하는 데 실패했다.그러나 자기 상관 분석은 사회경제적 차이의 유의미한 효과를 보여주었다.[10]

교차 문화 연구에서 연구된 변수들 사이에 자기 상관성이 얼마나 널리 퍼져 있는가?세계문화게재된 표준교차표본의 누적 데이터베이스 1700개 변수에 대한 안톤 Eff의 테스트는 모란의 I를 공간적 자기상관(거리), 언어적 자기상관(공통하), 문화적 복잡성의 자기상관(주요 진화)에 대해 Moran의 I를 측정했다."결과에 의하면...표준 교차 문화 표본으로 회귀 분석을 수행할 때 공간적 및 계통적 자기 상관성을 시험하는 것이 현명할 것이다."[11]탐색적 데이터 분석에서 자기 상관 시험의 사용이 예시되어, 주어진 연구의 모든 변수가 거리, 언어 및 문화적 복잡성 측면에서 사례의 비독립성에 대해 평가될 수 있는 방법을 보여준다.그런 다음 모란 1의 자기 상관 유의성 측정을 다시 사용하여 일반 최소 제곱법에 대해 이러한 자기 상관 효과를 추정하는 방법을 설명하고 설명한다.

자기 상관이 존재하는 경우 가중치가 관계 정도인 다른 위치에 대한 종속 변수에 대한 가중치에 의해 "지연"되는 재지정 종속 변수를 구성하여 회귀 계수와 그 분산에 대한 편향되지 않은 추정치를 얻기 위해 종종 제거할 수 있다.이 지연된 종속 변수는 내생성이며 추정에는 2단계 최소 제곱법 또는 최대우도 방법이 필요하다.[12]

자원.

퍼블릭 서버는 http://SocSciCompute.ss.uci.edu에서 외부에서 사용할 경우 NSF 지원 갤럭시 프레임워크(https://www.xsede.org)에서 다우(2007)와 에프앤다우(2009)의 R스크립트(R스크립트)와 추론할 수 있는 인문학 데이터, 변수, 도구를 제공하여 강사, 학생, 연구자가 "CoSSCI Galaxy" 교차 문화 레스를 할 수 있도록 한다.https://web.archive.org/web/20160402201432/https://dl.dropboxusercontent.com/u/9256203/SCCScodebook.txt에서 표준 교차 문화 샘플 변수를 사용하여 Galton의 문제에 대한 컨트롤을 포함한 이어치 모델링.

기회

1889년 통계학자 갈튼에 의해 Tylor의 문제가 처음 인정된 인류학에서는 관찰된 사례의 유사성 패치 문제와 자기 상관 방법을 이용한 새로운 발견의 기회에 대한 표준 통계적 조정이 있다는 것이 아직도 널리 인정되지 않고 있다.일부 교차 문화 연구자(예: 코로타예프 및 드 먼크 2003 참조)[13]는 확산의 증거, 역사적 기원 및 관련 사회나 개인 간의 그 밖의 유사성 출처를 갈튼의 문제보다는 갈튼의 기회와 갈튼의 자산으로 개칭해야 한다는 것을 깨닫기 시작했다.연구자들은 이제 기능적 관계, 확산, 공통의 역사적 기원, 다층적 진화, 환경과의 공동 적응, 복잡한 사회적 상호작용 역학 등 모든 경쟁 가설을 분석하기 위해 종적, 이종문화적, 지역적 편차 분석을 일상적으로 사용한다.[14]

논란

인류학 내에서 갤턴의 문제는 비교 연구를 전면적으로 거부하는 원인으로 주어지는 경우가 많다.문제는 일반적으로 과학과 통계적 추론에 공통적인 일반적인 것이기 때문에, 교차 문화 또는 비교 연구에 대한 이러한 특정한 비판은 논리적으로 말해서 과학과 통계에 대한 거부감에 해당하는 것이다.예를 들어 민족학자들에 의해 수집되고 분석된 모든 데이터는 갈튼의 문제에 똑같이 적용되며, 가장 일반적인 의미로 이해된다.반비례적 비평에 대한 비평은 텍스트 분석에도 적용될 것이기 때문에 통계적 비교에만 국한되지 않는다.즉, 논쟁에서 텍스트의 분석과 사용은 추론의 근거에 대한 비판의 대상이 된다.순전히 미사여구에 의존하는 것은 논쟁의 타당성과 그 근거에 관한 비평에 대한 보호가 아니다.

그러나, 이종 문화 연구자들의 공동체가 Galton의 문제를 무시하는데 있어서 태만했다는 것은 거의 의심의 여지가 없다.이 질문에 대한 전문가 조사는 "지난 수십 년간 문화간 데이터 세트를 사용한 순진한 카이-제곱 독립성 시험의 광범위한 보고가 기대 5%보다 훨씬 높은 수준에서 귀무 가설의 부정확한 거부를 초래했음을 강력히 시사한다"[15]: 247 는 결과를 보여준다.조사관은 "비교적 자료와 함께 순진한 카이-제곱 검사에 의해 '저장'된 잘못된 이론은 다른 날 더 엄격하게 검사될 수 있다"[15]: 270 고 결론짓는다.군집 표본의 조정된 분산은 1 + d (k + 1) 곱한 값으로 주어지며, 여기서 k는 군집의 평균 크기이며, r c 열과의 분할표 상관관계의 분산에 대해서는 보다 복잡한 보정이 주어진다.이 비평이 1993년에 출판된 이후, 다른 사람들이 그것을 좋아하기 때문에, 더 많은 작가들이 갈튼의 문제에 대한 수정을 채택하기 시작했지만, 교차 문화 분야의 대다수는 그렇지 않았다.따라서 순진한 유의성 검사에 의존하고 P < 0.005 표준보다는 P < 0.05 표준을 채택한 공표된 결과의 상당 부분은 사실일 때 귀무 가설을 기각하는 형식 I 오류에 더 취약하기 때문에 오류가 발생할 가능성이 높다.

일부 교차 문화 연구자들은 갈튼의 문제의 심각성을 거부하는데, 왜냐하면 그들은 약하거나 강한 자기 상관관계가 존재하더라도 상관관계와 수단의 추정치는 편견이 없을 수 있기 때문이다.그러나 자기 상관을 조사하지 않으면 변수 간의 관계를 다루는 통계를 잘못 추정할 수 있다.예를 들어 회귀 분석에서 자기 상관 잔차의 패턴을 조사하면 변수 간의 관계에 영향을 미칠 수 있지만 회귀 모형에 포함되지 않은 세 번째 요인에 대한 중요한 단서를 제공할 수 있다.둘째, 표본에 유사하고 관련성이 있는 집단이 있을 경우, 분산 측도가 과소평가되어 잘못된 통계적 결론이 도출된다.예를 들어 상관관계의 통계적 유의성을 과장하는 것.셋째, 분산의 과소평가로 인해 두 개의 다른 표본에서 얻은 결과의 복제에 대한 테스트가 어려워지는데, 결과는 유사한 것으로 더 자주 거부되기 때문이다.

참고 항목

참조

  1. ^ 스타킹, 조지 W. 주니어(1968년)."에드워드 버넷 타일러."국제 사회 과학 백과사전데이비드 L. 실스, 뉴욕 맥밀란사 편집장: v.16, 페이지 170–177.
  2. ^ Raoul Naroll (1961). "Two solutions to Galton's Problem". Philosophy of Science. 28: 15–29. doi:10.1086/287778.
  3. ^ Raoul Naroll (1965). "Galton's problem: The logic of cross cultural research". Social Research. 32: 428–451.
  4. ^ "Sample Size and Design Effect" (PDF). Archived from the original (PDF) on 2006-04-14. Retrieved 2006-11-01.
  5. ^ George P. Murdock and Douglas R. White (1969). "Standard cross-cultural sample". Ethnology. 9: 329–369.
  6. ^ Jahn, Detlef (2006). "Globalization as Galton's Problem: The Missing Link in the Analysis of the Diffusion Patterns in Welfare State Development" (PDF). International Organization. 60 (2): 401–431. doi:10.1017/s0020818306060127. 추상적
  7. ^ 서기 1973년 클리프, J.K. 오드.공간 자기 상관.런던: 파이온 프레스.
  8. ^ 서기 1981년 클리프, J.K. 오드.공간 프로세스.런던: 파이온 프레스.
  9. ^ Pryor, Frederick (1976). "The Diffusion Possibility Method: A More General and Simpler Solution to Galton's Problem". American Ethnologist. American Anthropological Association. 3 (4): 731–749. doi:10.1525/ae.1976.3.4.02a00100.
  10. ^ Malcolm M. Dow, Michael L. Burton, Douglas R. White, and Karl P. Reitz (1984). "Galton's problem as network autocorrelation". American Ethnologist. 11 (4): 754–770. doi:10.1525/ae.1984.11.4.02a00080.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  11. ^ E. Anthon Eff (2004). "Does Mr. Galton still have a Problem? Autocorrelation in the Standard Cross-Cultural Sample" (PDF). World Cultures. 15 (2): 153–170.
  12. ^ 안셀린, 1988년.공간 계량학: 방법 및 모델.Dordrecht: Kluwer Academic Publishers.
  13. ^ Andrey Korotayev and Victor de Munck (2003). "Galton's Asset and Flower's Problem: Cultural Networks and Cultural Units in Cross-Cultural Research". American Anthropologist. 105 (2): 353–358. doi:10.1525/aa.2003.105.2.353.
  14. ^ Mace, Ruth; Pagel, Mark (1994). "The Comparative Method in Anthropology". Current Anthropology. 35 (5): 549–564. doi:10.1086/204317.
  15. ^ a b Malcolm M. Dow (1993). "Saving the theory: on chi-square tests with cross-cultural survey data". Cross-Cultural Research. 27 (3–4): 247–276. doi:10.1177/106939719302700305.

추가 읽기