컬투로믹스

Culturomics

컬투로믹스는 디지털화된 지문의 정량적 분석을 통해 인간의 행동문화적 경향을 연구하는 계산 어휘학의 한 형태다.[1][2] 연구자들은 언어와 단어 사용에 반영된 문화 현상을 조사하기 위해 대규모 디지털 자료실채굴한다.[3] 이 용어는 2010년 하버드대 연구원인 장바티스트 미셸과 에레즈 리버먼 에이든이 공동 저술한 '수백만 권의 디지털화된 책을 이용한 문화의 정량적 분석'이라는 과학 논문에 처음 기술된 미국의 신조어다.[4]

Michel과 Aiden은 시간이 지남에 따라 언어 사용의 문화적 패턴을 분석하기 위해 n-gram을 사용하는 Google Labs 프로젝트인 Google Ngram Viewer를 만드는 것을 도왔다.

구글 N그램 데이터 세트는 편견이 없는 샘플이 아니며 메타데이터도 [5]포함하지 않기 때문에 언어나 용어의 인기도를 연구하는 데 사용할 때 여러 가지 함정이 있다.[6][7] 의학 문헌은 말뭉치에서 크지만 변화하고 있는 몫을 차지하는데,[8] 말뭉치들은 그 문학이 얼마나 자주 인쇄되거나 읽히는지 고려하지 않는다.

연구

2012년[9] 미국 선거의 서술적 네트워크

컬투로믹스 2.0이라는 연구에서 칼레프 H. 리타루는 지리적 데이터뿐만 아니라 톤이나 "무드"를 전달하는 단어에 대해 인쇄 매체와 방송 매체(텔레비전 및 라디오 대본)를 포함한 뉴스 자료들을 조사했다.[10][11] 이 연구는 2011년 아랍의 을 소급 예측했고 오사마라덴의 최종 위치를 200km(124마일) 이내로 추정하는 데 성공했다.[10][11]

알렉산더 M. 피터슨과 공동 저자의 2012년 논문에서 그들은 "단어의 출생률과 사망률의 급격한 변화"[13]를 발견했다.[12] 사망자가 늘고 출생도 느려졌다. 저자들은 또 새 단어의 기원 후 약 30~50년이 지난 시점에서 새로운 단어의 라이프 사이클에서 보편적인 '티핑 포인트'를 확인, 장기 어휘에 들어가거나 불용 상태에 빠진다.[13]

사이비교적 접근은 I에 의한 여러 연구에서 신문 내용 분석에서 취해져 왔다. 플라우나스와 공동저자들. 이들 연구는 서로 다른 언론사와 국가에 걸친 거시적인 추세를 보여주었다. 2012년, 250만 건의 기사를 대상으로 한 연구는 뉴스 보도성별 편향이 주제에 따라 다르며 신문 기사의 가독성이 주제와 어떻게 관련이 있는지를 제시했다.[14] 같은 연구자들이 27개국에서 130만 건의 기사를 취재한 별도의 연구는 취재할 이야기의 선택에 있어서 거시적인 패턴을 보여주었다.[15] 특히 경제·지리적·문화적 연계에 의해 관련됐을 때도 각국이 비슷한 선택을 했다. 유로비전 노래 경연대회 투표의 유사성으로 문화적 연계가 드러났다. 이 연구는 통계 기계 번역, 텍스트 분류정보 추출 기법을 사용하여 광범위한 규모로 수행되었다.

T. 란스달-웰페어(T. Lansdall-Welfare)와 공동저자의 연구에서 트위터 내용을 분석함으로써 방대한 인구의 기분 변화를 감지할 수 있는 가능성이 입증되었다.[16] 이 연구는 31개월 동안 980만 명 이상의 영국 사용자들이 만든 8,400만 건의 트윗을 고려했는데, 이는 지출 삭감의 발표와 함께 영국의 여론이 어떻게 변했는지를 보여준다.

S 수다하르와 공동저자의 2013년 연구에서, 텍스트 코퍼레이션의 자동 파싱은 방대한 규모의 행위자 및 관계 네트워크를 추출하여 텍스트 데이터를 네트워크 데이터로 변환시키는 것을 가능하게 했다. 그런 다음 수천 개의 노드를 포함할 수 있는 결과 네트워크는 네트워크 이론의 도구를 사용하여 주요 행위자, 주요 커뮤니티 또는 당사자, 그리고 전체 네트워크의 견고성이나 구조적 안정성 또는 특정 노드의 중심성과 같은 일반적인 속성을 식별함으로써 분석된다.[17]

T 란스달-웰페어와 공동저자의 2014년 연구에서는 5년간[18] 500만 건의 뉴스가 수집됐다가 후쿠시마 재앙에 상응하는 원자력 보도와 관련된 심리의 큰 변화를 시사하는 것으로 분석됐다. 이번 연구에서는 재난 전후의 원자력 관련 개념도 추출해 서술형 틀의 변화로 정서의 변화를 설명했다.

2015년 한 연구는 구글 책 데이터 세트의 편향성을 밝혀냈다. 이 데이터 세트는 "문화적 인기의 불명확한 가면을 만드는 많은 제약에서 벗어났다"[5]고 하며, 이전 결과의 많은 의미에 의문을 제기한다.

컬투롬적 접근법은 또한 인간-자연 관계에 대한 더 나은 이해를 통해 보존 과학에 기여할 수 있다. 2016년에서, 리차드는 국자와 colleagues&lt에 의해 간행물;refdoi:10.1002/fee.1260<, /ref&gt고, 자연에 대한 대중의 관심을 보여 주고, 보존의 엠블럼, providin을 확인하는conservation-oriented개 선거구 인식을 포함해서 컬쳐로 보존의 연습과 과학을 발전시키는 데 사용할 수 있는 5가지 핵심 분야 미비.입수 나에게 새로운실시간에 가까운 환경 모니터링 및 보존 의사 결정 지원, 보존 개입의 문화적 영향 평가, 보존 문제의 프레임 설정 및 대중의 이해 증진을 위한 트릭과 도구

2017년 구글 검색 활동 및 온도와 관절통 관련 연구결과가 나왔다.[19] 연구는 높은 온도에서 고관절과 무릎 통증에 대한 더 높은 검색 활동을 관찰했지만, 활동과 같은 다른 관련 요인에 대해서는 통제하지 못하고 통제할 수 없다. 매스미디어는 이를 "비가 내려도 관절통이 증가하지 않는다"[20][21]고 오해한 반면, 저자들은 관찰된 상관관계가 "신체활동 수준의 변화"[22] 때문이라고 추측하고 있다.

비판

언어학자들사전 편찬자들은 피터슨 외 연구원의 연구 결과를 포함하여 이러한 연구들 중 일부의 방법과 결과에 대해 회의감을 표명했다.[23] 다른 이들은 N그램 데이터 집합에서 편향을 입증했다. 되는 것이기 때문에 분명하지 않다 그들의 결과:[5]"'as은 구글 N그램의 데이터에 표시됩니다'대신에 일반적인 또는 문화적 언어의 변화에 대해 말하고, 그것이 명확하게 또는 문화적 언어의 변화로 결과를 제한하는 것이 바람직 하는 것 같"[6]"에 의문을 제기하다 기존 주장의 대부분이 구글 도서 말뭉치에서 꺼내어". 를 일으키d 샘플의 관찰된 변화.

참고 항목

참조

  1. ^ Cohen, Patricia (16 December 2010). "In 500 Billion Words, New Window on Culture". New York Times.
  2. ^ Hayes, Brian (May–June 2011). "Bit Lit". American Scientist. 99 (3): 190. doi:10.1511/2011.90.190. Archived from the original on 2016-10-18. Retrieved 2011-09-09.
  3. ^ Letcher, David W. (April 6, 2011). "Cultoromics: A New Way to See Temporal Changes in the Prevalence of Words and Phrases" (PDF). American Institute of Higher Education 6th International Conference Proceedings. 4 (1): 228. Archived from the original (PDF) on March 3, 2016. Retrieved September 9, 2011.
  4. ^ Michel, Jean-Baptiste; Liberman Aiden, Erez (16 December 2010). "Quantitative Analysis of Culture Using Millions of Digitized Books". Science. 331 (6014): 176–82. doi:10.1126/science.1199644. PMC 3279742. PMID 21163965.
  5. ^ Jump up to: a b c Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan (2015-10-07). "Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution". PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. doi:10.1371/journal.pone.0137041. ISSN 1932-6203. PMC 4596490. PMID 26445406.
  6. ^ Jump up to: a b Koplenig, Alexander (April 2017). "The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII". Digital Scholarship in the Humanities. 32 (1): 169–188. doi:10.1093/llc/fqv037. ISSN 2055-7671.
  7. ^ Zhang, Sarah. "The Pitfalls of Using Google Ngram to Study Language". WIRED. Retrieved 2017-05-24.
  8. ^ 예제 항 비교
  9. ^ Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2015). "Automated analysis of the US presidential elections using Big Data and network analysis". Big Data & Society. 2. doi:10.1177/2053951715572916. S2CID 62188746.
  10. ^ Jump up to: a b Leetaru, Kalev H. (5 September 2011). "Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone In Time And Space". First Monday. 16 (9). doi:10.5210/fm.v16i9.3663. Archived from the original on 4 April 2012. Retrieved 9 September 2011.
  11. ^ Jump up to: a b Quick, Darren (7 September 2011). "Culturomics research uses quarter-century of media coverage to forecast human behavior". Gizmag.com. Retrieved 9 September 2011.
  12. ^ Petersen, Alexander M. (15 March 2012). "Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death". Scientific Reports. 2: 313. arXiv:1107.3707. Bibcode:2012NatSR...2E.313P. doi:10.1038/srep00313. PMC 3304511. PMID 22423321.
  13. ^ Jump up to: a b 2012년 3월 16일 월스트리트저널 크리스토퍼 쉐아 "단어의 탄생과 죽음에 대한 새로운 과학"
  14. ^ Flaounas, Ilias; Ali, Omar; Lansdall-Welfare, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2013). "Research Methods in the Age of Digital Journalism". Digital Journalism. 1: 102–116. doi:10.1080/21670811.2012.714928. S2CID 61080552.
  15. ^ Flaounas, Ilias; Turchi, Marco; Ali, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). "The Structure of the EU Mediasphere". PLOS ONE. 5 (12): e14243. Bibcode:2010PLoSO...514243F. doi:10.1371/journal.pone.0014243. PMC 2999531. PMID 21170383.
  16. ^ Lansdall-Welfare, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Effects of the recession on public mood in the UK". Proceedings of the 21st international conference companion on World Wide Web - WWW '12 Companion. p. 1221. doi:10.1145/2187980.2188264. ISBN 9781450312301. S2CID 1825992.
  17. ^ Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). "Network analysis of narrative content in large corpora". Natural Language Engineering. 21: 81–112. doi:10.1017/S1351324913000247. hdl:1983/dfb87140-42e2-486a-91d5-55f9007042df. S2CID 3385681.
  18. ^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2014). "On the coverage of science in the media: A big data study on the impact of the Fukushima disaster". 2014 IEEE International Conference on Big Data (Big Data). pp. 60–66. doi:10.1109/BigData.2014.7004454. hdl:2381/31439. ISBN 978-1-4799-5666-1. S2CID 7686818.
  19. ^ Telfer, Scott; Obradovich, Nick (2017-08-09). "Local weather is associated with rates of online searches for musculoskeletal pain symptoms". PLOS ONE. 12 (8): e0181266. Bibcode:2017PLoSO..1281266T. doi:10.1371/journal.pone.0181266. ISSN 1932-6203. PMC 5549896. PMID 28792953.
  20. ^ "Are achy joints associated with rain? Google suggests otherwise". NBC News. Retrieved 2017-08-10.
  21. ^ "This Myth About Joint Pain Is Total Crap". Men's Health. 2017-08-10. Retrieved 2017-08-10.
  22. ^ "Rain increases joint pain? Google suggests otherwise: People's activity levels -- increasing as temperatures rise, to a point -- are likelier than the weather itself to cause pain that motivates online searches, researchers say". ScienceDaily. Retrieved 2017-08-10.
  23. ^ 2013년 2월 10일 보스턴 글로브, BEN ZIMMER, "물리학자들이 언어학을 할 때"

추가 읽기

외부 링크

  • 에레즈 리버먼 에이든과 장 바티스트 미셸이 연출한 하버드 문화전망대 웹사이트 Culturomics.org