Google Ngram 뷰어
Google Ngram Viewer검색 문자열의 판단될 N-그램의 백작이 인쇄된 자원 1500개에서 2019[1][2][3][4][5]의 영어, 중국어(간이), 프랑스어,, 히브리어, 독일어, 러시아어, 또는 이탈리아 Spani에서 구글의 텍스트 corpora에 게재된 참조의 주파수를 추적해서 보여 주는 구글 N그램 뷰어나 구글 북스 N그램 뷰어는 온라인 검색 엔진.sh.[2][6]또한 미국 영어, 영국 영어,[7] 영국 소설과 같은 전문화된 영어 말뭉치도 있다.
이 프로그램은 철자 오류나 횡설수설 [6]등을 포함한 단어 또는 구문을 검색할 수 있습니다.n-그램은 대소문자를 구분하는 맞춤법(대문자의 정확한 [8]사용 비교)을 사용하여 선택된 말뭉치 내의 텍스트와 일치하며, 40권 이상의 책에 있는 경우 [9]그래프로 표시됩니다.
Google Ngram Viewer는 음성 및 와일드카드 [7]검색을 지원합니다.그것은 연구에 [10][11]일상적으로 사용된다.
역사
이 프로그램은 Jon Orwant와 Will Brockman에 의해 개발되어 2010년 [2][3]12월 중순에 출시되었습니다.하버드대 문화전망대의 장 밥티스트 미셸과 에레즈 에이든, MIT의 위안 [12]셴과 스티븐 핑커에 의해 만들어진 "북웜"이라는 시제품에서 영감을 얻었다.
Ngram Viewer는 처음에 Google Books Ngram Corpus의 2009년 판을 기반으로 했습니다.2020년 7월[update] 현재 프로그램은 2009년, 2012년, 2019년 코퍼라를 지원하고 있습니다.
조작 및 제약사항
쉼표는 사용자가 입력한 검색어를 구분하여 [9]검색할 각 개별 단어 또는 구문을 나타냅니다.Ngram Viewer는 사용자가 Enter 키 또는 화면의 "Search" 버튼을 누른 후 몇 초 이내에 표시된 꺽은선형 차트를 반환합니다.
몇 년 동안 더 많은 책이 출판된 것에 대한 조정으로,[9] 데이터는 상대적인 수준으로 매년 출판된 책 수에 따라 정규화된다.
Ngram 데이터베이스의 크기 제한으로 인해 40개 이상의 도서에 있는 일치 항목만 데이터베이스에 인덱싱됩니다. 그렇지 않으면 데이터베이스가 가능한 [9]모든 조합을 저장할 수 없습니다.
일반적으로 검색어는 구두점으로 끝날 수 없지만 별도의 마침표([9]마침표)를 검색할 수 있습니다.또한 끝 물음표("Why?"와 같이)를 사용하면 물음표가 별도로 [9]두 번째 검색됩니다.
줄임말에서 마침표를 생략하면 "R.M.S"를 사용하여 "RMS"가 아닌 "R.M.S"를 검색하는 것과 같은 일치 형식이 허용됩니다.
말뭉치
검색에 사용되는 말뭉치는 언어별로 total_counts, 1-gs, 2-gs, 3-gs, 4-gs 및 5-gs 파일로 구성됩니다.각 파일의 파일 형식은 탭으로 구분된 데이터입니다.각 행의 [13]형식은 다음과 같습니다.
- total_filename 파일
- year Tab match_count Tab 페이지_count Tab volume_count NEWLINE
- 버전 1 ng 파일(2009년7월에 생성)
- nGRAM Tab year Tab match_count Tab 페이지_count Tab volume_count NEWLINE
- 버전 2 n그램 파일(2012년 7월 생성)
- nGRAM Tab year Tab match_count Tab volume_count NEWLINE
Google Ngram Viewer는 match_count를 사용하여 그래프를 플롯합니다.
예를 들어 영어 1그램 버전2 파일의 "Wikipedia" 단어는 [14]다음과 같이 저장됩니다.
그램 | 연도 | match_count | 볼륨_카운트 |
---|---|---|---|
위키백과 | 1904 | 1 | 1 |
위키백과 | 1912 | 11 | 1 |
위키백과 | 1924 | 1 | 1 |
위키백과 | 1925 | 11 | 1 |
위키백과 | 1929 | 11 | 1 |
위키백과 | 1943 | 11 | 1 |
위키백과 | 1946 | 11 | 1 |
위키백과 | 1947 | 11 | 1 |
위키백과 | 1949 | 11 | 1 |
위키백과 | 1951 | 11 | 1 |
위키백과 | 1953 | 22 | 2 |
위키백과 | 1955 | 11 | 1 |
위키백과 | 1958 | 1 | 1 |
위키백과 | 1961 | 22 | 2 |
위키백과 | 1964 | 22 | 2 |
위키백과 | 1965 | 11 | 1 |
위키백과 | 1966 | 15 | 2 |
위키백과 | 1969 | 33 | 3 |
위키백과 | 1970 | 129 | 4 |
위키백과 | 1971 | 44 | 4 |
위키백과 | 1972 | 22 | 2 |
위키백과 | 1973 | 1 | 1 |
위키백과 | 1974 | 2 | 1 |
위키백과 | 1975 | 33 | 3 |
위키백과 | 1976 | 11 | 1 |
위키백과 | 1977 | 13 | 3 |
위키백과 | 1978 | 11 | 1 |
위키백과 | 1979 | 112 | 12 |
위키백과 | 1980 | 13 | 4 |
위키백과 | 1982 | 11 | 1 |
위키백과 | 1983 | 3 | 2 |
위키백과 | 1984 | 48 | 3 |
위키백과 | 1985 | 37 | 3 |
위키백과 | 1986 | 6 | 4 |
위키백과 | 1987 | 13 | 2 |
위키백과 | 1988 | 14 | 3 |
위키백과 | 1990 | 12 | 2 |
위키백과 | 1991 | 8 | 5 |
위키백과 | 1992 | 1 | 1 |
위키백과 | 1993 | 1 | 1 |
위키백과 | 1994 | 23 | 3 |
위키백과 | 1995 | 4 | 1 |
위키백과 | 1996 | 23 | 3 |
위키백과 | 1997 | 6 | 1 |
위키백과 | 1998 | 32 | 10 |
위키백과 | 1999 | 39 | 11 |
위키백과 | 2000 | 43 | 12 |
위키백과 | 2001 | 59 | 14 |
위키백과 | 2002 | 105 | 19 |
위키백과 | 2003 | 149 | 53 |
위키백과 | 2004 | 803 | 285 |
위키백과 | 2005 | 2964 | 911 |
위키백과 | 2006 | 9818 | 2655 |
위키백과 | 2007 | 20017 | 5400 |
위키백과 | 2008 | 33722 | 6825 |
위의 데이터를 사용하여 Google Ngram Viewer가 플롯한 그래프는 [15]다음과 같습니다.
제한 사항
이 데이터 세트는 부정확한 OCR, 과학 문헌의 과잉에 의존하며 잘못된 날짜의 분류된 텍스트를 [16][17]다수 포함하고 있다는 비판을 받아왔다.이러한 오류들 때문에, 그리고 그것은 편견에 대해[18] 통제되지 않기 때문에(예를 들어, 다른 용어들의 인기가 떨어지는 것처럼 보이는 과학 문헌의 양이 증가하는 것과 같이), 언어를 공부하거나 이론을 테스트하기 위해 [19]이 말뭉치를 사용하는 것은 위험하다.데이터 세트에는 메타데이터가 포함되어 있지 않기 때문에 일반적인 언어적 또는 문화적[20] 변화가 반영되지 않을 수 있으며 이러한 효과만 암시할 수 있습니다.
위에서 [21]논의한 많은 문제를 다루는 Google Ngram의 데이터로 조사를 하기 위한 가이드라인이 제안되었습니다.
OCR 문제
OCR(광학식 문자 인식)이 항상 신뢰할 수 있는 것은 아니며 일부 문자는 올바르게 스캔되지 않을 수 있습니다.특히, 19세기 이전의 텍스트에서 "s"와 "f"의 혼돈과 같은 체계적 오류는 체계적 편견을 야기할 수 있다.비록 구글 N그램 뷰어는 결과가 1800년부터 계속 믿을 만하다 주장하지 않는다면, 가난한 OCR및 불충분한 자료에 따르면 주파수 중국어와 같은 언어를 위한 겨우 1970년 이후의 주장에 공통되는 용어에 대한 실적을 황체의 이전 부분, 그리고 몇년 동안 데이터 50%이상 소음이 정확할 수도 있는.[22][23]
「 」를 참조해 주세요.
레퍼런스
- ^ "수백만 권의 디지털 서적을 사용한 문화의 정량적 분석" JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
- ^ a b c "Google Ngram Database, 5000억 워드의 인기 추적" Huffington Post, 2010년 12월 17일, 웹 페이지:HP8150.
- ^ a b "Google의 N그램 뷰어: 워드플레이 타임머신", Cnet.com, 2010년 12월 17일, 웹 페이지:CN93.
- ^ "그림은 5000억 단어로 가치가 있다 – 러스티 S.Thompson", HarrisburgMagazine.com, 2011년 9월 20일 웹 페이지:HBMag20[permanent dead link]
- ^ Google SearchLiaison [@searchliaison] (July 13, 2020). "The Google Books Ngram Viewer has now been updated with fresh data through 2019" (Tweet). Retrieved 2020-08-11 – via Twitter.
{{cite web}}
:author=
범용명(도움말)이 있습니다. - ^ a b "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 2011년 8월 22일, 웹 페이지:Buf497 2013-07-02 Wayback Machine에 보관
- ^ a b "Google Books Ngram Viewer info page".
- ^ "Google Ngram 뷰어 - Google Books", 책.Google.com, 2012년 5월, 웹 페이지: G-Ngs.
- ^ a b c d e f "Google Ngram Viewer - Google Books"(정보), 책.Google.com, 2010년 12월 16일, 웹 페이지: G-Ngs-info: 아포스트로피가 있는 단어에 대한 큰 글자와 따옴표 사용에 주목합니다.
- ^ 그린필드 PM (2013년)1800년부터 2000년까지의 문화심리 변화심리과학, 24(9), 1722-1731. https://doi.org/10.1177/0956797613479387
- ^ 유네스, 엔앤립스, U.-D. (2018년)독일 문화의 심리 변화: 구글 엔그램 연구.International Journal of Psychology, 53(S1), 53-62. https://doi.org/10.1002/ijop.12428
- ^ The RSA (4 February 2010). "Steven Pinker - The Stuff of Thought: Language as a window into human nature" – via YouTube.
- ^ "Google Books Ngram Viewer".
- ^ googlebooks-eng-all-1그램-20120701-w.gz (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html )
- ^ "Google Ngram Viewer". Books.google.com. Retrieved 2022-02-14.
- ^ Google Ngrams: Wayback Machine에서 OCR 및 메타데이터 아카이브 2016-04-27.Resource Shelf, 2010년 12월 19일
- ^ Nunberg, Geoff (16 December 2010). "Humanities research with the Google Books corpus". Archived from the original on 10 March 2016.
- ^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 October 2015). "Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution". PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. doi:10.1371/journal.pone.0137041. PMC 4596490. PMID 26445406.
- ^ Zhang, Sarah. "The Pitfalls of Using Google Ngram to Study Language". WIRED. Retrieved 2017-05-24.
- ^ Koplenig, Alexander (2015-09-02). "The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII". Digital Scholarship in the Humanities (published 2017-04-01). 32 (1): 169–188. doi:10.1093/llc/fqv037. ISSN 2055-7671.
- ^ 유네스, 노스, & 리프스, U.-D. (2019년)Google Ngram 연구의 신뢰성을 개선하기 위한 지침:종교적 용어의 증거지PLoS 1, 14(3): e0213554.https://doi.org/10.1371/journal.pone.0213554
- ^ 구글 n그램과 전근대 중국어. digitalsinology.org
- ^ n그램이 고장나면 digitalsinology.org.
참고 문헌
- Lin, Yuri; et al. (July 2012). "Syntactic Annotations for the Google Books Ngram Corpus" (PDF). Proceedings of the 50th Annual Meeting. Demo Papers. Jeju, Republic of Korea: Association for Computational Linguistics. 2: 169–174. 2390499.
Whitepaper presenting the 2012 edition of the Google Books Ngram Corpus