공존 네트워크

Co-occurrence network
KH Coder로 작성된 공존 네트워크

동시 발생 네트워크는 때로 의미 [1]네트워크라고도 불리며, 사람, 조직, 개념, 박테리아와 같은[2] 생물학적 유기체 또는 쓰여진 자료 내에 표현되는 다른 개체 사이의 잠재적인 관계그래픽으로 시각화하는 것을 포함하는 텍스트를 분석하는 방법입니다.공존 네트워크의 생성과 시각화는 텍스트 마이닝을 준수하는 전자 저장 텍스트의 등장으로 실용화되었습니다.

정의에 따르면, 공존 네트워크는 특정 텍스트 단위 내의 쌍으로 구성된 존재에 기초한 용어들의 집합적 상호 연결이다.네트워크는 동시 발생을 정의하는 일련의 기준을 사용하여 용어 쌍을 연결하여 생성됩니다.예를 들어, A와 B라는 용어는 둘 다 특정 기사에 나타나는 경우 "공통"이라고 할 수 있습니다.다른 문서에는 B와 C라는 용어가 포함될 수 있습니다.A를 B로, B를 C로 링크하면 이들 3개의 용어의 공존 네트워크가 생성됩니다.원하는 기준에 따라 텍스트 말뭉치 내에서 공존을 정의하는 규칙을 설정할 수 있다.예를 들어, 더 엄격한 동시 발생 기준에서는 한 의 용어가 같은 문장에 표시될 수 있습니다.동시 발생 네트워크는 주요 주제와 주제를 식별하거나(예: 다수의 소셜 미디어 게시물에서), 텍스트에서 편견을 드러내거나(예: 뉴스 보도 분야의 편견) 전체 연구 [3]분야를 매핑할 때, 대용량 텍스트와 빅데이터를 분석하는 데 특히 유용한 것으로 밝혀졌다.

방법 및 개발

공존 네트워크의 구축 프로세스에는 텍스트 내의 키워드의 특정, 공존 빈도의 계산, 네트워크의 분석을 통해 네트워크 [4]내의 중심적인 단어와 테마의 클러스터를 찾을 수 있습니다.

다음 문장에 대한 단어 공존 네트워크(범위 3 단어) : "새벽은 일출 전 빛의 출현이다 - 보통 황금색, 분홍색 또는 보라색 -
세균 군집의 공존 네트워크
줄지어

동시 발생 네트워크는 텍스트 모음(모든 텍스트 말뭉치)과 관련하여 주어진 용어 목록(모든 사전)에 대해 생성할 수 있습니다.동시에 발생하는 용어 쌍은 "네이버"라고 불릴 수 있으며, 이들은 종종 상호 연결에 따라 "네이버"로 그룹화된다.개별 용어에는 여러 개의 인접어가 있을 수 있습니다.네이버는 적어도1개의 개별 용어를 통해 서로 연결되거나 연결되지 않은 상태로 유지될 수 있습니다.

개별 용어는 텍스트 마이닝의 컨텍스트 내에서 텍스트 문자열로 상징적으로 표시됩니다.현실에서 용어로 식별되는 기업은 일반적으로 몇 가지 상징적 표현을 가지고 있다.따라서 하나의 기본 기호와 여러 개의 동의어 대체 기호로 표현되는 용어를 고려하는 것이 유용합니다.개별 용어의 발생은 해당 용어의 알려진 각 기호 표현을 검색함으로써 확립된다.이 프로세스는 텍스트 세그먼트를 조회하여 단어 순서, 공백 및 하이픈 처리와 같은 가능한 대안을 찾는 NLP(자연 언어 처리) 알고리즘을 통해 증강될 수 있습니다.또한 NLP를 사용하여 문장 구조를 식별하고 문법에 따라 텍스트 문자열을 분류할 수 있습니다(예를 들어 기사라고 알려진 텍스트의 선행 문자열을 기준으로 명사로 분류하는 것).

공존 네트워크의 그래픽 표현은 텍스트 코퍼스에 적용되는 용어 사전으로 표현되는 도메인 내의 엔티티 간의 관계에 관해 그것들을 시각화하고 추론할 수 있게 한다.의미 있는 시각화를 실시하려면 , 통상은 네트워크의 심플화가 필요합니다.예를 들어 각 용어에 접속하는 네이버의 수가 제한되도록 네트워크를 그릴 수 있습니다.인접 라우터를 제한하는 기준은 공존의 절대수 또는 공존의 "확률"이나 간섭 기술 용어의 존재와 같은 보다 미묘한 기준에 기초할 수 있다.

공존 네트워크의 기본 구조의 양적 측면도 엔티티 간의 전체 연결 수, 하위 도메인을 나타내는 엔티티의 클러스터링, 동의어 [6]검출 등과 같이 유익할 수 있다.

응용 프로그램 및 용도

동시 발생 접근법의 일부 작동 애플리케이션은 인터넷을 통해 대중이 이용할 수 있다.PubGene은 MEDLINE [7][8]기록에 나타나는 유전학 관련 용어의 공존에 기초한 네트워크를 제시함으로써 생물의학계의 이익을 다루는 응용 프로그램의 한 예이다.사이트 NameBase는 신문과 기타 텍스트(Ozgur 등)[9]의 개인 이름 공존으로 구성된 네트워크를 조사함으로써 인간 관계를 추론하는 방법의 한 예이다.

또, 정보 네트워크는, 법 집행이나 정보 제공의 목적( 「오픈·소스·인텔리전스」(OSINT))을 위해서, 공개되고 있는 정보의 정리나 집중을 용이하게 하기 위해서도 사용됩니다.관련 기술에는 공동 인용 네트워크뿐만 아니라 인터넷 상의 하이퍼링크 및 콘텐츠 구조 분석(테러와 관련된 웹사이트 분석[10] 등)이 포함된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Segev, Elad (2021). Semantic Network Analysis in Social Sciences. London: Routledge. ISBN 9780367636524.
  2. ^ Freilich, Shiri; Kreimer, Anat; Meilijson, Isacc; Gophna, Uri; Sharan, Roded; Ruppin, Eytan (2010-02-27). "The large-scale organization of the bacterial network of ecological co-occurrence interactions". Nucleic Acids Research. 38 (12): 3857–3868. doi:10.1093/nar/gkq118. ISSN 1362-4962. PMC 2896517. PMID 20194113.
  3. ^ Segev, Elad (2021). Semantic Network Analysis in Social Sciences. London: Routledge. ISBN 9780367636524.
  4. ^ Segev, Elad (2020). "Textual network analysis: Detecting prevailing themes and biases in international news and social media". Sociology Compass. 14 (4). doi:10.1111/soc4.12779. S2CID 212890998.
  5. ^ Liu, Yang; Qu, Xiaodong; Elser, James J.; Peng, Wenqi; Zhang, Min; Ren, Ze; Zhang, Haiping; Zhang, Yuhang; Yang, Hua (2019). "Impact of Nutrient and Stoichiometry Gradients on Microbial Assemblages in Erhai Lake and Its Input Streams". Water. 11 (8): 1711. doi:10.3390/w11081711.
  6. ^ Cohen, AM; Hersh, WR; Dubay, C; Spackman, K (2005). "Using co-occurrence network structure to extract synonymous gene and protein names from MEDLINE abstracts". BMC Bioinformatics. 6 (1): 103. doi:10.1186/1471-2105-6-103. ISSN 1471-2105. PMC 1090552. PMID 15847682.
  7. ^ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001-05-01). "A literature network of human genes for high-throughput analysis of gene expression". Nature Genetics. 28 (1): 21–28. doi:10.1038/ng0501-21. ISSN 1061-4036. PMID 11326270. S2CID 8889284.
  8. ^ Grivell, L. (2002-03-01). "Mining the bibliome: searching for a needle in a haystack?: New computing tools are needed to effectively scan the growing amount of scientific literature for useful information". EMBO Reports. 3 (3): 200–203. doi:10.1093/embo-reports/kvf059. ISSN 1469-221X. PMC 1084023. PMID 11882534.
  9. ^ Ozgur A, Cetin B, Bingol H: "Reuters News의 공동 네트워크" (2007년 12월 15일) https://arxiv.org/abs/0712.2491
  10. ^ Yilu Zhou; Reid, E.; Jialun Qin; Hsinchun Chen; Guanpi Lai (2018-05-22). "US domestic extremist groups on the Web: link and content analysis". IEEE Intelligent Systems. 20 (5): 44–51. doi:10.1109/MIS.2005.96. S2CID 15687907.