공동응용 근접해석

Co-citation Proximity Analysis
Documents B and C are cited in closer proximity to each other in the full-text of the citing document, when compared to document A. Hence, according to co-citation proximity analysis, documents B and C are more strongly related than documents A and B or A and C.
문서 유사성 계산에 대한 CPA(Co-Citation Facility Analysis) 접근 방식을 시각화하십시오.

Co-citation 근접 분석 또는 CPA는 인용 분석을 사용하여 개별 섹션 레벨뿐만 아니라 글로벌 문서 레벨 모두에서 문서 간의 의미 유사성을 평가하는 문서 유사성 척도다.[1][2]유사도 측정은 공동 인용 분석 접근법에 기초하지만, 문서의 전체 텍스트 내에서 인용문 배치에 포함된 정보를 이용한다는 점에서 다르다.

Co-citation 근접 분석은 B에 의해 구상되었다.2006년[3] Gipp와 문서 유사성 측정의 설명은 이후 Gipp와 Beel에 의해 2009년에 발표되었다.[1]유사성 측정은 문서의 전체 텍스트 내에서 서로 근접하게 인용된 문서가 더 멀리 떨어져 인용된 문서보다 더 강하게 연관되는 경향이 있다는 가정에 근거한다.오른쪽 그림은 그 개념을 보여준다.문서 유사성에 대한 CPA 접근법은 B와 C에 대한 인용은 동일한 문장 내에서 발생하는 반면 B와 A에 대한 인용은 여러 문단으로 구분되기 때문에 B와 C가 문서 B와 A보다 더 강하게 연관되어 있다고 가정한다.

CPA 접근방식의 장점은 다른 인용 및 공동 인용 분석 접근방식과 비교했을 때 정밀도 향상이다.서지학 커플링, 공동 인용 또는 암슬러 측정과 같이 널리 사용되는 인용 분석 접근법은 문서 내 인용문의 위치나 근접성을 고려하지 않는다.CPA 접근방식은 문서의 보다 세분화된 자동 분류를 허용하며, 관련 문서뿐만 아니라 가장 관련성이 높은 텍스트 내의 특정 섹션을 식별하는 데도 사용할 수 있다.

계산방법

CPA 유사성 측정은 검토된 문서가 인용한 각 문서 세트에 대해 CPI(인용 근접 지수)를 계산한다.[1]인용문서는 1 의 가중치가 할당되며 여기서 n은 인용문 사이의 수준 수를 의미한다.가장 낮은 수준에서 시작하여 수준은 인용 그룹, 문장, 단락, 장, 그리고 마지막으로 전체 문서 또는 저널로 정의될 수 있다.

CPA 알고리즘에는 몇 가지 변형이 있다.

  • 기본 CPA – 위에서 설명한 CPA의 기본 개념
  • 확장 CPA – 인용 그룹 내의 나무 구조와 인용 순서 고려
  • 다차원 CPA – 충격 계수 등의 추가 정보 사용
  • 하이브리드 CPA – CPI를 텍스트 기반 측정과 같은 다른 유사성 측정과 결합한다.이것은 인용 정보가 충분하지 않은 문서에 특히 성능을 향상시킨다.

퍼포먼스

CPA 유사성 측정은 근접도 분석의 특색 있는 추가에 따른 공동 작성 문서 유사성 접근법에 기초한다.따라서 CPA 접근방식은 전체 문서 유사성에 대한 보다 세분화된 해결 방법을 계산할 수 있다.CPA는 특히 문서에 광범위한 참고 문헌이 수록되어 있는 경우와 함께 자주 인용되지 않은 경우(즉, 공동 인용 점수가 낮은 경우)의 경우, 공동 게재 분석을 능가하는 것으로 밝혀졌다.[1][4]류와 첸은 문장 수준의 공동체가 전통적인 공동화 네트워크의 필수적인 구조를 보존하는 경향이 있고 또한 모든 것의 훨씬 작은 부분 집합을 형성하기 때문에 느슨하게 결합된 기사 수준의 유일한 공동화에 비해 문장 수준의 공동화가 잠재적으로 공동화 분석에 사용하기에 더 효율적인 표식이라는 것을 발견했다.공동 [5]사례

슈바르처 등의 [4]분석에 따르면 인용 기반 측정 CPA 및 공동 분석은 텍스트 기반 유사성 측정과 비교했을 때 보완적 강점이 있다.텍스트 기반 유사성 접근법은 위키백과 기사의 시험 모음(예: 동일한 용어를 공유하는 기사)에서 보다 좁게 유사한 기사를 식별한 반면, CPA 접근법은 CoCit보다 더 광범위하게 관련된 기사뿐만 아니라 더 인기 있는 기사들을 식별하는 데 성공했는데, 저자들은 이 접근방식이 또한 더 높은 자격이 있다고 주장한다.이티[4]

참고 항목

참조

  1. ^ a b c d Bela Gipp and Joeran Beel, 2009 "Citation Proximity Analysis (CPA) – A new approach for identifying related work based on Co-Citation Analysis" in Birger Larsen and Jacqueline Leta, editors, Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI’09), volume 2, pages 571–575, Rio de Janeiro (Brazil), July 2009.
  2. ^ 벨라 지프와 조란 비엘."문서의 유사성 감지를 위한 방법 및 시스템"특허 출원, 2011년 10월 27일/0264672 A1
  3. ^ 2006년 벨라 지프"의사제안 : (Co-)초점근거 분석 – 관련 업무 파악 방안"
  4. ^ a b c M. Schwarzer, M. Schubotz, N. Meuschke, C. Breinger, V. Markl, B.Gipp, 제16회 ACM/IEEE-CS 디지털 도서관 공동회의(JCDL), 뉴욕, 뉴욕, 미국, 2016, 페이지 191-200의 Procedures에서 "Wikipedia에 대한 링크 기반 권장사항 평가".
  5. ^ 윤보 류와 차오메이 첸, 2001년 "공동주입 근접성이 공동주입 분석에 미치는 영향", 2011년 7월 4일-7일, 남아프리카 더반, 국제사이언톨로지 정보학회(ISSI) 13차 회의.
  6. ^ Bela Gipp, Norman Meuschke & Mario Lipinski, 2015. 2015년 캘리포니아 뉴포트 비치 iConference 2015에서 "CITREC: TREC Genomics PubMed Central에 기반한 인용 기반 유사성 측정을 위한 평가 프레임워크"

추가 읽기

벨라 지프와 조란 비엘.CPA 및 COA에 의한 연구용지 추천자 관련 문서 식별S. I. Ao, C.에서.더글러스, W. S. 그룬드페스트, J. 버그스톤 편집자, 공학 및 컴퓨터 과학에 관한 세계 회의 2009, 공학 및 컴퓨터 과학의 강의 노트 1권, 636-639, 버클리 (미국), 2009년 10월.국제 엔지니어 협회(IAENG), 뉴스우드 유한회사.여기에서 사용 가능

벨라 지프.인용 근접도 분석 및 인용 순서 분석을 통한 문서 관련성 측정.M. Lalmas, J. Jose, A. Rauber, F.에서.세바스찬이와 나는.Frommholz, 편집자, 제14회 유럽 디지털 도서관 회의의 진행 (ecdl'10) : 디지털 도서관을 위한 연구와 첨단 기술, LNCS(Contraction Note of Computer Science) 6273권.스프링거, 2010년 9월여기에서 사용 가능