CiteSeerX

CiteSeerX
CiteSeerX
사이트 유형
참고 문헌 데이터베이스
소유자펜실베이니아 주립 정보 과학 기술 대학
URLciteseerx.ist.psu.edu Edit this at Wikidata
등록선택적
시작됨2008; 14년 전 (2008) / 1997; 25년 전 (1998년)
현재 상태활동적인
콘텐츠 라이선스
Creative Commons BY-NC-SA 라이센스[1]

CiteSeerX(구 CiteSeer)는 주로 컴퓨터정보과학 분야에서 과학 및 학술 논문의 공공 검색엔진디지털 도서관이다.CiteSeer는 구글 스콜라, 마이크로소프트 어학 검색과 같은 학술 검색 도구의 전신으로 여겨진다.[citation needed]CiteSeer와 유사한 엔진과 아카이브는 일반적으로 공개 가능한 웹 사이트에서만 문서를 수집하고 게시자 웹 사이트를 탐색하지 않는다.이 때문에 자유롭게 문서를 구할 수 있는 저자는 지수에 나타낼 가능성이 높다.

CiteSeer의 목표는 학술 및 과학 문학의 보급과 접근을 개선하는 것이다.누구나 자유롭게 이용할 수 있는 비영리 서비스로서, 학술적·과학적 출판의 변화를 시도하여 과학문학을 보다 많이 접할 수 있도록 하는 개방적 접근 운동의 일환으로 여겨져 왔다.CiteSeer는 가능한 경우 모든 색인화된 문서의 Open Archives Initiative 메타데이터를 DBLP 및 ACM Portal과 같은 다른 메타데이터 소스에 자유롭게 제공했다.공개 데이터촉진하기X 위해 CiteSeer는 Creative Commons 라이센스에 따라 비상업적 목적으로 데이터를 공유한다.[1]

CiteSeer는 한때 ResearchIndex로 이름을 변경했다가 다시 바꾸었다.[citation needed]

역사

CiteSeer와 CiteSeer.IST

CiteSeer는 1997년 리 자일스, 커트 볼라커, 스티브 로렌스 연구원이 미국 프린스턴NEC 연구소(현 NEC Labs, 현재 NEC Labs, 미국 뉴저지 주)에 있을 때 만든 것이다. CiteSeer의 목표는 웹 상의 학술 및 과학 문서를 적극적으로 기어와 수집하고 자율 인용 색인을 사용하여 인용이나 행위로 질의할 수 있도록 하는 것이 목표였다.인용 영향별로 순위를 매긴다.한때는 ResearchIndex라고 불렸다.

CiteSeer는 1998년에 대중화되었고 그 당시 학술 검색 엔진에서 사용할 수 없는 많은 새로운 특징들을 가지고 있었다.여기에는 다음이 포함된다.

  • 자율 인용 인덱싱은 문헌 검색 및 평가에 사용할 수 있는 인용 지수를 자동으로 작성했다.
  • 인용 통계와 관련 문서는 색인화된 기사뿐만 아니라 데이터베이스에서 인용된 모든 기사에 대해 계산되었다.
  • 인용 링크를 사용하여 데이터베이스를 검색할 수 있는 참조 링크.
  • 인용 문맥은 주어진 논문에 인용의 맥락을 보여주어, 연구자가 관심 있는 기사에 대해 다른 연구자들이 말하는 것을 빠르고 쉽게 볼 수 있게 했다.
  • 인용 및 단어 기반 조치를 사용하여 관련 문서를 보여주었으며, 각 문서에 대해 지속적으로 갱신된 적극적 참고 문헌을 보여준다.

CiteSeer는 2001년 9월 11일 "인용 문맥을 이용한 자동 인용 색인 문헌 검색"이라는 제목의 미국 특허 # 6289342를 받았다.특허는 1998년 5월 20일에 출원되었으며, 1998년 1월 5일까지 우선권이 있다.연속 특허(미국 특허 #6738780)는 2001년 5월 16일에 출원되어 2004년 5월 18일에 허가되었다.

NEC 이후, 2004년에 CiteSeer로 개최되었다.펜실베이니아 주립 정보과학대학의 월드 와이드 웹에 있는 IST는 70만 개 이상의 문서를 가지고 있었다.접근성, 성능 및 연구를 강화하기 위해 유사한 버전의 CiteSeer가 매사추세츠 공과대학교, 취리히 대학교, 싱가포르 국립 대학교와 같은 대학에서 지원되었다.그러나 CiteSeer의 이러한 버전은 유지하기가 어려웠으며 더 이상 사용할 수 없다.CiteSeer는 웹에서 자유롭게 사용할 수 있는 논문만 인덱싱하고 게시자 메타데이터에 접근할 수 없기 때문에, 게시자 메타데이터가 있는 Google Scholar와 같은 사이트보다 인용 횟수를 적게 반환한다.

CiteSeer는 아키텍처 설계의 한계 때문에 2005년 이후 포괄적으로 업데이트되지 않았다.컴퓨터·정보과학 분야의 대표적인 연구서류 표본추출이 있었으나, 주로 저자 홈페이지에서 공개적으로 열람할 수 있는 논문이나 저자가 제출한 논문에 한정되어 있어 취재에 한계가 있었다.이러한 몇 가지 한계를 극복하기 위해 CiteSeer를 위한 모듈식 오픈 소스 아키텍처인 CiteSeer가X 설계되었다.

CiteSeerX

CiteSeerX CiteSeer를 대체했고 CiteSeer에 대한 모든 쿼리는 리디렉션되었다.CiteSeer는X[2] 주로 컴퓨터정보과학에 초점을 맞춘 과학 및 학술논문의 공공 검색엔진, 디지털 도서관저장소다.[2]그러나, 최근 CiteSeer는X 경제학, 물리학 등과 같은 다른 학문적 영역으로 확대되고 있다.2008년에 발매된 것은 이전의 CiteSeer 검색엔진과 디지털 라이브러리에 느슨하게 기반을 두고 있으며, 새로운 오픈소스 인프라인 SeerSuite와 새로운 알고리즘과 그 구현으로 구축되어 있다.그것은 연구자들에 의해 개발되었다.아이작 참의원과 C 박사.펜실베이니아 주립대학교 정보과학 기술대학Lee Giles.CiteSeer가 제시한 목표를 지속적으로 지원하여 공공 웹 상에서 학술 및 과학 문서를 적극적으로 탐색하고 수집하며 인용의 영향에 의한 인용 및 문서의 순위 결정 등에 의한 인용문의 활용을 도모한다.Currently, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen, and Shuyi Zheng are or have been actively involved in its development.최근, 테이블 검색 기능이 도입되었다.[3]그것은 국립과학재단, NASA, 마이크로소프트 리서치의 자금 지원을 받아왔다.

CiteSeer는X 계속해서 세계 최고의 리포지토리 중 하나로 평가되어 2010년 7월 1위로 평가되었다.[4]현재 600만 건 이상의 문서를 보유하고 있으며, 거의 600만 건에 달하는 독특한 작가들과 1억 2천만 건의 인용구가 있다.

또한 CiteSeer는X 소프트웨어, 데이터, 데이터베이스 및 메타데이터를 현재 Amazon S3에 의해 그리고 rsync에 의해 다른 연구자들과 공유한다.[5]그것의 새로운 모듈형 오픈 소스 아키텍처와 소프트웨어(이전에는 SourceForge에서 사용 가능했지만 지금은 GitHub에서 사용 가능)는 Apache Solr과 다른 Apache 및 오픈 소스 도구를 기반으로 구축되어 문서 수집, 순위 매기기, 색인화 및 정보 추출에서 새로운 알고리즘의 테스트베드가 될 수 있다.

CiteSeer는X 검색한 일부 PDF 파일을 캐시한다.이와 같이 각 페이지에는 저작권 위반을 보고하는 데 사용할 수 있는 DMCA 링크가 포함되어 있다.[6]

현재 기능

자동 정보 추출

CiteSeer는X 제목, 저자, 추상, 인용 등과 같은 학술적인 문서 메타데이터를 추출하기 위해 보통 ParsCit와 같은 머신러닝 방법을 기반으로 하는 자동화된 정보 추출 도구를 사용한다.이와 같이 작가와 제목에 오류가 있는 경우도 있다.다른 학술 검색 엔진도 비슷한 오류가 있다.

초집중 기어가기

CiteSeer는X 주로 저작자 웹 페이지와 기타 열린 자료에서 공개적으로 사용할 수 있는 학술 문서를 크롤링하며, 게시자 메타데이터에 액세스할 수 없다.CiteSeer의X 인용 횟수는 대개 게시자 메타데이터에 액세스할 수 있는 Google Scholar 및 Microsoft Academic Search의 인용 횟수에 비해 적다.

사용법

CiteSeer는X 고유한 IP 주소를 기반으로 전 세계적으로 거의 100만 명의 사용자를 보유하고 있으며 매일 수백만 건의 조회 수를 기록하고 있다.2015년 연간 문서 PDF 다운로드 수는 2억 건에 육박했다.

데이터

CiteSeerX 데이터는 Creative Commons BY-NC-SA 라이센스에 따라 전 세계 연구자들과 정기적으로 공유되며, 많은 실험과 대회에서 사용되고 있다.

OAI-PMH endpoint 덕분에 CiteSeerX는 개방형 아카이브로, BASE, Unpaywall 소비자 등 학술 검색 엔진기관 저장소처럼 콘텐츠가 인덱싱된다.[7]

기타 SeerSuite 기반 검색 엔진

CiteSeer 모델은 SmileSearch와의 사업과 e-비즈서치와의 e-비즈니스에서 학술 문서를 다룰 수 있도록 확장되었다.그러나 이러한 것들은 그들의 후원자들에 의해 유지되지 않았다.이 두 가지 중 이전 버전은 BizSeer에서 한 번 찾아볼 수 있다.IST는 더 이상 작동하지 않는다.

다른 시어 같은 검색 및 리포지토리 시스템은 화학, 켐시어X, 고고학, 아치시어 등을 위해 만들어졌다.또 다른 것은 로봇을 위해 지어졌다.txt 파일 검색, BotSeer.모두 오픈소스 인덱서 루센을 사용하는 오픈소스 툴 SeerSuite에 구축됐다.

참고 항목

참조

  1. ^ a b "CiteSeerX Data Policy". Archived from the original on 2012-01-05. Retrieved 2015-11-10.
  2. ^ a b "About CiteSeerX". Archived from the original on 2010-07-22. Retrieved 2010-05-07.
  3. ^ "The CiteSeerX Team". Pennsylvania State University. Archived from the original on 2018-07-26. Retrieved 2018-05-01.
  4. ^ "Ranking Web of World Repositories: Top 800 Repositories". Cybermetrics Lab. July 2010. Archived from the original on 2010-07-24. Retrieved 2010-07-24.
  5. ^ "About CiteSeerX Data". Pennsylvania State University. Archived from the original on 2012-01-05. Retrieved 2012-01-25.
  6. ^ 예를 들어,"CiteSeerx – 디지털 밀레니엄 저작권 법 공지".CiteSeerX 10.1.1.604.4916.식별자"10.1.1.604.4916"과 그 서류는 DMCA해체를 통보 때문에 제거되어 있었습니다.만약 당신이 제거가 뭔가 착오가 있었다고 생각되면 그 피드백 페이지를 통해, 식별자를 이 페이지에서 언급됨에 따라 우리에게 연락하세요.{{ 들고 일기}}:Cite저널journal=( 도와 주)이 필요하다.
  7. ^ Hirst, Tony (2011-12-08). "Using OAI-PMH as a Single Record Level Query Interface to Citeseer". Archived from the original on 2020-11-24. Retrieved 2020-04-25.

추가 읽기

외부 링크