스파시
spaCy![]() | |
원저작자 | 매튜 혼니발 |
---|---|
개발자 | 폭발 AI, 각종 |
초기 릴리즈 | 2015년[1] | , 전(
안정된 릴리스 | 3.3.1 / 2022년 6월 [2] ; 전( |
저장소 | |
기입처 | 파이썬, 시톤 |
운영 체제 | Linux, Windows, macOS, OS X |
플랫폼 | 크로스 플랫폼 |
유형 | 자연어 처리 |
면허증. | MIT 라이선스 |
웹 사이트 | spacy |
spaCy(/speˈsi//spay-SEE)는 고급 자연어 처리를 위한 오픈 소스 소프트웨어 라이브러리이며 Python 및 Cython 프로그래밍 언어로 작성되었습니다.[3][4]라이브러리는 MIT 라이선스에 따라 발행되며 주요 개발자는 소프트웨어 회사 폭발의 설립자인 Matthew Honnibal과 Ines Montani입니다.
교육과 연구에 널리 사용되는 NLTK와 달리 spaCy는 생산용 [5][6]소프트웨어를 제공하는 데 초점을 맞추고 있다.spaCy는 또한 자체 기계 학습 라이브러리 Thinc를 통해 TensorFlow,[7][8] PyTorch 또는 MXNet과 같은 인기 기계 학습 라이브러리에서 훈련한 통계 모델을 연결할 수 있는 딥 러닝 워크플로우를 지원합니다.spaCy는 Thinc를 백엔드로 사용하여 part-of-speech 태깅, 의존성 해석, 텍스트 분류 및 명명된 엔티티 인식(NER)을 위한 컨볼루션 뉴럴 네트워크 모델을 제공합니다.이러한 작업을 수행하기 위한 사전 구축된 통계 뉴럴 네트워크 모델은 영어, 포르투갈어, 스페인어, 러시아어 및 중국어 등 17개 언어로 제공되며 다국어 NER 모델도 있습니다.65개 이상의 언어에 대한 토큰화를 추가로 지원하므로 사용자는 자체 데이터셋에 대한 사용자 지정 모델도 교육할 수 있습니다.[9]
역사
- 버전 1.0은 2016년 10월 19일에 출시되었으며 커스텀 프로세싱 [10]파이프라인을 지원함으로써 딥 러닝 워크플로우를 위한 사전 지원을 포함하고 있습니다.또한 엔티티 주석을 지원하는 규칙 매처와 공식적으로 문서화된 교육 API를 포함하였다.
- 버전 2.0은 2017년 11월 7일 출시되었으며 7개 [11]언어로 구성된 컨볼루션 뉴럴 네트워크 모델을 도입했습니다.또한 커스텀 처리 파이프라인 컴포넌트 및 확장 속성을 지원하며 교육 가능한 텍스트 분류 컴포넌트가 내장되어 있습니다.
- 버전 3.0은 2021년 2월 1일에 출시되었으며 최첨단 변압기 기반 [12]파이프라인이 도입되었습니다.또한 새로운 구성 시스템과 교육 워크플로우, 유형 힌트 및 프로젝트 템플릿도 도입했습니다.이 버전은 Python 2에 대한 지원을 중단했습니다.
주요 기능
- 비파괴 토큰화
- 65개[13] 이상의 언어에 대한 "Alpha 토큰화" 지원
- 명명된 엔티티 인식, 음성 부분 태그 부착, 의존관계 해석, 텍스트 분류, 엔티티 링크 등 훈련 가능한 파이프라인 컴포넌트 내장 지원
- 19개[14] 언어의 통계 모델
- BERT와 같은 사전 훈련을 받은 변압기를 사용한 멀티태스킹 학습
- PyTorch, TensorFlow 및 기타 프레임워크에서 사용자 지정 모델 지원
- 최첨단 속도와 정확성[15]
- 생산준비형 교육시스템
- 구문 및 명명된 엔티티에 대한 기본 제공 비주얼라이저
- 모델 패키징, 도입 및 워크플로우 관리가 용이함
확장 및 비주얼라이저

disaCy 비주얼라이저를 사용하여 생성된 종속성 구문 분석 트리 시각화
spaCy에는 무료 오픈 소스 라이브러리로 사용할 수 있는 몇 가지 확장 기능과 시각화가 포함되어 있습니다.
- Thinc: CPU 사용률 및 텍스트 입력에 의한 딥 러닝에 최적화된 머신 러닝 라이브러리.
- sense2vec:[16] Word2vec을 기반으로 단어 유사도를 계산하는 라이브러리입니다.
- disaCy: JavaScript, CSS 및 SVG로 구축된 오픈 소스 의존성 해석 트리 비주얼라이저입니다.
- disaCyENT: JavaScript 및 CSS로 구축된 오픈 소스 엔티티 비주얼라이저.
레퍼런스
- ^ "Introducing spaCy". explosion.ai. Retrieved 2016-12-18.
- ^ "New Span Ruler component, JSON (de)serialization of Doc, span analyzer and more · explosion/spaCy". GitHub. Retrieved 2022-06-21.
- ^ 최 외 (2015년)상황에 따라 다름: 웹 기반 평가 도구를 사용한 의존 관계 분석기 비교.
- ^ "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Retrieved 2016-12-18.
- ^ "Facts & Figures - spaCy". spacy.io. Retrieved 2020-04-04.
- ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. S2CID 16932735.
- ^ "PyTorch, TensorFlow & MXNet". thinc.ai. Retrieved 2020-04-04.
- ^ "explosion/thinc". GitHub. Retrieved 2016-12-30.
- ^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2020-03-10.
- ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
- ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
- ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
- ^ "Models & Languages - spaCy". spacy.io. Retrieved 2021-02-08.
- ^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
- ^ "Benchmarks spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
- ^ Trask et al. (2015년)sense2vec - 신경 단어 임베딩에서의 단어 의미 명확화를 위한 빠르고 정확한 방법.