스파시

spaCy
스파시
SpaCy logo.svg
원저작자매튜 혼니발
개발자폭발 AI, 각종
초기 릴리즈2015년 2월, 7년 전(2015-02)[1]
안정된 릴리스
3.3.1 / 2022년 6월 7일; 2개월 전(2022-06-07)[2]
저장소
기입처파이썬, 시톤
운영 체제Linux, Windows, macOS, OS X
플랫폼크로스 플랫폼
유형자연어 처리
면허증.MIT 라이선스
웹 사이트spacy.io Edit this at Wikidata

spaCy(/speˈsi//spay-SEE)는 고급 자연어 처리를 위한 오픈 소스 소프트웨어 라이브러리이며 Python 및 Cython 프로그래밍 언어로 작성되었습니다.[3][4]라이브러리는 MIT 라이선스에 따라 발행되며 주요 개발자는 소프트웨어 회사 폭발의 설립자인 Matthew HonnibalInes Montani입니다.

교육과 연구에 널리 사용되는 NLTK와 달리 spaCy는 생산용 [5][6]소프트웨어를 제공하는 데 초점을 맞추고 있다.spaCy는 또한 자체 기계 학습 라이브러리 Thinc를 통해 TensorFlow,[7][8] PyTorch 또는 MXNet과 같은 인기 기계 학습 라이브러리에서 훈련한 통계 모델을 연결할 수 있는 딥 러닝 워크플로우를 지원합니다.spaCy는 Thinc를 백엔드로 사용하여 part-of-speech 태깅, 의존성 해석, 텍스트 분류명명된 엔티티 인식(NER)을 위한 컨볼루션 뉴럴 네트워크 모델을 제공합니다.이러한 작업을 수행하기 위한 사전 구축된 통계 뉴럴 네트워크 모델은 영어, 포르투갈어, 스페인어, 러시아어 및 중국어 등 17개 언어로 제공되며 다국어 NER 모델도 있습니다.65개 이상의 언어에 대한 토큰화를 추가로 지원하므로 사용자는 자체 데이터셋에 대한 사용자 지정 모델도 교육할 수 있습니다.[9]

역사

  • 버전 1.0은 2016년 10월 19일에 출시되었으며 커스텀 프로세싱 [10]파이프라인을 지원함으로써 딥 러닝 워크플로우를 위한 사전 지원을 포함하고 있습니다.또한 엔티티 주석을 지원하는 규칙 매처와 공식적으로 문서화된 교육 API를 포함하였다.
  • 버전 2.0은 2017년 11월 7일 출시되었으며 7개 [11]언어로 구성된 컨볼루션 뉴럴 네트워크 모델을 도입했습니다.또한 커스텀 처리 파이프라인 컴포넌트 및 확장 속성을 지원하며 교육 가능한 텍스트 분류 컴포넌트가 내장되어 있습니다.
  • 버전 3.0은 2021년 2월 1일에 출시되었으며 최첨단 변압기 기반 [12]파이프라인이 도입되었습니다.또한 새로운 구성 시스템과 교육 워크플로우, 유형 힌트 및 프로젝트 템플릿도 도입했습니다.이 버전은 Python 2에 대한 지원을 중단했습니다.

주요 기능

확장 및 비주얼라이저

Dependency parse tree visualization generated with the displaCy visualizer
disaCy 비주얼라이저를 사용하여 생성된 종속성 구문 분석 트리 시각화

spaCy에는 무료 오픈 소스 라이브러리로 사용할 수 있는 몇 가지 확장 기능과 시각화가 포함되어 있습니다.

레퍼런스

  1. ^ "Introducing spaCy". explosion.ai. Retrieved 2016-12-18.
  2. ^ "New Span Ruler component, JSON (de)serialization of Doc, span analyzer and more · explosion/spaCy". GitHub. Retrieved 2022-06-21.
  3. ^ 최 외 (2015년)상황에 따라 다름: 웹 기반 평가 도구를 사용한 의존 관계 분석기 비교.
  4. ^ "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Retrieved 2016-12-18.
  5. ^ "Facts & Figures - spaCy". spacy.io. Retrieved 2020-04-04.
  6. ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. S2CID 16932735.
  7. ^ "PyTorch, TensorFlow & MXNet". thinc.ai. Retrieved 2020-04-04.
  8. ^ "explosion/thinc". GitHub. Retrieved 2016-12-30.
  9. ^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2020-03-10.
  10. ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
  11. ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
  12. ^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
  13. ^ "Models & Languages - spaCy". spacy.io. Retrieved 2021-02-08.
  14. ^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
  15. ^ "Benchmarks spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
  16. ^ Trask et al. (2015년)sense2vec - 신경 단어 임베딩에서의 단어 의미 명확화를 위한 빠르고 정확한 방법.

외부 링크