스파시

스파시
원저작자	매튜 혼니발
개발자	폭발 AI, 각종
초기 릴리즈	2015년 2월, 7년전(
안정된 릴리스	3.3.1 / 2022년 6월 7일; 2개월전(
저장소	github.com/explosion/spaCy ;
기입처	파이썬, 시톤
운영 체제	Linux, Windows, macOS, OS X
플랫폼	크로스 플랫폼
유형	자연어 처리
면허증.	MIT 라이선스
웹 사이트	spacy.io

spaCy(/speˈsi//spay-SEE)는 고급 자연어 처리를 위한 오픈 소스 소프트웨어 라이브러리이며 Python 및 Cython 프로그래밍 언어로 작성되었습니다.^[3]^[4]라이브러리는 MIT 라이선스에 따라 발행되며 주요 개발자는 소프트웨어 회사 폭발의 설립자인 Matthew Honnibal과 Ines Montani입니다.

교육과 연구에 널리 사용되는 NLTK와 달리 spaCy는 생산용 ^[5]^[6]소프트웨어를 제공하는 데 초점을 맞추고 있다.spaCy는 또한 자체 기계 학습 라이브러리 Thinc를 통해 TensorFlow,^[7]^[8] PyTorch 또는 MXNet과 같은 인기 기계 학습 라이브러리에서 훈련한 통계 모델을 연결할 수 있는 딥 러닝 워크플로우를 지원합니다.spaCy는 Thinc를 백엔드로 사용하여 part-of-speech 태깅, 의존성 해석, 텍스트 분류 및 명명된 엔티티 인식(NER)을 위한 컨볼루션 뉴럴 네트워크 모델을 제공합니다.이러한 작업을 수행하기 위한 사전 구축된 통계 뉴럴 네트워크 모델은 영어, 포르투갈어, 스페인어, 러시아어 및 중국어 등 17개 언어로 제공되며 다국어 NER 모델도 있습니다.65개 이상의 언어에 대한 토큰화를 추가로 지원하므로 사용자는 자체 데이터셋에 대한 사용자 지정 모델도 교육할 수 있습니다.^[9]

역사

버전 1.0은 2016년 10월 19일에 출시되었으며 커스텀 프로세싱 ^[10]파이프라인을 지원함으로써 딥 러닝 워크플로우를 위한 사전 지원을 포함하고 있습니다.또한 엔티티 주석을 지원하는 규칙 매처와 공식적으로 문서화된 교육 API를 포함하였다.
버전 2.0은 2017년 11월 7일 출시되었으며 7개 ^[11]언어로 구성된 컨볼루션 뉴럴 네트워크 모델을 도입했습니다.또한 커스텀 처리 파이프라인 컴포넌트 및 확장 속성을 지원하며 교육 가능한 텍스트 분류 컴포넌트가 내장되어 있습니다.
버전 3.0은 2021년 2월 1일에 출시되었으며 최첨단 변압기 기반 ^[12]파이프라인이 도입되었습니다.또한 새로운 구성 시스템과 교육 워크플로우, 유형 힌트 및 프로젝트 템플릿도 도입했습니다.이 버전은 Python 2에 대한 지원을 중단했습니다.

주요 기능

비파괴 토큰화
65개^[13] 이상의 언어에 대한 "Alpha 토큰화" 지원
명명된 엔티티 인식, 음성 부분 태그 부착, 의존관계 해석, 텍스트 분류, 엔티티 링크 등 훈련 가능한 파이프라인 컴포넌트 내장 지원
19개^[14] 언어의 통계 모델
BERT와 같은 사전 훈련을 받은 변압기를 사용한 멀티태스킹 학습
PyTorch, TensorFlow 및 기타 프레임워크에서 사용자 지정 모델 지원
최첨단 속도와 정확성^[15]
생산준비형 교육시스템
구문 및 명명된 엔티티에 대한 기본 제공 비주얼라이저
모델 패키징, 도입 및 워크플로우 관리가 용이함

확장 및 비주얼라이저

Dependency parse tree visualization generated with the displaCy visualizer

disaCy 비주얼라이저를 사용하여 생성된 종속성 구문 분석 트리 시각화

spaCy에는 무료 오픈 소스 라이브러리로 사용할 수 있는 몇 가지 확장 기능과 시각화가 포함되어 있습니다.

Thinc: CPU 사용률 및 텍스트 입력에 의한 딥 러닝에 최적화된 머신 러닝 라이브러리.
sense2vec:^[16] Word2vec을 기반으로 단어 유사도를 계산하는 라이브러리입니다.
disaCy: JavaScript, CSS 및 SVG로 구축된 오픈 소스 의존성 해석 트리 비주얼라이저입니다.
disaCy^ENT: JavaScript 및 CSS로 구축된 오픈 소스 엔티티 비주얼라이저.

레퍼런스

^ "Introducing spaCy". explosion.ai. Retrieved 2016-12-18.
^ "New Span Ruler component, JSON (de)serialization of Doc, span analyzer and more · explosion/spaCy". GitHub. Retrieved 2022-06-21.
^ 최 외 (2015년)상황에 따라 다름: 웹 기반 평가 도구를 사용한 의존 관계 분석기 비교.
^ "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Retrieved 2016-12-18.
^ "Facts & Figures - spaCy". spacy.io. Retrieved 2020-04-04.
^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. S2CID 16932735.
^ "PyTorch, TensorFlow & MXNet". thinc.ai. Retrieved 2020-04-04.
^ "explosion/thinc". GitHub. Retrieved 2016-12-30.
^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2020-03-10.
^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
^ "explosion/spaCy". GitHub. Retrieved 2021-02-08.
^ "Models & Languages - spaCy". spacy.io. Retrieved 2021-02-08.
^ "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
^ "Benchmarks spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.
^ Trask et al. (2015년)sense2vec - 신경 단어 임베딩에서의 단어 의미 명확화를 위한 빠르고 정확한 방법.

외부 링크

[1] "Introducing spaCy". explosion.ai. Retrieved 2016-12-18.

[2] "New Span Ruler component, JSON (de)serialization of Doc, span analyzer and more · explosion/spaCy". GitHub. Retrieved 2022-06-21.

[3] 최 외 (2015년)상황에 따라 다름: 웹 기반 평가 도구를 사용한 의존 관계 분석기 비교.

[4] "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Retrieved 2016-12-18.

[5] "Facts & Figures - spaCy". spacy.io. Retrieved 2020-04-04.

[Bird-Klein-Loper-Baldridge-6] Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. S2CID 16932735.

[7] "PyTorch, TensorFlow & MXNet". thinc.ai. Retrieved 2020-04-04.

[8] "explosion/thinc". GitHub. Retrieved 2016-12-30.

[9] "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2020-03-10.

[10] "explosion/spaCy". GitHub. Retrieved 2021-02-08.

[11] "explosion/spaCy". GitHub. Retrieved 2021-02-08.

[12] "explosion/spaCy". GitHub. Retrieved 2021-02-08.

[13] "Models & Languages - spaCy". spacy.io. Retrieved 2021-02-08.

[14] "Models & Languages spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.

[15] "Benchmarks spaCy Usage Documentation". spacy.io. Retrieved 2021-02-08.

[16] Trask et al. (2015년)sense2vec - 신경 단어 임베딩에서의 단어 의미 명확화를 위한 빠르고 정확한 방법.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Search

스파시

네임스페이스

더

목차

역사

주요 기능

확장 및 비주얼라이저

레퍼런스

외부 링크