지식 추출
Knowledge extraction지식 추출은 정형(관계형 데이터베이스, XML) 및 비정형(텍스트, 문서, 이미지) 소스에서 지식을 생성하는 것입니다.그 결과 얻은 지식은 기계에서 읽을 수 있고 기계에서 해석할 수 있는 형식이어야 하며, 지식을 회의를 용이하게 하는 방식으로 표현해야 합니다.구조적으로는 정보 추출(NLP) 및 ETL(데이터 웨어하우스)과 유사하지만 주요 기준은 추출 결과가 구조화된 정보의 생성이나 관계형 스키마로의 변환을 넘어서는 것이다.기존 공식 지식(식별자 또는 온톨로지 사용)을 재사용하거나 소스 데이터를 기반으로 스키마를 생성해야 합니다.
RDB2RDF W3C 그룹은 현재 관계형 데이터베이스에서 자원 기술 프레임워크(RDF)를 추출하기 위한 언어를 표준화하고 있습니다.지식 추출의 또 다른 일반적인 예는 Wikipedia를 구조화된 데이터로 변환하고 기존 지식으로의 매핑입니다(DBpedia 및 Freebase 참조).
개요
RDF 및 OWL과 같은 지식 표현 언어가 표준화 된 후, 특히 관계형 데이터베이스를 RDF로 변환, ID 해결, 지식 발견 및 온톨로지 학습에 관한 많은 연구가 수행되었습니다.일반 프로세스에서는 정보 추출 및 추출, 변환, 로드(ETL)에서 기존의 방법을 사용합니다.ETL은 소스에서 구조화된 형식으로 데이터를 변환합니다.
다음 기준을 사용하여 이 항목의 접근방식을 분류할 수 있습니다(일부 접근방식은 관계형 데이터베이스에서만 추출됩니다).[2]
원천 | 대상 데이터 소스:텍스트, 릴레이셔널 데이터베이스, XML, CSV |
---|---|
박람회 | 추출된 지식은 어떻게 명확화됩니까(온톨로지 파일, 의미 데이터베이스)?어떻게 조회할 수 있죠? |
동기 | 지식 추출 프로세스를 한 번 실행하여 덤프를 생성합니까, 아니면 결과를 소스와 동기화합니까?스태틱 또는 다이내믹회신된 결과에 대한 변경 사항(양방향) |
어휘의 재사용 | 이 도구는 추출 시 기존 어휘를 재사용할 수 있습니다.예를 들어 테이블 열 'firstName'을 foaf:firstName에 매핑할 수 있습니다.일부 자동 접근법에서는 vocab을 매핑할 수 없습니다. |
자동화 | 추출을 지원/자동화하는 정도.수동, GUI, 반자동, 자동 |
도메인 온톨로지 필요 | 매핑하려면 기존 온톨로지가 필요합니다.따라서 매핑이 생성되거나 소스로부터 스키마가 학습됩니다(온톨로지 학습). |
예
엔티티 링크
- DBpedia 주목 받는 인물, OpenCalais, 민들레 dataTXT, Zemanta API, Extractiv과 PoolParty Extractor named-entity 인식을 통한 다음 이름 확인을 통해와 DBpedia 지식 repository[3]에 민들레 dataTXT 데모나 DBpedia 주목 받는 인물 웹 데모나 PoolParty Extractor 민주 당원 찾은 기업을 연결하는 후보 disambiguates 자유 텍스트를 분석한다.o).
오바마 대통령은 수요일 의회에서 작년 경제 부양책에 포함된 학생들에 대한 세금 감면 혜택을 연장해 줄 것을 요구하면서, 이 정책이 더 관대한 지원을 제공한다고 주장했다.
- Obama 대통령은 DBpedia Linked Data 리소스에 연결되어 있기 때문에 추가 정보를 자동으로 검색할 수 있으며, 예를 들어 시맨틱 사유자는 언급된 엔티티가 개인(소프트웨어 사용) 유형 및 미국 대통령 유형(YAGO 사용)이라고 추론할 수 있습니다.카운터 예:엔티티만 인식하거나 Wikipedia 문서 및 기타 대상과 링크하여 구조화된 데이터 및 공식 지식을 더 이상 검색하지 않는 방법.
관계형 데이터베이스와 RDF
- Triplify, D2R Server, Ultrawrap 및 Virtuoso RDF View는 관계형 데이터베이스를 RDF로 변환하는 도구입니다.이 프로세스에서는 변환 프로세스 중에 기존 어휘와 온톨로지를 재사용할 수 있습니다.users라는 이름의 일반적인 관계 테이블을 변환하는 경우 1개의 컬럼(e.g.name) 또는 컬럼 집약(first_name 및 last_name 등)이 작성된 엔티티의 URI를 제공해야 합니다.보통 프라이머리 키가 사용됩니다.다른 모든 열은 이 [4]엔티티와의 관계로 추출할 수 있습니다.그런 다음 정식으로 정의된 시멘틱을 가진 속성을 사용하여 정보를 해석합니다.예를 들어, 사용자 테이블의 maded라는 컬럼이 있습니다.To는 대칭관계로 정의할 수 있으며 열 홈페이지는 FOAF Vocularies에서 foaf: homepage라는 속성으로 변환하여 역함수 속성으로 지정할 수 있습니다.다음으로 사용자 테이블의 각 엔트리를 foaf 클래스의 인스턴스로 만들 수 있습니다.개인(온톨로지 모집단).또한 도메인 지식(온톨로지 형식)은 수동으로 작성된 규칙(status_id가 2인 경우 엔트리는 클래스 Teacher에 속함) 또는 (semi) 자동 메서드(온톨로지 학습)에 의해 status_id에서 생성할 수 있습니다.다음으로 변환 예를 제시하겠습니다.
이름. | 기혼자 | 홈페이지 | 상태_id |
---|---|---|---|
피터야. | 메리 | http://example.org/Peters_page[영구 데드링크] | 1 |
클로스 | 에바 | http://example.org/Claus_page[영구 데드링크] | 2 |
:피터야. :기혼자 :메리 . :기혼자 a 올빼미:대칭 속성 . :피터야. 동작하지 않다:홈페이지 <http://example.org/Peters_page> . :피터야. a 동작하지 않다:사람인 . :피터야. a :학생입니다 . :클로스 a :선생님. .
구조화된 소스에서 RDF로 추출
RDB 테이블/뷰에서 RDF 엔티티/속성/값으로의 1:1 매핑
문제 도메인의 RDB 표현을 구축할 때 시작점은 대부분의 경우 Entity-Relationship Diagram(ERD; 엔티티 관계도)입니다.일반적으로 각 엔티티는 데이터베이스 테이블로 표시되며 엔티티의 각 속성은 해당 테이블의 컬럼이 되며 엔티티 간의 관계는 외부 키로 나타납니다.일반적으로 각 테이블은 엔티티의 특정 클래스를 정의합니다.각 열은 해당 속성 중 하나입니다.표의 각 행은 프라이머리 키로 일의로 식별되는 엔티티 인스턴스를 나타냅니다.테이블 행은 엔티티 세트를 일괄적으로 나타냅니다.동일한 엔티티 세트의 등가 RDF 표현:
- 표의 각 열은 속성(예: 술어)입니다.
- 각 열 값은 속성 값(즉, 객체)입니다.
- 각 행 키는 엔티티 ID(즉, 제목)를 나타냅니다.
- 각 행은 엔티티 인스턴스를 나타냅니다.
- 각 행(엔티티 인스턴스)은 공통 서브젝트(엔티티 ID)를 가진 트리플 컬렉션으로 RDF에 표시됩니다.
따라서 RDF 시멘틱스를 기반으로 동등한 뷰를 렌더링하려면 기본 매핑알고리즘은 다음과 같습니다.
- 각 테이블에 대해 RDFS 클래스 만들기
- 모든 기본 키 및 외부 키를 IRI로 변환
- 각 열에 술어 IRI를 할당하다
- 각 행에 rdf:type 술어를 할당하여 테이블에 대응하는 RDFS 클래스 IRI에 링크합니다.
- 기본 키 또는 외부 키의 일부가 아닌 각 열에 대해 주 키 IRI를 제목으로, IRI 열을 술어로, 열 값을 개체로 포함하는 트리플을 구성합니다.
이 기본 또는 직접 매핑에 대한 조기 언급은 Tim Berners-Lee가 ER 모델과 RDF [4]모델을 비교한 것에서 찾을 수 있습니다.
관계형 데이터베이스와 RDF의 복잡한 매핑
상기의 1:1 매핑에서는, 레거시 데이터가 RDF로서 간단하게 공개됩니다.또, 한층 더 개량된 기능을 채용해, 각각의 사용 사례에 있어서의 RDF 출력의 유용성을 향상시킬 수 있습니다.일반적으로 Entity-Relationship Diagram(ERD; 엔티티 관계도)를 관계 테이블로 변환하는 동안 정보가 손실되므로(자세한 내용은 객체-관계 임피던스 불일치에서 확인할 수 있습니다).리버스 엔지니어링이 필요합니다.개념적 관점에서 추출 접근법은 두 가지 방향에서 나올 수 있다.첫 번째 방향은 지정된 데이터베이스 스키마에서 OWL 스키마를 추출하거나 학습하려고 합니다.초기 접근법에서는 수동으로 작성한 매핑 규칙을 일정량 사용하여 1:1 [5][6][7]매핑을 세분화했습니다.보다 정교한 방법은 도식 정보를 유도하기 위해 휴리스틱스 또는 학습 알고리즘을 사용하고 있다(방법들은 온톨로지 학습과 중복된다).SQL[8] 스키마 고유의 구조(예: 외부 키 분석)에서 정보를 추출하려는 접근법도 있지만, 다른 접근법은 내용 및 표의 값을 분석하여 개념적 계층을 만듭니다[9](예: 값이 거의 없는 열이 범주가 될 수 있습니다).두 번째 방향은 스키마와 스키마의 콘텐츠를 기존 도메인 온톨로지에 매핑하려고 합니다(온톨로지 정렬 참조).그러나 대부분의 경우 적절한 도메인 온톨로지가 존재하지 않으므로 먼저 생성해야 합니다.
XML
XML은 트리로 구성되므로 모든 데이터를 그래프로 구성되는 RDF로 쉽게 나타낼 수 있습니다. XML2RDF는 RDF 빈 노드를 사용하여 XML 요소와 속성을 RDF 속성으로 변환하는 접근법의 한 예입니다.그러나 이 주제는 관계형 데이터베이스의 경우처럼 더 복잡합니다.관계형 테이블에서 프라이머리 키는 추출된 트리플의 대상이 되기 위한 이상적인 후보이다.그러나 XML 요소는 컨텍스트에 따라 트리플의 주체, 술어 또는 오브젝트로 변환할 수 있습니다.XSLT는 표준 변환 언어를 사용하여 XML을 수동으로 RDF로 변환할 수 있습니다.
방법/도구 조사
이름. | 데이터 원본 | 데이터 전시회 | 데이터 동기화 | 매핑 언어 | 어휘 재사용 | 자동 매핑 | 도메인 온톨로지 요구 | GUI 사용 |
---|---|---|---|---|---|---|---|---|
RDF에 대한 릴레이셔널 데이터의 직접 매핑 | 릴레이셔널 데이터 | SPARQL/ETL | 역학 | — | 거짓의 | 자동의 | 거짓의 | 거짓의 |
CSV2RDF4LOD | CSV | ETL | 정적인 | RDF | 진실의 | 설명서 | 거짓의 | 거짓의 |
CoNLL-RDF | TSV, CoNLL | SPARQL/RDF 스트림 | 정적인 | 없음. | 진실의 | automatic(도메인 고유, 언어 테크놀로지 사용 사례, 행 간 관계 유지) | 거짓의 | 거짓의 |
변환 2RDF | 구분된 텍스트 파일 | ETL | 정적인 | RDF/DAML | 진실의 | 설명서 | 거짓의 | 진실의 |
D2R 서버 | RDB | SPARQL | 쌍방향의 | D2R 맵 | 진실의 | 설명서 | 거짓의 | 거짓의 |
다트 그리드 | RDB | 고유 쿼리 언어 | 역학 | 비주얼 툴 | 진실의 | 설명서 | 거짓의 | 진실의 |
데이터 마스터 | RDB | ETL | 정적인 | 전매의 | 진실의 | 설명서 | 진실의 | 진실의 |
Google의 RDF 확장 기능 개선 | CSV, XML | ETL | 정적인 | 없음. | 반자동의 | 거짓의 | 진실의 | |
렉스터 | XML | ETL | 정적인 | xslt | 진실의 | 설명서 | 진실의 | 거짓의 |
맵온토 | RDB | ETL | 정적인 | 전매의 | 진실의 | 설명서 | 진실의 | 거짓의 |
메타모퍼스 | RDB | ETL | 정적인 | 독자적인 xml 기반 매핑 언어 | 진실의 | 설명서 | 거짓의 | 진실의 |
맵핑 마스터 | CSV | ETL | 정적인 | 맵핑 마스터 | 진실의 | GUI | 거짓의 | 진실의 |
OD맵스터 | RDB | ETL | 정적인 | 전매의 | 진실의 | 설명서 | 진실의 | 진실의 |
ToWiki CSV 임포터 플러그인 - DataCube & Tabular | CSV | ETL | 정적인 | RDF Data Cube Vocaublary | 진실의 | 반자동의 | 거짓의 | 진실의 |
Poolparty Extraktor(PPX) | XML, 텍스트 | Linked Data(Linked Data) | 역학 | RDF(SKOS) | 진실의 | 반자동의 | 진실의 | 거짓의 |
RDBToOnto | RDB | ETL | 정적인 | 없음. | 거짓의 | 사용자는 더 나아가 결과를 미세 조정할 수 있습니다. | 거짓의 | 진실의 |
RDF 123 | CSV | ETL | 정적인 | 거짓의 | 거짓의 | 설명서 | 거짓의 | 진실의 |
키보드 | RDB | ETL | 정적인 | SQL | 진실의 | 설명서 | 진실의 | 진실의 |
관계형올빼미 | RDB | ETL | 정적인 | 없음. | 거짓의 | 자동의 | 거짓의 | 거짓의 |
T2LD | CSV | ETL | 정적인 | 거짓의 | 거짓의 | 자동의 | 거짓의 | 거짓의 |
RDF 데이터 큐브 어휘 | 스프레드시트의 다차원 통계 데이터 | 데이터 큐브 어휘 | 진실의 | 설명서 | 거짓의 | |||
탑브레이드 컴포저 | CSV | ETL | 정적인 | SKOS | 거짓의 | 반자동의 | 거짓의 | 진실의 |
트리플리파이 | RDB | Linked Data(Linked Data) | 역학 | SQL | 진실의 | 설명서 | 거짓의 | 거짓의 |
울트라랩 | RDB | SPARQL/ETL | 역학 | R2RML | 진실의 | 반자동의 | 거짓의 | 진실의 |
Virtuoso RDF 뷰 | RDB | SPARQL | 역학 | 메타 스키마 언어 | 진실의 | 반자동의 | 거짓의 | 진실의 |
Virtuoso 스폰서 | 구조화 및 반구조화 데이터 소스 | SPARQL | 역학 | Virtuoso PL 및 XSLT | 진실의 | 반자동의 | 거짓의 | 거짓의 |
VisAVIS | RDB | RDQL | 역학 | SQL | 진실의 | 설명서 | 진실의 | 진실의 |
XLWrap: 스프레드시트에서 RDF로 | CSV | ETL | 정적인 | TriG 구문 | 진실의 | 설명서 | 거짓의 | 거짓의 |
XML에서 RDF로 | XML | ETL | 정적인 | 거짓의 | 거짓의 | 자동의 | 거짓의 | 거짓의 |
자연어 소스로부터의 추출
비즈니스 문서에 포함된 정보의 가장 많은 부분([10]약 80%)은 자연 언어로 인코딩되므로 구조화되지 않습니다.비구조화 데이터는 오히려 지식 추출에 어려움이 따르기 때문에 보다 정교한 방법이 필요하며, 이는 일반적으로 정형 데이터에 비해 더 나쁜 결과를 제공하는 경향이 있습니다.그러나 추출된 지식의 대규모 획득 가능성은 복잡성 증가와 추출 품질 저하를 보상해야 한다.이하에서는, 자연어원을 정보원으로서 이해해, 데이터를 구조화하지 않고 평문으로서 제공한다.지정된 텍스트가 마크업 문서(예를 들어 HTML 문서)에 추가로 포함되어 있는 경우, 일반적으로 상기 시스템은 마크업 요소를 자동으로 삭제합니다.
언어 주석/자연어 처리(NLP)
지식 추출을 위한 전처리 단계로서 하나 이상의 NLP 도구를 사용하여 언어 주석을 수행해야 할 수 있습니다.NLP 워크플로우의 개별 모듈은 일반적으로 입력 및 출력을 위한 도구별 형식을 기반으로 하지만 지식 추출의 맥락에서 언어 주석을 나타내기 위한 구조화된 형식이 적용되었다.
지식 추출과 관련된 일반적인 NLP 태스크는 다음과 같습니다.
- Part-of-Speech(Part-of-Speech)
- LEMA(Lematization) 또는 String(STEM)
- 단어 의미 명확화(WSD, 아래의 의미 주석 관련)
- 명명된 엔티티 인식(NER, 아래 IE도 참조)
- 통사적 해석, 통사적 의존관계(DEP) 채택
- 얕은 구문 분석(CHUNK): 성능이 문제가 있는 경우 청킹에 의해 명목 및 기타 구문이 빠르게 추출됩니다.
- anaphor 해결(아래 IE의 상호 참조 해결 참조. 단, 여기서는 엔티티의 언급과 엔티티의 추상적 표현 사이에 링크를 작성하는 태스크로 간주됩니다.)
- 의미역할라벨링(SRL, 관계추출과 관련됨. 아래에 설명된 의미주석과 혼동하지 말 것)
- 담화 구문 분석(다른 문장 간의 관계, 실제 응용 프로그램에서는 거의 사용되지 않음)
NLP에서는 일반적으로 이러한 데이터는 TSV 형식(TAB를 구분자로 하는 CSV 형식), CoNLL 형식이라고도 합니다.지식 추출 워크플로우의 경우, 이러한 데이터에 대한 RDF 뷰는 다음 커뮤니티 표준에 따라 작성되었습니다.
- NLP 인터체인지 포맷(NIF, 많은 유형의 주석용)[11][12]
- 웹 주석(WA, 엔티티 [13]링크에 자주 사용)
- CoNLL-RDF(원래 TSV [14][15]형식으로 표현된 주석용)
기타 플랫폼 고유의 형식은 다음과 같습니다.
기존 정보 추출(IE)
전통적인 정보 추출은[20] 전형적인 자연어 텍스트에서 정보를 추출하여 적절한 방식으로 구성하는 자연어 처리 기술입니다.식별해야 할 정보의 종류는 프로세스를 시작하기 전에 모델에 명시되어야 합니다.이 때문에 기존 정보 추출의 전체 프로세스는 도메인에 의존합니다.IE는 다음의 5개의 서브태스크로 분할되어 있습니다.
명명된 엔티티 인식 작업은 텍스트에 포함된 명명된 엔티티를 모두 인식하고 분류하는 것이다(명명한 엔티티의 사전 정의된 카테고리에 할당).이것은 문법 기반 방법이나 통계 모델을 적용하여 작동합니다.
상호 참조 해결은 텍스트 내에서 NER에 의해 인식된 동등한 실체를 식별한다.동등성 관계에는 두 가지 종류의 관련성이 있습니다.첫 번째는 두 개의 서로 다른 표현된 실체(예: IBM 유럽 및 IBM) 간의 관계에 관한 것이고, 두 번째는 실체와 해당 참조(예: IT 및 IBM) 간의 관계에 관한 것입니다.두 종류 모두 상호 참조 분해능으로 인식할 수 있습니다.
템플릿 요소 구축 중 IE 시스템은 NER 및 CO에 의해 인식되는 엔티티의 기술 속성을 식별합니다.이러한 특성은 빨간색이나 큰 색과 같은 일반적인 품질에 해당합니다.
템플릿 관계 구축은 템플릿 요소 사이에 존재하는 관계를 식별합니다.이러한 관계에는, 도메인과 범위가 모두 엔티티에 대응하고 있는 제한에 의해, works-for 나 located-in 등, 몇개의 종류가 있습니다.
템플릿 시나리오에서는 본문에 기술된 생산 사건이 NER와 CO에 의해 인식되는 엔티티와 TR에 의해 식별되는 관계에 대해 식별되고 구조화된다.
온톨로지 기반 정보 추출(OBIE)
온톨로지 기반 정보 추출은 정보 추출의 하위 필드이며, 자연어 텍스트에서 정보 추출 과정을 안내하기 위해 적어도 하나의 온톨로지가 사용됩니다.OBIE 시스템은 전통적인 정보 추출 방법을 사용하여 텍스트에서 사용된 온톨로지의 개념, 인스턴스 및 관계를 식별하며, 프로세스 후 온톨로지로 구조화됩니다.따라서 입력 온톨로지는 [21]추출되는 정보의 모델을 구성한다.
온톨로지 학습(OL)
온톨로지 학습은 자연어 텍스트에서 해당 도메인의 용어를 추출하는 것을 포함하여 온톨로지의 자동 또는 반자동 생성입니다.온톨로지를 수동으로 구축하는 것은 매우 노동 집약적이고 시간이 많이 걸리기 때문에 프로세스를 자동화할 수 있는 큰 동기가 있습니다.
의미 주석(SA)
의미 주석 [22]중에 자연어 텍스트는 메타데이터(종종 RDFa에 표시됨)로 증강되므로 포함된 용어의 의미를 기계적으로 이해할 수 있어야 한다.일반적으로 반자동인 이 프로세스에서는 어휘 용어와 예를 들어 온톨로지로부터의 개념 사이의 연계가 확립된다는 의미에서 지식이 추출된다.따라서, 처리된 컨텍스트에서 용어의 의미가 의도된 것인지, 따라서 텍스트의 의미는 추론할 수 있는 능력을 가진 기계 판독 가능한 데이터에 기초한다.시맨틱 주석은 일반적으로 다음 두 개의 하위 작업으로 나뉩니다.
용어 추출 레벨에서는, 텍스트로부터 어휘 용어를 추출한다.이를 위해 토큰라이저는 처음에 단어 경계를 결정하고 약어를 해결합니다.그 후 개념에 대응하는 텍스트로부터의 용어를 도메인 고유의 렉시콘의 도움으로 추출하여 엔티티 링크에서 이들을 링크한다.
원본 텍스트에서 추출된 어휘 용어와 DBpedia와 같은 온톨로지 또는 지식 기반에서 추출된 개념 사이의 링크를 연결하는 실체이다.이를 위해 후보개념은 사전의 도움을 받아 용어의 여러 의미에 대해 적절하게 검출된다.마지막으로 용어의 맥락을 분석하여 가장 적절한 명확성을 결정하고 용어를 올바른 개념에 할당합니다.
지식 추출의 맥락에서 "의미적 주석"은 자연 언어 처리에서 이해되는 의미 해석과 혼동해서는 안 됩니다(또한 "의미적 주석"이라고도 함).시맨틱 파싱은 자연어의 완전하고 기계가 읽을 수 있는 표현을 목표로 하는 반면, 지식 추출의 의미적 주석은 그것의 매우 기본적인 측면만을 다룬다.
도구들
다음 기준을 사용하여 도구를 분류할 수 있습니다. 이 도구는 자연어 텍스트에서 지식을 추출합니다.
원천 | 툴로 처리할 수 있는 입력 형식(일반 텍스트, HTML, PDF 등)은 무엇입니까? |
액세스 패러다임 | 툴은 데이터 소스를 쿼리할 수 있습니까?또는 추출 프로세스에 전체 덤프가 필요합니까? |
데이터 동기화 | 추출 프로세스의 결과는 소스와 동기화되어 있습니까? |
출력 온톨로지 사용 | 툴은 결과를 온톨로지와 연결합니까? |
매핑 자동화 | 추출 프로세스는 얼마나 자동화됩니까(수동, 반자동 또는 자동)? |
온톨로지 필요 | 추출에 온톨로지가 필요합니까? |
GUI 사용 | 이 도구는 그래픽 사용자 인터페이스를 제공합니까? |
접근 | 툴에서는 어떤 접근법(IE, OBIE, OL 또는 SA)을 사용하고 있습니까? |
추출된 엔티티 | 어떤 유형의 엔티티(예: 명명된 엔티티, 개념 또는 관계)를 도구로 추출할 수 있습니까? |
응용 기술 | 어떤 기법이 적용됩니까(예: NLP, 통계 방법, 클러스터링 또는 기계 학습)? |
출력 모델 | 도구의 결과를 나타내는 데 사용되는 모델은 무엇입니까(예: RDF 또는 OWL)? |
지원되는 도메인 | 어떤 영역이 지원됩니까(경제 또는 생물학 등)? |
지원되는 언어 | 처리할 수 있는 언어(영어 또는 독일어 등)는 무엇입니까? |
다음 표에서는 자연어 소스에서 지식을 추출하기 위한 몇 가지 도구를 보여 줍니다.
이름. | 원천 | 액세스 패러다임 | 데이터 동기화 | 출력 온톨로지 사용 | 매핑 자동화 | 온톨로지 필요 | GUI 사용 | 접근 | 추출된 엔티티 | 응용 기술 | 출력 모델 | 지원되는 도메인 | 지원되는 언어 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
[1] [24] | 플레인 텍스트, HTML, XML, SGML | 버리다 | 아니요. | 네. | 자동의 | 네. | 네. | IE | 명명된 엔티티, 관계, 이벤트 | 언어 규칙 | 전매의 | 도메인에 의존하지 않다 | 영어, 스페인어, 아랍어, 중국어, 인도네시아어 |
알케미아피 [25] | 플레인 텍스트, HTML | 자동의 | 네. | SA | 다국어 | ||||||||
애니 [26] | 평문 | 버리다 | 네. | 네. | IE | 유한 상태 알고리즘 | 다국어 | ||||||
ASIUM [27] | 평문 | 버리다 | 반자동의 | 네. | OL | 개념, 개념 계층 | NLP, 클러스터링 | ||||||
인텐트 완전 추출 [28] | 자동의 | IE | 명명된 엔티티, 관계, 이벤트 | NLP | |||||||||
민들레 API | 일반 텍스트, HTML, URL | 쉬다 | 아니요. | 아니요. | 자동의 | 아니요. | 네. | SA | 이름 있는 엔티티, 개념 | 통계적 방법 | JSON | 도메인에 의존하지 않다 | 다국어 |
DBpedia 스포트라이트 [29] | 플레인 텍스트, HTML | 덤프, SPARQL | 네. | 네. | 자동의 | 아니요. | 네. | SA | 각 단어에 대한 주석, 논스톱 단어에 대한 주석 | NLP, 통계 방법, 기계 학습 | RDFa | 도메인에 의존하지 않다 | 영어 |
EntityClassifier.eu | 플레인 텍스트, HTML | 버리다 | 네. | 네. | 자동의 | 아니요. | 네. | IE, OL, SA | 각 단어에 대한 주석, 논스톱 단어에 대한 주석 | 규칙 기반 문법 | XML | 도메인에 의존하지 않다 | 영어, 독일어, 네덜란드어 |
프레드 [30] | 평문 | 덤프, REST API | 네. | 네. | 자동의 | 아니요. | 네. | IE, OL, SA, 온톨로지 설계 패턴, 프레임 의미론 | (다중) 단어 NIF 또는 EarMark 주석, 술어, 인스턴스, 구성 의미론, 개념 분류법, 프레임, 의미 역할, 주변 관계, 이벤트, 모달리티, 시제, 엔티티 링크, 이벤트 링크, 감성 | NLP, 머신러닝, 휴리스틱 규칙 | RDF/OWL | 도메인에 의존하지 않다 | 영어, 기타 언어 번역 |
i문서 [31] | HTML, PDF, DOC | SPARQL | 네. | 네. | 오비 | 인스턴스, 속성 값 | NLP | 퍼스널, | |||||
넷오울 추출기 [32] | 플레인 텍스트, HTML, XML, SGML, PDF, MS Office | 버리다 | 아니요. | 네. | 자동의 | 네. | 네. | IE | 명명된 엔티티, 관계, 이벤트 | NLP | XML, JSON, RDF-OWL 등 | 복수 도메인 | 영어, 아랍어 중국어(간체 및 번체), 프랑스어, 한국어, 페르시아어(파르시 및 다리), 러시아어, 스페인어 |
ToGen [33] | 반자동의 | 네. | OL | 개념, 개념 계층, 비언어적 관계, 인스턴스 | NLP, 머신러닝, 클러스터링 | ||||||||
토우선 [34] | 플레인 텍스트, HTML | 버리다 | 아니요. | 네. | 자동의 | 네. | 아니요. | OL | 개념, 개념 계층, 인스턴스 | NLP, 통계적 방법 | 전매의 | 도메인에 의존하지 않다 | 영어 |
ToLearn 새로고침 | 플레인 텍스트, HTML | 버리다 | 아니요. | 네. | 자동의 | 네. | 아니요. | OL | 개념, 개념 계층, 인스턴스 | NLP, 통계적 방법 | 전매의 | 도메인에 의존하지 않다 | 영어 |
ToSyphon [35] | HTML, PDF, DOC | 덤프, 검색 엔진 쿼리 | 아니요. | 네. | 자동의 | 네. | 아니요. | 오비 | 개념, 관계, 인스턴스 | NLP, 통계적 방법 | RDF | 도메인에 의존하지 않다 | 영어 |
X로 [36] | 평문 | 버리다 | 아니요. | 네. | 반자동의 | 네. | 아니요. | 오비 | 인스턴스, 데이터 유형 속성 값 | 휴리스틱 기반의 방법 | 전매의 | 도메인에 의존하지 않다 | 언어에 의존하지 않다 |
오픈칼레 | 플레인 텍스트, HTML, XML | 버리다 | 아니요. | 네. | 자동의 | 네. | 아니요. | SA | 엔티티에 대한 주석, 이벤트에 대한 주석, 사실에 대한 주석 | NLP, 머신러닝 | RDF | 도메인에 의존하지 않다 | 영어, 프랑스어, 스페인어 |
PoolParty 추출기 [37] | 일반 텍스트, HTML, DOC, ODT | 버리다 | 아니요. | 네. | 자동의 | 네. | 네. | 오비 | 명명된 엔티티, 개념, 관계, 텍스트를 분류하는 개념, 강화 | NLP, 기계학습, 통계방법 | RDF, OWL | 도메인에 의존하지 않다 | 영어, 독일어, 스페인어, 프랑스어 |
로소카 | 플레인 텍스트, HTML, XML, SGML, PDF, MS Office | 버리다 | 네. | 네. | 자동의 | 아니요. | 네. | IE | 이름 있는 엔티티 추출, 엔티티 해결, 관계 추출, 속성, 개념, 멀티태그 감정 분석, 지오태깅, 언어 식별 | NLP, 머신러닝 | XML, JSON, POJO, RDF | 복수 도메인 | 다국어 200개 이상의 언어 |
스쿠비 | 플레인 텍스트, HTML | 버리다 | 아니요. | 네. | 자동의 | 아니요. | 아니요. | 오비 | 인스턴스, 속성 값, RDFS 유형 | NLP, 머신러닝 | RDF, RDFa | 도메인에 의존하지 않다 | 영어, 독일어 |
SemTag [38][39] | HTML | 버리다 | 아니요. | 네. | 자동의 | 네. | 아니요. | SA | 기계 학습 | 데이터베이스 레코드 | 도메인에 의존하지 않다 | 언어에 의존하지 않다 | |
스마트 픽스 | 플레인 텍스트, HTML, PDF, DOC, 이메일 | 버리다 | 네. | 아니요. | 자동의 | 아니요. | 네. | 오비 | 명명된 엔티티 | NLP, 머신러닝 | 전매의 | 도메인에 의존하지 않다 | 영어, 독일어, 프랑스어, 네덜란드어, 광택제 |
Text2Onto [40] | 플레인 텍스트, HTML, PDF | 버리다 | 네. | 아니요. | 반자동의 | 네. | 네. | OL | 개념, 개념 계층, 비언어적 관계, 인스턴스, 공리 | NLP, 통계 방식, 머신 러닝, 규칙 기반 방식 | 올빼미 | 디오메인 비의존성의 | 영어, 독일어, 스페인어 |
텍스트 투 온토 [41] | 플레인 텍스트, HTML, PDF, PostScript | 버리다 | 반자동의 | 네. | 네. | OL | 개념, 개념 계층, 비언어적 관계, 개념을 참조하는 어휘적 실체, 관계를 참조하는 어휘적 실체 | NLP, 머신러닝, 클러스터링, 통계방법 | 독일의 | ||||
That Needle(니들) | 일반 텍스트 | 버리다 | 자동의 | 아니요. | 개념, 관계, 계층 | NLP, 독자 사양 | JSON | 복수 도메인 | 영어 | ||||
Wiki 머신 [42] | 플레인 텍스트, HTML, PDF, DOC | 버리다 | 아니요. | 네. | 자동의 | 네. | 네. | SA | 고유명사에 대한 주석, 일반명사에 대한 주석 | 기계 학습 | RDFa | 도메인에 의존하지 않다 | 영어, 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 러시아어 |
ThingFinder [43] | IE | 명명된 엔티티, 관계, 이벤트 | 다국어 |
지식 발견
지식 검색은 대량의 데이터를 자동으로 검색하여 [44]데이터에 대한 지식으로 간주할 수 있는 패턴을 찾는 프로세스를 설명합니다.입력 데이터로부터 지식을 얻는 것으로 설명되는 경우가 많습니다.지식 검색은 데이터 마이닝 도메인에서 개발되었으며 방법론 및 [45]용어 측면에서 이와 밀접하게 관련되어 있습니다.
데이터 마이닝의 가장 잘 알려진 부문은 KDD(knowledge discovery in database)라고도 하는 지식 디스커버리입니다.다른 많은 형태의 지식 발견과 마찬가지로 입력 데이터의 추상화를 생성합니다.이 프로세스를 통해 얻은 지식은 추가 사용 및 발견에 사용할 수 있는 추가 데이터가 될 수 있습니다.지식 발견의 결과는 실행 가능하고 실행 가능한 지식 발견이 아닌 경우가 많습니다. 이는 도메인 기반 [46]데이터 마이닝이라고도 하며 실행 가능한 지식과 통찰력을 발견하고 제공하는 것을 목적으로 합니다.
지식 발견의 또 다른 유망한 적용 분야는 기존 소프트웨어 아티팩트를 이해하는 소프트웨어 현대화, 취약점 발견 및 컴플라이언스 분야입니다.이 프로세스는 리버스 엔지니어링의 개념과 관련되어 있습니다.일반적으로 기존 소프트웨어에서 얻은 지식은 필요할 때 특정 쿼리를 수행할 수 있는 모델의 형태로 제공됩니다.엔티티 관계는 기존 소프트웨어에서 얻은 지식을 표현하는 빈번한 형식입니다.Object Management Group(OMG)은 기존 코드에서 지식 발견을 수행하기 위해 소프트웨어 자산 및 그 관계에 대한 온톨로지를 정의하는 KDM(Knowledge Discovery Metamodel) 규격을 개발했습니다.기존 소프트웨어 아티팩트는 리스크 관리 및 비즈니스 가치에 대한 막대한 가치를 포함하기 때문에 소프트웨어 마이닝이라고도 불리는 기존 소프트웨어 시스템에서 지식을 발견하는 것은 데이터 마이닝과 밀접하게 관련되어 있습니다.이는 소프트웨어 시스템의 평가와 진화의 열쇠입니다.소프트웨어 마이닝은 개별 데이터 세트를 마이닝하는 대신 프로세스 흐름(데이터 흐름, 제어 흐름, 콜 맵 등), 아키텍처, 데이터베이스 스키마 및 비즈니스 규칙/용어/프로세스와 같은 메타데이터에 초점을 맞춥니다.
데이터 입력
출력 형식
- 데이터 모델
- 메타데이터
- 메타모델
- 온톨로지
- 지식 표현
- 지식 태그
- 업무 규칙
- KDM(Knowledge Discovery Metamodel)
- 비즈니스 프로세스 모델링 표기법(BPMN)
- 중간 표현
- 자원 기술 프레임워크(RDF)
- 소프트웨어 메트릭
「 」를 참조해 주세요.
추가 판독치
- Chicco, D; Masseroli, M (2016). "Ontology-based prediction and prioritization of gene functional annotations". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 13 (2): 248–260. doi:10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.
레퍼런스
- ^ RDB2RDF 워킹그룹, 웹사이트: http://www.w3.org/2001/sw/rdb2rdf/, 헌장: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: RDB에서 RDF로의 매핑 언어: http://www.w3.org/TR/r2rml/
- ^ LOD2 EU 성과물 3.1.1 구조화된 소스로부터의 지식 추출 http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf 2011-08-27 Wayback Machine 아카이브
- ^ "Life in the Linked Data Cloud". www.opencalais.com. Archived from the original on 2009-11-24. Retrieved 2009-11-10.
Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.
- ^ a b Tim Berners-Lee(1998), "시맨틱 웹상의 관계형 데이터베이스".취득한 것:2011년 2월 20일
- ^ 후 등(2007), "관계형 데이터베이스 스키마와 온톨로지 간의 단순한 매핑 발견", 제6회 국제 시맨틱 웹 컨퍼런스(ISWC 2007), 제2회 아시아 시맨틱 웹 컨퍼런스(ASWC 2007), LNCS 4825, 225⁄238, 부산, 2007년 11월, 1115.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
- ^ R. Ghawi 및 N. Cullot(2007), "시멘틱 상호 운용성을 위한 데이터베이스와 온톨로지 매핑 생성"데이터베이스 상호 운용성에 관한 제3회 국제 워크숍(InterDB 2007).http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
- ^ 리 등(2005) "시맨틱 웹을 위한 반자동 온톨로지 획득 방법", WAIM, 컴퓨터 과학 강의 노트 3739권, 209-220페이지.스프링거 도이: 10.1007/11563952_19
- ^ Tirmizi 등(2008), "SQL 애플리케이션을 시맨틱 웹으로 변환", 컴퓨터 사이언스 강의 노트, Volume 5181/2008(데이터베이스 및 엑스퍼트 시스템 애플리케이션).http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
- ^ Farid Cerbah (2008)."Learning High Structured Semantic Repositorys from Relationational Databases", The Semantic Web: Research and Applications, 5021 권의 컴퓨터 사이언스 강의 노트, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf 아카이브 2011-07-20 웨이백머신
- ^ a b 다야시 위마수리야; 더징시 더우(2010).「온톨로지 베이스의 정보 추출:현재 접근법 소개 및 조사", 정보과학 저널, 36(3), 페이지 306 - 323, http://ix.cs.uoregon.edu/ ~ dou / dou / http / http 09 . pdf ( : : 18 . 06 . 2012 )
- ^ "NLP Interchange Format (NIF) 2.0 - Overview and Documentation". persistence.uni-leipzig.org. Retrieved 2020-06-05.
- ^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). "Integrating NLP Using Linked Data". The Semantic Web – ISWC 2013. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. 7908: 98–113. doi:10.1007/978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
- ^ Verspoor, Karin; Livingston, Kevin (July 2012). "Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web". Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Republic of Korea: Association for Computational Linguistics: 75–84.
- ^ acoli-repo/conll-rdf, ACoLi, 2020-05-27, retrieved 2020-06-05
- ^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). "CoNLL-RDF: Linked Corpora Done in an NLP-Friendly Way". Language, Data, and Knowledge. Lecture Notes in Computer Science. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
- ^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (eds.). "The LAPPS Interchange Format". Worldwide Language Service Infrastructure. Lecture Notes in Computer Science. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
- ^ "The Language Application Grid A web service platform for natural language processing development and research". Retrieved 2020-06-05.
- ^ newsreader/NAF, NewsReader, 2020-05-25, retrieved 2020-06-05
- ^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, German; Rospocher, Marco (2016-10-15). "NewsReader: Using knowledge resources in a cross-lingual reading machine to generate more knowledge from massive streams of news". Knowledge-Based Systems. 110: 60–85. doi:10.1016/j.knosys.2016.07.013. ISSN 0950-7051.
- ^ 커닝햄, 해미쉬(2005년)."정보 추출, 자동", 언어 및 언어학 백과사전, 2, 페이지 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (영어: 18.06.2012)
- ^ Chicco, D; Masseroli, M (2016). "Ontology-based prediction and prioritization of gene functional annotations". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 13 (2): 248–260. doi:10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.
- ^ Erdmann, M., Maedche, Alexander, Schnurr, H.-P.; Staab, Steffen(2000)."수동으로 반자동 시멘틱 주석: 온톨로지 기반 텍스트 주석 도구에 대하여", COLING 진행, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (영어: 18.06.2012)
- ^ Rao, Delip, McNamee, Paul, Drumze, Mark(2011)."엔티티 링크:기술 자료에서 추출된 엔티티 검색", 다국어 정보 추출 및 요약, http://www.cs.jhu.edu/~delip/delip-timeout.pdf[permanent dead link] (파일: 18.06.2012)
- ^ Rocket Software, Inc. (2012년)"텍스트에서 인텔리전스를 추출하는 기술", http://www.rocketsoftware.com/products/aerotext 2013-06-21 Wayback Machine에서 아카이브됨(예: 18.06.2012).
- ^ Orchestr8 (2012): "연금술"API 개요", http://www.alchemyapi.com/api Wayback Machine에서 2016-05-13 아카이브됨(예: 18.06.2012).
- ^ 셰필드 대학교(2011)."ANNIE: 거의 새로운 정보 추출 시스템", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (파일명: 18.06.2012)
- ^ ILP 네트워크 오브 엑설런스"ASIUM(LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.2012(파일: 18.06.2012).
- ^ Attentity(2012)."Exhaustive Extraction", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Wayback Machine에서 2012-07-11 아카이브 완료(파일명: 18.06.2012).
- ^ Mendes, Pablo N., Jakob, Max, Garcia-Sielva, Andrés, Bizer, Christian(2011)."DBpedia 스포트라이트:문서 웹을 조명한다", 제7회 시맨틱 시스템 국제회의 속행, 페이지 1~8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf 2012-04-05 Wayback Machine에서 아카이브 2012.06.2012).
- ^ 간게미, 알도, 프레수티, 발렌티나, 레포르기아토 레큐로, 디에고, 누졸레제, 안드레아 지오반니, 드라이치오, 프란체스코, 몽조비, 미사엘(2016)."Semantic Web Machine Reading with FRED", Semantic Web Journal, doi: 10.323/SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
- ^ Adrian, Benjamin, Maus, Heiko, Dengel, Andreas(2009)."i 문서:텍스트에서 정보를 추출하기 위한 온톨로지 사용", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (파일: 18.06.2012)
- ^ SRA International, Inc. (2012)"NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Wayback Machine에서 2012-09-24 아카이브됨(예: 18.06.2012).
- ^ Fortuna, Blaz, Grobelnik, Marko, Mladenic, Dunja(2007)."OntoGen: 반자동 온톨로지 에디터", 2007년 휴먼 인터페이스 회의 속행, Part 2, 309 - 318, http://analytics.ijs.si/ ~ blazf / papers / OntoGen2 _ HCI 2007 . pdf ( : : 18 . 06 . 2012 )
- ^ Missikoff, Michele, Naveli, Roberto, Velardi, Paola(2002)."Web Ontology 학습 및 엔지니어링에 대한 통합 접근", 컴퓨터, 35(11), 페이지 60-63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (영어: 18.06.2012)
- ^ 맥도웰, 루크 K, 카페렐라, 마이클(2006)."OntoSyphon을 통한 Ontology-drived information extraction", 시맨틱 웹에서 제5회 국제회의 진행, 페이지 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (제18.06.2012)
- ^ Yildiz, Burcu, Miksch, Silvia (2007)."ontoX - 온톨로지 기반 정보 추출 방법", 2007년 컴퓨터 과학 및 그 적용에 관한 국제 회의의 진행, 3, 페이지 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (2012년 6월 18.06.2012년).
- ^ semanticweb.org (2011)"PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor Wayback Machine에서 2016-03-04 아카이브 완료(파일: 18.06.2012).
- ^ Dill, Stephen, Nadav, Gibson, David, Gruhl, Daniel, Guha, Ringran, Anant, Kanungo, Tapas, Rajagopalan, Sridhar, Tomkins, Andrew, Tomlin, John A; Zien, Y(2003)."SemTag and Seeker: 자동화된 시맨틱 주석을 통한 시맨틱 웹 부트스트레이핑", 월드 와이드 웹에서의 제12회 국제회의 진행, 페이지 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (영어: 18.06.2012).
- ^ 우렌, 빅토리아, 치미아노, 필리핀, 이리아, 호세, 한슈, 지그프리드, 바르가스-베라, 마리아, 모타, 엔리코, 치라베그나, 파비오(2006)"지식 관리를 위한 의미적 주석: 요구사항 및 최첨단 조사", 웹 의미론: World Wide Web의 Science, Services and Agents, 4(1), 페이지 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06[permanent dead link].pdf, (영어: 18.06.2012).
- ^ Cimiano, Philippi; Völker, Johanna(2005)."Text2Onto - 온톨로지 학습 및 데이터 중심 변경 발견을 위한 프레임워크", 제10회 정보 시스템에 자연어 적용 국제회의 진행, 3513, 페이지 227-238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (영어: 18.06.2012).
- ^ Maedche, Alexander, Volz, Raphael(2001)."온톨로지 추출 및 유지보수 프레임워크 Text-To-Onto", 데이터 마이닝에 관한 IEEE 국제회의 진행, http://users.csc.calpoly.edu/ ~fkurfess/Events/DM-KM-01/Volz.pdf (영어: 18.06.2012)
- ^ 머신 링크"We connect to the Linked Open Data Cloud", http://thewikimachine.fbk.eu/html/index.html 2012-07-19 Archived at the Wayback Machine(Wayback 머신에서 2012.06.2012).
- ^ Inxight Federal Systems (2008년)."Inxight ThingFinder and ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Wayback Machine에서 2012-06-29 아카이브됨(예: 18.06.2012).
- ^ 프롤리 윌리엄.F. et al.(1992), "데이터베이스에서의 지식 발견:개요", AI Magazine (Vol 13, No 3), 57-70 (풀버전 : http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Wayback Machine에서 아카이브 완료 2016-03-04)
- ^ Fayyad U. et al.(1996), "데이터 마이닝에서 데이터베이스의 지식 발견까지", AI Magazine(17권, 3호), 37-54(풀 버전: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Wayback Machine에서 아카이브됨 2016-05-04)
- ^ Cao, L. (2010). "Domain driven data mining: challenges and prospects". IEEE Transactions on Knowledge and Data Engineering. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109/tkde.2010.32. S2CID 17904603.