텍스트 마이닝

Text mining

텍스트 마이닝은 텍스트 분석과 유사하게 텍스트 데이터 마이닝이라고도 하며 텍스트에서 고품질 정보를 얻는 프로세스입니다.여기에는 "다른 작성된 [1]리소스에서 자동으로 정보를 추출하여 이전에는 알려지지 않았던 새로운 정보를 컴퓨터에 의해 발견"하는 작업이 포함됩니다.작성된 리소스에는 웹 사이트, 서적, 이메일, 리뷰 및 기사가 포함될 수 있습니다.고품질 정보는 일반적으로 통계 패턴 학습과 같은 방법으로 패턴과 추세를 고안하여 얻습니다.호토 등에 따르면(2005) 텍스트 마이닝의 3가지 관점을 구별할 수 있습니다.정보 추출, 데이터 마이닝 및 KDD([2]Knowledge Discovery in Databases) 프로세스입니다.텍스트 마이닝은 일반적으로 입력 텍스트를 구조화하는 프로세스(일반적으로 구문 분석, 파생된 언어적 특징의 추가 및 제거, 데이터베이스에 대한 후속 삽입), 구조화된 데이터 내의 패턴을 도출하고 마지막으로 출력의 평가와 해석을 포함합니다.텍스트 마이닝에서 '고품질'은 일반적으로 관련성, 신규성 및 관심의 조합을 의미한다.대표적인 텍스트 마이닝 태스크에는 텍스트 분류, 텍스트 클러스터링, 개념/엔티티 추출, 세분화된 분류법 생산, 감정 분석, 문서 요약 및 엔티티 관계 모델링(, 명명된 엔티티 의 학습 관계)이 포함됩니다.

텍스트 분석에는 정보 검색, 단어 빈도 분포를 연구하기 위한 어휘 분석, 패턴 인식, 태그 부착/주석, 정보 추출, 링크 및 연관 분석, 시각화예측 분석을 포함한 데이터 마이닝 기술이 포함됩니다.기본적으로 가장 중요한 목표는 자연어 처리(NLP), 다양한 유형의 알고리즘 및 분석 방법을 적용하여 텍스트를 분석용 데이터로 변환하는 것입니다.이 프로세스의 중요한 단계는 수집된 정보의 해석입니다.

일반적인 어플리케이션은 자연어로 작성된 문서 세트를 스캔하여 예측 분류를 위해 문서 세트를 모델화하거나 추출된 정보로 데이터베이스 또는 검색 인덱스를 채우는 것입니다.텍스트 마이닝에서 시작하는 기본 요소는 문서입니다.여기서는 문서를 텍스트 데이터의 단위로 정의하며, 일반적으로 여러 유형의 [3]컬렉션에 존재합니다.

텍스트 분석

텍스트 분석이라는 용어는 비즈니스 인텔리전스, 탐색적 데이터 분석, 연구 또는 [4]조사를 위해 텍스트 소스의 정보 내용을 모델링하고 구성하는 일련의 언어, 통계기계 학습 기술을 나타냅니다.이 용어는 텍스트 마이닝과 거의 동의어입니다.실제로 Ronen Feldman은 2004년에 "텍스트 마이닝"[5]에 대한 2000년의 기술을 "텍스트 분석"[6]을 설명하기 위해 수정했습니다.후자의 용어는 비즈니스 환경에서 더 자주 사용되는 반면, "텍스트 마이닝"은 1980년대 [7]초기 애플리케이션 영역, 특히 생명 과학 연구 및 정부 인텔리전스 분야에서 사용됩니다.

텍스트 분석이라는 용어는 또한 독립적으로 또는 필드 수치 데이터의 쿼리 및 분석과 연계하여 비즈니스 문제에 대응하기 위한 텍스트 분석의 적용을 설명합니다.비즈니스 관련 정보의 80%가 구조화되지 않은 형식(주로 텍스트)[8]에서 발생한다는 것은 사실입니다.이러한 기술 및 프로세스는 사실, 비즈니스 규칙 및 관계와 같은 지식을 발견하여 제시합니다.이러한 지식들은 텍스트 형식으로 고정되며 자동 처리에는 반영되지 않습니다.

텍스트 분석 프로세스

서브태스크(대규모 텍스트 분석 작업의 구성 요소)에는 일반적으로 다음이 포함됩니다.

  • 차원 축소는 데이터를 전처리하는 데 중요한 기술입니다.실제 단어의 루트 워드를 식별하고 텍스트 [citation needed]데이터의 크기를 줄이기 위해 기술을 사용합니다.
  • 말뭉치의 정보 검색 또는 식별은 사전 준비 단계입니다. 웹에서 또는 분석을 위해 파일 시스템, 데이터베이스 또는 콘텐츠 말뭉치 관리자에 보관된 텍스트 자료의 집합을 수집 또는 식별합니다.
  • 일부 텍스트 분석 시스템은 고급 통계 방법을 독점적으로 적용하지만, 많은 다른 시스템은 음성 태그 부착, 구문 분석 및 기타 유형의 언어 [9]분석과 같은 보다 광범위한 자연 언어 처리를 적용합니다.
  • 명명된 엔티티 인식은 이름 있는 텍스트 기능(사람, 조직, 지명, 주식 티커 기호, 특정 약어 등)을 식별하기 위해 가제터 또는 통계 기법을 사용하는 것입니다.
  • 예를 들어, "포드"가 전 미국 대통령, 자동차 제조업체, 영화배우, 하천 건널목 또는 기타 [10]실체를 지칭할 수 있는 위치를 결정하기 위해 상황별 단서를 사용하는 모호성이 요구될 수 있다.
  • 패턴 식별 엔티티 인식:전화번호, 이메일 주소, 수량(단위 포함) 등의 기능은 정규 표현 또는 기타 패턴 일치로 식별할 수 있습니다.
  • 문서 클러스터링: 유사한 텍스트 [11]문서 세트를 식별합니다.
  • 상호 참조: 같은 대상을 가리키는 명사 구 및 기타 용어의 식별.
  • 관계, 사실 및 사건 추출: 엔티티 간의 연관성 식별 및 텍스트 내 기타 정보
  • 감정 분석은 주관적인(사실과는 반대되는) 소재를 식별하고 다양한 형태의 태도 정보(감정, 의견, 분위기 및 감정)를 추출하는 것을 포함한다.텍스트 분석 기술은 개체, 개념 또는 주제 수준에서 감정을 분석하고 의견 보유자와 의견 개체를 [12]구별하는 데 유용합니다.
  • 정량적 텍스트 분석은 심리학적 프로파일링 [13]등을 목적으로 한 일상적인 개인 텍스트의 의미나 양식적 패턴을 찾기 위해 인간 판사나 컴퓨터 중 하나가 단어 사이의 의미적 또는 문법적 관계를 추출하는 사회과학에서 비롯된 기술이다.
  • 전처리는 보통 토큰화, 필터링 및 스팅과 같은 작업을 수반합니다.

적용들

텍스트 마이닝 기술은 현재 다양한 정부, 연구 및 비즈니스 요구에 광범위하게 적용되고 있습니다.이러한 모든 그룹은 문서 관리 및 일상 활동과 관련된 문서 검색에 텍스트 마이닝을 사용할 수 있습니다.예를 들어, 법조인은 전자 정보 공개를 위해 텍스트 마이닝을 사용할 수 있습니다.정부와 군사단체들은 국가 안보와 정보 목적으로 텍스트 마이닝을 사용한다.과학적 연구원들 노력 텍스트 데이터(즉, 비구조화 데이터의 문제를 해결하고)의 큰 세트를 조직하는 생명 과학과 생물 정보학과 같은 분야의 과학적 발견을 지원하기 위해 아이디어 텍스트(예를 들어, 사회 media[14][15][16]감정 분석)를 통하여 통신을 결정짓게 된 텍스트 마이닝 방법을 사용하고 있다..비즈니스에서 애플리케이션은 경쟁 인텔리전스와 자동 광고 배치를 지원하기 위해 사용되며, 그 외에도 다양한 활동들이 있습니다.

보안 응용 프로그램

많은 텍스트 마이닝 소프트웨어 패키지는 보안 애플리케이션, 특히 국가 보안[17]위해 인터넷 뉴스, 블로그 등과 같은 온라인 평문 소스 모니터링 및 분석을 위해 판매됩니다.또한 텍스트 암호화/복호화 연구에도 관여합니다.

생물의학 응용 프로그램

A flowchart of a text mining protocol.
단백질-단백질 복합체 또는 단백질 [18]도킹 연구에 사용되는 텍스트 마이닝 프로토콜의 예입니다.

단백질 도킹,[20] 단백질 상호작용 [21][22]및 단백질-질병 [23]연관 연구를 지원하는 계산 접근법을 포함하여 생물의학 문헌의 다양한 텍스트 마이닝 애플리케이션이 [19]설명되었다.또한 임상 분야의 대규모 환자 텍스트 데이터 세트, 인구 연구의 인구 통계 정보 데이터 세트 및 부작용 보고서를 통해 텍스트 마이닝은 임상 연구와 정밀 의학을 촉진할 수 있다.텍스트 마이닝 알고리즘은 전자 건강 기록, 사건 보고서 및 특정 진단 [24]테스트의 보고서에서 얻은 증상, 부작용 및 공생의 대규모 환자 텍스트 데이터셋에서 특정 임상 사건의 계층화와 색인을 용이하게 할 수 있다.바이오메디컬 문헌의 온라인 텍스트 마이닝 애플리케이션 중 하나는 PubGene입니다.PubGene은 바이오메디컬 텍스트 마이닝과 네트워크 [25][26]시각화를 결합한 공개 접근 가능한 검색 엔진입니다.GoPubMed는 바이오메디컬 텍스트를 위한 지식 기반 검색 엔진입니다.텍스트 마이닝 기술은 임상 영역의[27] 구조화되지 않은 문서에서 알려지지 않은 지식을 추출할 수도 있습니다.

소프트웨어 응용 프로그램

텍스트 마이닝 방법 및 소프트웨어는 IBM 및 Microsoft비롯한 주요 기업 및 검색 및 분석 프로세스를 더욱 자동화하기 위해 연구 및 개발 중이며, 검색 및 인덱싱 영역에서 일반적으로 작업하는 여러 기업이 결과를 개선하기 위한 방법으로 개발 중입니다.공공 부문에서는 테러 행위[28]추적하고 감시하기 위한 소프트웨어를 만드는 데 많은 노력이 집중되어 왔다.연구 목적으로 Weka 소프트웨어는 과학계에서 가장 인기 있는 옵션 중 하나이며, 초보자에게 훌륭한 입문 포인트 역할을 합니다.Python 프로그래머에게는 NLTK라고 하는 보다 일반적인 목적을 위한 훌륭한 툴킷이 있습니다.고급 프로그래머를 위한 Gensim 라이브러리도 있습니다.Gensim 라이브러리는 단어 삽입 기반의 텍스트 표현에 초점을 맞추고 있습니다.

온라인 미디어 응용 프로그램

텍스트 마이닝은 Tribune Company와 같은 대형 미디어 회사에 의해 정보를 명확하게 하고 독자들에게 더 나은 검색 경험을 제공하기 위해 사용되고 있으며, 이는 사이트의 "스틱"과 수익을 증가시킵니다.또한 편집자는 부동산 전체에서 뉴스를 공유, 관련지어 패키징할 수 있어 콘텐츠 수익화 기회가 크게 증가하고 있습니다.

비즈니스 및 마케팅 응용 프로그램

텍스트 분석은 비즈니스, 특히 고객 관계 [29]관리와 같은 마케팅에서 사용되고 있습니다.Cousement와 Van den Poel(2008)[30][31]은 이를 고객 이탈(고객 감소)[30]에 대한 예측 분석 모델을 개선하기 위해 적용합니다.텍스트 마이닝은 주가수익률 [32]예측에도 적용되고 있다.

감정 분석

감성 분석은 영화에 [33]대한 리뷰가 얼마나 호의적인지를 추정하기 위해 영화 리뷰를 분석하는 것을 포함할 수 있다.이러한 분석에는 라벨이 붙은 데이터 세트 또는 단어의 애정도에 대한 라벨이 필요할 수 있다.WordNet과 ConceptNet은 [35]각각[34] 단어와 개념의 애정도를 위한 자원을 만들었다.

텍스트는 감성 [36]컴퓨팅의 관련 영역에서 감정을 감지하기 위해 사용되어 왔습니다.감성 컴퓨팅에 대한 텍스트 기반 접근법은 학생 평가, 아동 기사, 뉴스 기사 등 여러 코퍼스에 사용되고 있습니다.

과학 문헌 채굴 및 학술 응용 프로그램

텍스트 마이닝 문제는 검색을 위해 인덱싱을 필요로 하는 정보의 대규모 데이터베이스를 보유하고 있는 출판사에 중요합니다.이것은 특히 매우 구체적인 정보가 종종 쓰여진 텍스트 안에 포함되어 있는 과학 분야에서는 더욱 그러하다.따라서 공개적인 AC에 대한 게시자의 장벽을 제거하지 않고 텍스트에 포함된 특정 쿼리에 응답할 수 있는 시맨틱 큐를 기계에 제공하는 Nature의 OTMI(Open Text Mining Interface) 및 국립보건원(National Institute of Health)의 공통 저널 발행 문서 유형 정의(DTD)와 같은 이니셔티브가 취해졌습니다.시궁창.

학술 기관도 텍스트 마이닝 이니셔티브에 참여하게 되었습니다.

과학 문헌의 채굴 방법

계산 방법은 과학 문헌에서 정보 검색을 지원하기 위해 개발되었습니다.공개된 접근법에는 기술 보고서 간의 동음이의어[42] 검색,[40] [41]신규성 결정 및 명확화 방법이 포함된다.

디지털 인문 및 컴퓨터 사회학

방대한 텍스트 코퍼스의 자동 분석은 학자들이 매우 제한적인 수동 개입으로 여러 언어로 된 수백만 개의 문서를 분석할 수 있는 가능성을 만들어냈다.주요 지원 기술은 구문 분석, 기계 번역, 주제 분류 및 기계 학습이었습니다.

2012년 미국 선거[43] 내러티브 네트워크

텍스트 코퍼스의 자동 파싱은 행위자와 관계 네트워크를 대규모로 추출하여 텍스트 데이터를 네트워크 데이터로 변환합니다.수천 개의 노드를 포함할 수 있는 결과 네트워크는 네트워크 이론의 도구를 사용하여 분석되며, 주요 관계자, 주요 커뮤니티 또는 당사자 및 네트워크 전체의 견고성이나 구조적 안정성, [44]특정 노드의 중심성 등의 일반적인 속성을 식별합니다.이것은 주어-동사-객체 세쌍이 작용에 의해 연결된 행위자 쌍 또는 행위자-객체에 [43]의해 형성된 쌍으로 식별되는 정량적 서술 [45]분석에 의해 도입된 접근방식을 자동화한다.

콘텐츠 분석은 오랫동안 사회과학 및 미디어 연구의 전통적인 부분을 차지해 왔습니다.컨텐츠 분석의 자동화에 의해, 소셜 미디어와 신문 컨텐츠에 관한 연구로, 수백만 개의 뉴스 항목이 포함되는 등, 그 분야에 「 데이터」혁명이 일어나게 되었습니다.성별 편견, 가독성, 콘텐츠 유사성, 독자 선호도, 심지어 분위기까지 수백만 개의 [46][47][48][49][50]문서에 대한 텍스트 마이닝 방법을 기반으로 분석되었습니다.가독성, 성편향 및 주제편향의 분석은 Flaounas 등에서 [51]입증되었다. 다른 주제들이 어떻게 다른 성편향과 가독성 수준을 가지고 있는지를 보여준다. 또한 트위터 콘텐츠를 분석함으로써 방대한 인구의 기분 패턴을 탐지할 수 있는 가능성도 입증되었다.[52][53]

소프트웨어

텍스트 마이닝 컴퓨터 프로그램은 많은 상용오픈 소스 회사와 소스로부터 이용할 수 있습니다.텍스트 마이닝 소프트웨어 목록을 참조하십시오.

지적재산권법

유럽 상황

Video by Fix Copyright 캠페인으로 TDM과 EU에서의 저작권 문제에 대해 설명 [3:52]

유럽 저작권데이터베이스법따르면 저작권 소유자의 허가 없이 저작권 내 저작물(웹 마이닝 등)을 채굴하는 것은 불법입니다.2014년 영국에서는 하그리브스 리뷰의 권고에 따라 정부가 저작권법을[54] 개정하여 텍스트 마이닝을 제한예외로 허용하였다.2009년 광업 특례 규정을 도입한 일본에 이어 세계에서 두 번째다.그러나 정보사회 지침(2001)의 제한으로 인해 영국의 예외는 비상업적 목적을 위한 콘텐츠 마이닝만 허용하고 있다.영국 저작권법은 이 조항이 계약 조건에 의해 무효가 되는 것을 허용하지 않습니다.

유럽위원회는 2013년에 "유럽 라이선스(Licenses for Europe)"[55]라는 제목으로 텍스트 및 데이터 마이닝에 대한 이해관계자 논의를 촉진했다.저작권법의 제한이나 예외가 아닌 라이선스에 초점을 맞췄다는 사실이 2013년 [56]5월 대학, 연구자, 도서관, 시민사회단체 및 오픈액세스 출판사 대표들을 이해관계자 대화에서 떠나게 했다.

미국의 상황

미국 저작권법, 특히 공정 사용 조항은 미국 및 이스라엘, 대만, 한국 등 기타 공정 사용 국가에서 텍스트 마이닝이 합법으로 간주되는 것을 의미합니다.텍스트 마이닝은 원작을 대체하지 않는 변혁적인 것이기 때문에 공정한 사용 하에서 합법적이라고 볼 수 있다.예를 들어, Google Book 합의의 일환으로 재판장은 Google의 저작권 내 도서 디지털화 프로젝트가 합법적이라고 판결했습니다. 부분적으로는 디지털화 프로젝트가 보여주는 혁신적 용도(텍스트 및 데이터 [57]마이닝 등) 때문입니다.

시사점

최근까지 웹 사이트는 특정 사용자 정의 단어 또는 구문이 포함된 문서만 찾는 텍스트 기반 검색을 가장 많이 사용했습니다.이제 의미 웹을 사용함으로써 텍스트 마이닝은 (특정 단어에 의해서가 아니라) 의미와 문맥에 근거해 컨텐츠를 찾을 수 있습니다.또한 텍스트 마이닝 소프트웨어를 사용하여 특정 인물 및 이벤트에 대한 대규모 정보 문서를 작성할 수 있습니다.예를 들어, 뉴스 보도에서 추출한 데이터를 기반으로 한 대규모 데이터셋을 구축하여 소셜 네트워크 분석 또는 반지능화를 촉진할 수 있습니다.실제로 텍스트 마이닝 소프트웨어는 분석 범위가 더 제한적이긴 하지만 정보 분석가나 연구 도서관과 유사한 자격으로 작동할 수 있습니다.텍스트 마이닝은 일부 전자 메일 스팸 필터에서도 광고 또는 기타 원하지 않는 자료일 가능성이 높은 메시지의 특성을 확인하는 방법으로 사용됩니다.텍스트 마이닝은 금융시장의 심리를 결정하는데 중요한 역할을 한다.

미래.

다국어 데이터 마이닝에 대한 관심이 높아지고 있습니다.즉, 언어 전반에 걸쳐 정보를 취득하고, 그 의미에 따라 다른 언어 소스로부터 유사한 항목을 클러스터화하는 능력입니다.

"구조화되지 않은" 형태로 발생하는 엔터프라이즈 정보의 대부분을 이용해야 하는 과제는 수십 [58]년 동안 인식되어 왔습니다.1958년 10월 H.P.의 IBM Journal 기사에서 비즈니스 인텔리전스(BI)의 최초 정의로 인정되었습니다.Luhn은 비즈니스 인텔리전스 시스템으로서 다음과 같은 기능을 하는 시스템을 설명합니다.

"...문서 자동 수집 및 자동 수집, 조직 내 각 '액션 포인트'에 대한 관심 프로파일 작성을 위한 데이터 처리 머신을 제공합니다.수신 문서와 내부에서 생성된 문서는 모두 자동으로 추상화되어 단어 패턴으로 특징지어지며 적절한 작업 지점으로 자동 전송됩니다."

그러나 1960년대부터 경영정보시스템이 발달하고 80년대와 90년대에 BI가 소프트웨어 카테고리 및 실무 분야로 부상하면서 관계형 데이터베이스에 저장된 수치 데이터에 중점을 두었다.놀랄 일도 아닙니다. "구조화되지 않은" 문서의 텍스트는 처리하기가 어렵습니다.현재 형태의 텍스트 분석의 출현은 1990년대 후반 알고리즘 개발에서 응용으로 연구가 다시 집중된 데서 비롯되었다.마르티 A. 텍스트 데이터 [59]마이닝 문제 해결:

거의 10년 동안 컴퓨터 언어학 커뮤니티는 더 나은 텍스트 분석 알고리즘을 만들기 위해 대량의 텍스트 컬렉션을 활용해야 할 자원으로 간주해 왔습니다.이 논문에서 나는 새로운 강조점을 제시하려고 했다.대규모 온라인 텍스트 컬렉션을 사용하여 세계 자체에 대한 새로운 사실과 트렌드를 발견하는 것이다.저는 진전을 이루기 위해 완전한 인공지능 텍스트 분석이 필요하지 않다고 제안합니다.대신, 컴퓨터 주도의 분석과 사용자 가이드의 분석의 혼합이 흥미로운 새로운 결과의 문을 열 수도 있습니다.

Hearst의 1999년 필요성 진술은 10년 후의 텍스트 분석 기술 및 실무 상태를 상당히 잘 설명하고 있습니다.

「 」를 참조해 주세요.

레퍼런스

인용문

  1. ^ "Marti Hearst: What is Text Mining?".
  2. ^ Hoto, A., Nürnberger, A. 및 Pa,, G. (2005)"텍스트 마이닝에 대한 간단한 조사"Ldv 포럼, Vol. 20 (1), 페이지 19-62
  3. ^ Feldman, R. 및 Sanger, J. (2007)텍스트 마이닝 핸드북입니다.케임브리지 대학 출판부뉴욕
  4. ^ [1] 2009년 11월 29일 Wayback Machine에서 아카이브 완료
  5. ^ "KDD-2000 Workshop on Text Mining – Call for Papers". Cs.cmu.edu. Retrieved 2015-02-23.
  6. ^ [2] 2012년 3월 3일 Wayback Machine에서 아카이브
  7. ^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Natural language access to structured text". Proceedings of the 9th conference on Computational linguistics. Vol. 1. pp. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
  8. ^ "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis. August 2008. Retrieved 2015-02-23.
  9. ^ Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (in Portuguese). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
  10. ^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (December 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
  11. ^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
  12. ^ "Full Circle Sentiment Analysis". Breakthrough Analysis. 2010-06-14. Retrieved 2015-02-23.
  13. ^ Mehl, Matthias R. (2006). "Quantitative Text Analysis". Handbook of multimethod measurement in psychology. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Pang, Bo; Lee, Lillian (2008). "Opinion Mining and Sentiment Analysis". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.
  15. ^ Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media". ACM Transactions on Intelligent Systems and Technology. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
  16. ^ "Sentiment Analysis in Twitter < SemEval-2017 Task 4". alt.qcri.org. Retrieved 2018-10-02.
  17. ^ Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "Text Mining for Protein Docking". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
  19. ^ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "Getting Started in Text Mining". PLOS Computational Biology. 4 (1): e20. Bibcode:2008PLSCB...4...20C. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
  20. ^ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "Text mining for protein docking". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
  21. ^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
  22. ^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (2016-10-18). "The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
  23. ^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (2018-10-01). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  24. ^ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). "Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
  25. ^ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "A literature network of human genes for high-throughput analysis of gene expression". Nature Genetics. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
  26. ^ Masys, Daniel R. (2001). "Linking microarray data to the literature". Nature Genetics. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
  27. ^ Renganathan, Vinaitheerthan (2017). "Text Mining in Biomedical Domain with Emphasis on Document Clustering". Healthcare Informatics Research. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
  28. ^ [3] 2013년 10월 4일 Wayback Machine에 보관
  29. ^ "Text Analytics". Medallia. Retrieved 2015-02-23.
  30. ^ a b Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrating the voice of customers through call center emails into a decision support system for churn prediction". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
  31. ^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Improving customer complaint management by automatic email classification using linguistic style features as predictors". Decision Support Systems. 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
  32. ^ Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  33. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
  34. ^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). PsychNology Journal. 2 (1): 61–83.
  35. ^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: a Publicly Available Semantic Resource for Opinion Mining" (PDF). Proceedings of AAAI CSK. pp. 14–18.
  36. ^ Calvo, Rafael A; d'Mello, Sidney (2010). "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications". IEEE Transactions on Affective Computing. 1 (1): 18–37. doi:10.1109/T-AFFC.2010.1. S2CID 753606.
  37. ^ "The University of Manchester". Manchester.ac.uk. Retrieved 2015-02-23.
  38. ^ "Tsujii Laboratory". Tsujii.is.s.u-tokyo.ac.jp. Retrieved 2015-02-23.
  39. ^ "The University of Tokyo". UTokyo. Retrieved 2015-02-23.
  40. ^ Shen, Jiaming; Xiao, Jinfeng; He, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (2018-06-27). Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. ACM. pp. 565–574. doi:10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
  41. ^ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (2017-02-06). "The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining". Scientometrics. 111 (1): 103–115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
  42. ^ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (2018-03-10). "Using machine learning to disentangle homonyms in large text corpora". Conservation Biology. 32 (3): 716–724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
  43. ^ a b 빅데이터와 네트워크 분석을 사용한 미국 대통령 선거 자동 분석; S Sudhahar, GA Veltri, N Cristianini; 빅데이터 & Society 2 (1), 1-28, 2015
  44. ^ 대기업의 내러티브 콘텐츠 네트워크 분석; Sudhahar, G De Fazio, R Franzosi, N Cristianini, Natural Language Engineering, 2013년 1-32
  45. ^ 정량적 서술 분석; Roberto Franzosi; Emory University © 2010
  46. ^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (2017-01-09). "Content analysis of 150 years of British periodicals". Proceedings of the National Academy of Sciences. 114 (4): E457–E465. Bibcode:2017PNAS..114E.457L. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
  47. ^ I. Flaounas, M.투르치, O.Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Christianini, EU 미디어스피어 구조, PLoS ONE, Vol. 5(12), e14243, 2010 페이지.
  48. ^ 소셜 웹에서 통계 학습 V Lampos, N Cristianini; 인텔리전트 시스템 및 테크놀로지에 관한 ACM 트랜잭션(TIST) 3(4), 72를 통한 이벤트 캐스팅
  49. ^ NOAM: 뉴스 아웃렛 분석 및 감시 시스템; 2011 ACM SIGMOD 국제 회의의 I Flaounas, O Ali, M T Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc.
  50. ^ 미디어 콘텐츠 패턴 자동 검출, N Cristianini, Combinatory Pattern Matching, 2-13, 2011
  51. ^ I. Flaounas, O.Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Christianini, 디지털 저널리즘 시대의 연구 방법, 디지털 저널리즘, Routlege, 2012
  52. ^ 트위터 콘텐츠의 1주간의 분위기 변화; Fabon Dzogang, Stafford Lightman, Nello Cristianini.뇌와 신경과학의 진보, 1,2398212817744501.
  53. ^ 영국 경기침체가 공공 분위기에 미치는 영향; T Lansdall-Welfare, V Lampos, N Cristianini; 소셜 미디어 애플리케이션에 대한 마이닝 소셜 네트워크 다이내믹스(MSND) 세션
  54. ^ 연구진은 새로운 영국 저작권법따라 데이터 마이닝을 제공했습니다. 2014년 6월 9일 Wayback Machine에서 아카이브되었습니다.
  55. ^ "Licences for Europe – Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014.
  56. ^ "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. 2013-04-25. Retrieved 14 November 2014.
  57. ^ "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
  58. ^ "A Brief History of Text Analytics by Seth Grimes". Beyenetwork. 2007-10-30. Retrieved 2015-02-23.
  59. ^ Hearst, Marti A. (1999). "Untangling text data mining". Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. pp. 3–10. doi:10.3115/1034678.1034679. ISBN 978-1-55860-609-8. S2CID 2340683.

원천

  • Ananiadou, S. 및 McNaught, J. (편집자) (2006)생물 및 생물의학을 위한 텍스트 마이닝.Artech House Books.ISBN 978-1-58053-984-5
  • 빌리솔리, R. (2008)Perl을 사용한 실용적인 텍스트 마이닝.뉴욕: John Wiley & Sons.ISBN 978-0-470-17643-6
  • Feldman, R. 및 Sanger, J. (2006)텍스트 마이닝 핸드북.뉴욕: 케임브리지 대학 출판부.ISBN 978-0-521-83657-9
  • Hoto, A., Nürnberger, A. 및 Pa,, G. (2005)"텍스트 마이닝에 대한 간단한 조사"Ldv 포럼, Vol. 20 (1), 페이지 19-62
  • 노스캐롤라이나주 인두르키아와 F. 다메라우(2010).자연어 처리 핸드북, 제2판Boca Raton, FL: CRC 프레스ISBN 978-1-4200-8592-1
  • 카오, A. 및 포테, S. (편집자)자연어 처리와 텍스트 마이닝.스프링거.ISBN 1-84628-175-X
  • Konchady, M. 텍스트 마이닝 애플리케이션 프로그래밍(프로그래밍 시리즈).찰스 리버 미디어입니다ISBN 1-5845-460-9
  • 매닝, C. 및 슈체, H.(1999).통계 자연어 처리의 기초.케임브리지, 매사추세츠: MIT 프레스.ISBN 978-0-262-13360-9
  • 광부, G, 엘더, J, 힐T, Nisbet, R., Delen, D. 및 Fast, A.(2012).비구조화 텍스트 데이터 애플리케이션을 위한 실용적인 텍스트 마이닝통계 분석.Elsevier Academic Press.ISBN 978-0-12-386979-1
  • 맥나이트, W. (2005)"비즈니스 인텔리전스 구축:비즈니스 인텔리전스에서의 텍스트 데이터 마이닝.DM 리뷰, 21-22
  • Srivastava, A.와 Sahami.M. (2009년)텍스트 마이닝: 분류, 클러스터링 응용 프로그램.Boca Raton, FL: CRC 프레스ISBN 978-1-4200-5940-3
  • Zanasi, A. (편집자) (2007년)텍스트 마이닝 인텔리전스, CRM지식 관리에 대한 응용 프로그램.WIT 프레스ISBN 978-1-84564-131-3

외부 링크