테이블 추출

Table extraction

표 추출은 큰 문서에서 표를 인식하고 분리하는 과정으로, 개별 행, 열 또는 요소를 인식할 수도 있다. 그것은 정보 추출의 특별한 형태로 간주될 수 있다.

페이지의 표 추출은 표에 존재하는 특수 HTML 요소(예: "테이블" 태그)를 활용할 수 있으며, 프로그래밍 라이브러리는 웹 페이지에서 표 추출 기능을 구현할 수 있다. Python 팬더 소프트웨어 라이브러리는 read_html() 기능을 통해 HTML 웹 페이지에서 테이블을 추출할 수 있다.

더 어려운 것은 PDF스캔한 이미지에서 테이블을 추출하는 것인데, 일반적으로 테이블별 기계 판독이 가능한 마크업이 없다.[1] 과학적인 PDF의 표에서 데이터를 추출하는 시스템이 설명되어 있다.[2][3]

위키피디아는 그 정보의 일부를 표로 제시하며, 예를 들어 영어 위키피디아에서 350만 개의 표를 추출할 수 있다.[4] 표의 일부는 특정한 형식을 가지고 있다. 예를 들어, 소위 인포박스(infobox)라고 한다. 위키백과 인포박스의 대규모 테이블 추출은 DBpedia의 출처 중 하나를 형성한다.[5]

테이블 추출을 위한 상용서비스(예: Amazon Textract, Google의 Document AI, IBM Watson Discovery, Microsoft Form Incognizer)가 존재한다.[1] 시멘틱 스콜라에서 사용된 PDFigures 2.0과 같은 오픈 소스 툴도 존재한다.[6] 2017년에 발표된 비교에서, 연구원들은 독점 프로그램인 ABB를 발견했다.평가된 6가지 툴 중 최고의 PDF 테이블 추출 성능을 제공하는 YY FineReader.[7]

참조

  1. ^ a b Douglas Burdick; Marina Danilevsky; Alexandre V Evfimievski; Yannis Katsis; Nancy Wang (August 2020). "Table extraction and understanding for scientific and enterprise applications". Proceedings of the VLDB Endowment. International Conference on Very Large Data Bases. 13 (12): 3433–3436. doi:10.14778/3415478.3415563. ISSN 2150-8097. Wikidata Q108170445.
  2. ^ Wenhao Yu; Wei Peng; Yu Shu; Qingkai Zeng; Meng Jiang (19 April 2020). Experimental Evidence Extraction System in Data Science with Hybrid Table Features and Ensemble Learning. Proceedings of The Web Conference 2020. pp. 951–961. doi:10.1145/3366423.3380174. ISBN 978-1-4503-7023-3. Wikidata Q108172460.
  3. ^ Benno Kruit; Hongyu He; Jacopo Urbani (1 November 2020). Tab2Know: Building a Knowledge Base from Tables in Scientific Papers. The Semantic Web – ISWC 2020: 19th International Semantic Web Conference, Athens, Greece, November 2–6, 2020, Proceedings, Part I. Lecture Notes in Computer Science. pp. 349–365. doi:10.1007/978-3-030-62419-4_20. ISBN 978-3-030-62419-4. Wikidata Q101086651.
  4. ^ Tobias Bleifuß; Leon Bornemann; Dmitri V. Kalashnikov; Felix Naumann; Divesh Srivastava (17 August 2021). "The Secret Life of Wikipedia Tables" (PDF). Proceedings of the 2nd Workshop on Search, Exploration, and Analysis in Heterogeneous Datastores. CEUR Workshop Proceedings: 20–26. Wikidata Q108215401.
  5. ^ Sören Auer; Christian Bizer; Georgi Kobilarov; Jens Lehmann; Richard Cyganiak; Zachary Ives (2007). DBpedia: A Nucleus for a Web of Open Data. The Semantic Web: 6th International Semantic Web Conference, 2nd Asian Semantic Web Conference, ISWC 2007 + ASWC 2007, Busan, Korea, November 11-15, 2007. Proceedings. Lecture Notes in Computer Science. pp. 722–735. doi:10.1007/978-3-540-76298-0_52. ISBN 978-3-540-76297-3. Wikidata Q27910422.
  6. ^ Christopher Clark; Santosh Divvala (2016). PDFFigures 2.0: Mining figures from research papers. Proceedings of the 16th ACM/IEEE-CS Joint Conference on Digital Libraries. ISBN 978-1-4503-4229-2. Wikidata Q108172042.
  7. ^ Andreiwid Sheffer Corrêa; Pär-Ola Zander (7 June 2017), Unleashing Tabular Content to Open Data: A Survey on PDF Table Extraction Methods and Tools, doi:10.1145/3085228.3085278, Wikidata Q108173686