구조화되지 않은 데이터

Unstructured data

비구조화 데이터(또는 비구조화 정보)는 사전 정의된 데이터 모델이 없거나 사전 정의된 방식으로 구성되지 않은 정보입니다.구조화되지 않은 정보는 일반적으로 텍스트가 많지만 날짜, 숫자 및 사실과 같은 데이터가 포함될 수 있습니다.따라서 데이터베이스에 필드 형식으로 저장되거나 문서에 주석이 달린(의미적으로 태그가 달린) 데이터에 비해 기존 프로그램을 사용하는 것이 이해하기 어려운 불규칙성과 모호성이 발생합니다.

1998년 메릴린치는 "비구조화 데이터는 조직에서 발견되는 데이터의 대부분을 차지하며, 일부 추정치는 80%에 [1]달합니다."라고 말했습니다.이 숫자의 출처가 불분명하지만 그럼에도 불구하고 [2]일부 사람들에 의해 받아들여지고 있다.다른 소스에서는 구조화되지 않은 [3][4][5]데이터의 비율이 비슷하거나 더 높다고 보고했습니다.

2012년 현재 IDCDell EMC는 2020년까지 데이터가 40제타바이트로 증가하여 2010년 [6]초에 비해 50배 증가할 것으로 예측하고 있습니다.최근 IDC와 Seagate는 글로벌 데이터 공간이 2025년까지 163제타바이트까지 증가하며 그 대부분이 비구조화될 것으로 예측하고 있습니다.Computer World 잡지에 따르면 조직 [1]내 모든 데이터의 70~80% 이상을 비정형 정보가 차지할 수 있습니다.

배경

비즈니스 인텔리전스에 대한 최초의 연구는 수치 [8]데이터가 아닌 비정형 텍스트 데이터에 초점을 맞췄습니다.1958년 초에 컴퓨터 과학 연구가들 H.P.를 좋아했다. Luhn은 특히 구조화되지 [8]않은 텍스트의 추출과 분류에 관심이 있었습니다.하지만, 세기가 바뀌면서부터 기술이 연구의 관심을 따라잡았다.2004년 SAS Institute는 SAS Text Miner를 개발했습니다.SVD(Single Value Decomposition)초차원 텍스트 공간을 더 작은 차원으로 줄여 훨씬 더 효율적인 기계 [9]분석을 실현했습니다.기계 텍스트 분석에 의해 촉발된 수학적, 기술적 진보로 인해 많은 기업들이 응용 분야를 연구하게 되었고, 감성 분석, 고객 마이닝의 목소리, 콜 센터 최적화 [10]등의 분야의 개발로 이어졌습니다.2000년대 후반 빅 데이터의 등장으로 예측 분석 근본 원인 [11]분석과 같은 현대 분야의 비정형 데이터 분석 애플리케이션에 대한 관심이 높아졌습니다.

용어에 관한 문제

이 용어는 몇 가지 이유로 부정확하다.

  1. 구조는 공식적으로 정의되지 않았지만 여전히 암시될 수 있습니다.
  2. 어떤 형태의 구조를 가진 데이터는 구조가 수중에 있는 처리 태스크에 도움이 되지 않는 경우 여전히 비구조화 데이터로 특징지어질 수 있습니다.
  3. 비구조화 정보는 일부 구조화(반구조화)되거나 고도로 구조화되지만 예상치 못하거나 예고되지 않은 방식으로 구성될 수 있습니다.

구조화되지 않은 데이터 처리

데이터 마이닝, 자연어 처리(NLP), 텍스트 분석 등의 기술은 이 정보에서 패턴을 찾거나 해석하는 다양한 방법을 제공합니다.텍스트를 구성하는 일반적인 기술에는 일반적으로 메타데이터를 사용한 수동 태그 지정 또는 텍스트마이닝 기반 구조를 위한 음성 부분 태그 지정이 포함됩니다.Unstructured Information Management Architecture(UIMA; 비정형 정보 관리 아키텍처) 표준은 이 정보를 처리하기 위한 공통 프레임워크를 제공하여 의미를 추출하고 정보에 [12]대한 정형 데이터를 생성했습니다.

기계 처리 가능한 구조를 만드는 소프트웨어는 모든 [13]형태의 인간 커뮤니케이션에 존재하는 언어, 청각 및 시각 구조를 활용할 수 있습니다.알고리즘은 예를 들어 단어 형태학, 문장 구문 및 기타 크고 작은 패턴을 조사함으로써 텍스트로부터 이러한 고유 구조를 추론할 수 있다.그런 다음 구조화되지 않은 정보를 풍부하고 태그 부착하여 모호성 및 관련성 기반 기술을 해결한 후 검색 및 발견을 용이하게 할 수 있습니다.'비구조화 데이터'의 예로는 서적, 저널, 문서, 메타데이터, 건강기록, 오디오, 비디오, 아날로그 데이터, 이미지, 파일 및 이메일 메시지 본문, 웹 페이지, 워드 프로세서 문서 등의 비구조화 텍스트를 들 수 있습니다.전송되는 주요 콘텐츠는 정의된 구조를 가지고 있지 않지만, 일반적으로 그 자체가 구조를 가지고 있고 구조화 데이터와 비구조화 데이터가 혼합된 객체(파일이나 문서 등)로 패키지화되어 있지만, 이를 통칭하여 "비구조화 데이터"[14]라고 부릅니다.예를 들어 HTML 웹 페이지에 태그가 지정되지만 HTML 마크업은 일반적으로 렌더링에만 사용됩니다.페이지 정보 내용의 자동 처리를 지원하는 방식으로 태그 부착 요소의 의미 또는 기능을 캡처하지 않습니다.XHTML 태그는 일반적으로 태그 부착 용어의 의미적 의미를 캡처하거나 전달하지 않지만 요소를 기계적으로 처리할 수 있습니다.

구조화되지 않은 데이터는 일반적으로 전자 문서에서 발생하기 때문에 문서 전체를 분류할 수 있는 콘텐츠 또는 문서 관리 시스템을 사용하는 것이 문서 내에서 데이터를 전송하거나 조작하는 것보다 선호됩니다.따라서 문서 관리는 문서 모음에 구조를 전달하는 수단을 제공합니다.

검색 엔진은 이러한 데이터, 특히 텍스트를 인덱싱하고 검색하는 인기 있는 도구가 되었습니다.

자연어 처리 방식

텍스트 문서에 포함된 구조화되지 않은 데이터에 구조를 적용하기 위해 특정 계산 워크플로우가 개발되었습니다.이러한 워크플로우는 일반적으로 수천 개 또는 수백만 개의 문서 집합을 처리하도록 설계되어 있으며, 주석을 수동으로 사용하는 방법보다 훨씬 더 많은 문서를 처리할 수 있습니다.이러한 접근법 중 일부는 온라인 분석 처리(OLAP)의 개념을 기반으로 하며 텍스트 [15]큐브 등의 데이터 모델에 의해 지원될 수 있습니다.일단 데이터 모델을 통해 문서 메타데이터를 이용할 수 있게 되면, 문서의 하위 집합(즉, 텍스트 큐브 내의 셀)의 요약 생성을 구문 기반 [16]접근방식으로 수행할 수 있다.

의학 및 생물의학 연구에 대한 접근법

생물의학 연구는 연구자들이 종종 학술지에 연구 결과를 발표하기 때문에 구조화되지 않은 데이터의 주요 소스를 생성합니다.비록 이런 문서에 언어(예를 들어, 복잡한 기술 어휘에 포함되어 있으며 도메인 지식 또한 필수에 전적으로 관찰을 맥락 지을 때문)에서 구조적인 구성 요소를 파생시키는 데에 도전하고 있는 셈, 이 활동의 결과와 의료 기술 studies[17]과 새로운 질병에 관한 단서들의 연계성을 올릴 수 있다.월에러피[18]생물의학 문서에 구조를 적용하기 위한 최근의 노력에는 문서 [19]간의 주제 식별을 위한 자기 조직 지도 접근법, 범용 비감독 알고리즘,[20] 그리고 [21]문헌의 단백질 이름과 심혈관 질환 주제 간의 연관성을 결정하기 위한 CaseOLAP 워크플로우[16] 적용이 포함된다.CaseOLAP는 정확한(관계 식별), 일관성 있는(높은 재현성) 방법으로 구문 카테고리 관계를 정의합니다.이 플랫폼은 향상된 접근성을 제공하며 광범위한 생물의학 연구 애플리케이션을 [21]위한 문구 마이닝 도구를 통해 생물의학 커뮤니티에 힘을 실어줍니다.

데이터 프라이버시 규제에 '비구조화' 사용

스웨덴(EU)에서는 2018년 이전에 해당 데이터가 "구조화되지 않은"[22] 것으로 확인된 경우 일부 데이터 개인 정보 보호 규정이 적용되지 않았습니다.구조화되지 않은 데이터라는 이 용어는 2018년 GPR이 발효된 후 EU에서 거의 사용되지 않습니다.GPR은 "비구조화 데이터"를 언급하거나 정의하지 않습니다.(정의하지 않고) 다음과 같이 '구조화'라는 단어를 사용합니다.

  • GPR 리사이틀 15의 일부, "자연인 보호는 개인 데이터 처리에 적용되어야 한다... 파일링 시스템에 포함된 경우..."
  • GPR 제4조 "파일링 시스템"은 특정 기준에 따라 접근할 수 있는 구조화된 개인 데이터 집합을 의미한다..."

"파일링 시스템"을 정의하는 것에 대한 GPR 사례법칙; "설교를 하는 각 구성원에 의해 수집된 개인 데이터 집합이 실제로 구조화된 특정 기준과 특정 형식은 해당 데이터 집합이 접촉한 특정 개인과 관련된 데이터를 쉽게 얻을 수 있는 한 관련이 없다.그러나 이는 재판부가 본안소송의 모든 상황을 고려하여 확인해야 한다.(CJEU, Todistajat v. Tietosojavaltuutettu, Johvan, 제61항).

개인 데이터를 쉽게 검색할 수 있다면 - 파일링 시스템이고 - "구조화" 또는 "비구조화"에 관계없이 GPR의 범위에 포함됩니다.오늘날 대부분의 전자 시스템은 액세스 및 적용된 소프트웨어에 따라 데이터를 쉽게 검색할 수 있습니다.

「 」를 참조해 주세요.

메모들

  1. ^ 정부의 오늘의 과제:비정형 정보의 처리 방법 및 아무것도 하지 않는 이유, Forrester Research의 수석 분석가, Noel Yohanna씨, 2010년 11월

레퍼런스

  1. ^ Shilakes, Christopher C.; Tylman, Julie (16 Nov 1998). "Enterprise Information Portals" (PDF). Merrill Lynch. Archived from the original (PDF) on 24 July 2011.
  2. ^ Grimes, Seth (1 August 2008). "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis - Bridgepoints. Clarabridge.
  3. ^ Gandomi, Amir; Haider, Murtaza (April 2015). "Beyond the hype: Big data concepts, methods, and analytics". International Journal of Information Management. 35 (2): 137–144. doi:10.1016/j.ijinfomgt.2014.10.007. ISSN 0268-4012.
  4. ^ "The biggest data challenges that you might not even know you have - Watson". Watson. 2016-05-25. Retrieved 2018-10-02.
  5. ^ "Structured vs. Unstructured Data". www.datamation.com. Retrieved 2018-10-02.
  6. ^ "EMC News Press Release: New Digital Universe Study Reveals Big Data Gap: Less Than 1% of World's Data is Analyzed; Less Than 20% is Protected". www.emc.com. EMC Corporation. December 2012.
  7. ^ "Trends Seagate US". Seagate.com. Retrieved 2018-10-01.
  8. ^ a b Grimes, Seth. "A Brief History of Text Analytics". B Eye Network. Retrieved June 24, 2016.
  9. ^ Albright, Russ. "Taming Text with the SVD" (PDF). SAS. Archived from the original (PDF) on 2016-09-30. Retrieved June 24, 2016.
  10. ^ Desai, Manish (2009-08-09). "Applications of Text Analytics". My Business Analytics @ Blogspot. Retrieved June 24, 2016.
  11. ^ Chakraborty, Goutam. "Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining" (PDF). SAS. Retrieved June 24, 2016.
  12. ^ Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer (2013). "Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field". In Holzinger, Andreas; Pasi, Gabriella (eds.). Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data. Lecture Notes in Computer Science. Springer. pp. 13–24. doi:10.1007/978-3-642-39146-0_2. ISBN 978-3-642-39146-0. S2CID 39461100.
  13. ^ "Structure, Models and Meaning: Is "unstructured" data merely unmodeled?". InformationWeek. March 1, 2005.
  14. ^ Malone, Robert (April 5, 2007). "Structuring Unstructured Data". Forbes.
  15. ^ Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (December 2008). Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. 2008 Eighth IEEE International Conference on Data Mining. IEEE. CiteSeerX 10.1.1.215.3177. doi:10.1109/icdm.2008.135. ISBN 9780769535029. S2CID 1522480.
  16. ^ a b Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, Lance; Voss, Clare; Han, Jiawei (2016). "Multi-Dimensional, Phrase-Based Summarization in Text Cubes" (PDF).
  17. ^ Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (June 2006). "Recent advances in natural language processing for biomedical applications". International Journal of Medical Informatics. 75 (6): 413–417. doi:10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564.
  18. ^ Gonzalez, Graciela H.; Tahsin, Tasnia; Goodale, Britton C.; Greene, Anna C.; Greene, Casey S. (January 2016). "Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery". Briefings in Bioinformatics. 17 (1): 33–42. doi:10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073. PMID 26420781.
  19. ^ Skupin, André; Biberstine, Joseph R.; Börner, Katy (2013). "Visualizing the topical structure of the medical sciences: a self-organizing map approach". PLOS ONE. 8 (3): e58779. Bibcode:2013PLoSO...858779S. doi:10.1371/journal.pone.0058779. ISSN 1932-6203. PMC 3595294. PMID 23554924.
  20. ^ Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (2015-04-01). "Unsupervised discovery of information structure in biomedical documents". Bioinformatics. 31 (7): 1084–1092. doi:10.1093/bioinformatics/btu758. ISSN 1367-4811. PMID 25411329.
  21. ^ a b Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (Oct 1, 2018). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  22. ^ "Swedish data privacy regulations discontinue separation of "unstructured" and "structured"".

외부 링크