data 전처리

Data pre-processing

데이터 전처리는 성능을 [1]보장하거나 향상시키기 위해 데이터를 사용하기 전에 데이터를 조작하거나 삭제하는 것을 의미하며 데이터 마이닝 프로세스에서 중요한 단계입니다."쓰레기 인, 쓰레기 아웃"이라는 문구는 데이터 마이닝 및 기계 학습 프로젝트특히 적합합니다.데이터 수집 방법은 종종 느슨하게 제어되어 범위를 벗어난 값(예: 소득: -100), 불가능한 데이터 조합(예: 성별: 남성, 임신: 예) 및 누락이 발생한다.

이러한 문제에 대해 신중하게 선별되지 않은 데이터를 분석하면 잘못된 결과가 나올 수 있습니다.따라서 [2]분석을 실행하기 전에 데이터의 표현과 품질이 가장 중요합니다.많은 경우,[3] 데이터 전처리는 특히 컴퓨터 생물학에서 기계 학습 프로젝트의 가장 중요한 단계입니다.무관하고 중복된 정보가 많이 존재하거나 노이즈가 많고 신뢰할 수 없는 데이터가 있는 경우 교육 단계에서 지식을 발견하기가 더 어렵습니다.데이터 준비 및 필터링 단계에는 상당한 처리 시간이 소요될 수 있습니다.데이터 전처리의 예로는 클리닝, 인스턴스 선택, 정규화, 단일 핫 부호화, 변환, 특징 추출선택 등이 있습니다.데이터 전처리의 곱은 최종 교육 세트입니다.

데이터 전처리는 최종 데이터 처리 결과를 [4]해석하는 방법에 영향을 미칠 수 있습니다.이 측면은 화학 데이터의 다변량 처리(화학)와 같이 결과의 해석이 핵심인 경우 신중하게 고려되어야 한다.

데이터 전처리 태스크

이 예에서는 데이터 세트에 Sex of Male 또는 Women과 임신 여부에 관계없이 5명의 성인이 포함되어 있습니다.성인 3과 5는 불가능한 데이터 조합임을 알 수 있습니다.

섹스. 임신한.
어른
1 남자 아니요.
2 여자 네.
3 남자 네.
4 여자 아니요.
5 남자 네.

데이터 클렌징을 실행하여 테이블에서 해당 데이터를 삭제할 수 있습니다.데이터 세트에 존재하는 데이터가 사용자 입력 오류 또는 데이터 손상으로 인해 발생한다고 판단할 수 있기 때문에 이러한 데이터를 제거합니다.이러한 데이터를 삭제해야 하는 이유는 불가능한 데이터가 데이터 마이닝 프로세스의 후속 단계에서 계산 또는 데이터 조작 프로세스에 영향을 미치기 때문입니다.

섹스. 임신한.
어른
1 남자 아니요.
2 여자 네.
4 여자 아니요.

데이터 편집을 수행하고 성인의 성별을 변경할 수 있습니다. 성인은 임신한 것으로 알고 그에 따라 성인을 여성으로 가정하고 변경할 수 있습니다.데이터 마이닝 프로세스 내의 후속 단계에서 데이터 조작을 수행할 때 데이터를 보다 명확하게 분석할 수 있도록 데이터 세트를 편집합니다.

섹스. 임신한.
어른
1 남자 아니요.
2 여자 네.
3 여자 네.
4 여자 아니요.
5 여자 네.

데이터 축소 형식을 사용하여 데이터를 Sex별로 정렬할 수 있습니다. 이렇게 함으로써 데이터 세트를 단순화하고 더 집중하고 싶은 Sex를 선택할 수 있습니다.

섹스. 임신한.
어른
2 여자 네.
4 여자 아니요.
1 남자 아니요.
3 남자 네.
5 남자 네.

데이터 마이닝

데이터 전처리의 기원은 데이터 [citation needed]마이닝에 있습니다.기존 정보를 취합하여 콘텐츠 내에서 검색하는 것이 아이디어입니다.나중에 기계 학습과 신경 네트워크에 대해서도 데이터 전처리 단계가 필요하다는 것이 인식되었습니다.그래서 일반적으로 컴퓨팅에 사용되는 보편적인 기술이 되었습니다.

데이터 전처리를 통해 데이터 클리닝을 통해 불필요한 데이터를 제거할 수 있으며, 이를 통해 사용자는 데이터 마이닝 프로세스의 후반부에서 데이터 조작을 위한 전처리 단계 후에 더 가치 있는 정보를 포함하는 데이터 세트를 가질 수 있습니다.이러한 데이터 세트를 수정하여 데이터 손상 또는 인적 오류를 수정하는 것은 의료 진단에 일반적으로 사용되는 혼돈 매트릭스에서 발견된 참 긍정, 참 부정, 거짓 부정과 같은 정확한 수량화자를 얻기 위한 중요한 단계입니다.사용자는 데이터 파일을 결합하여 전처리를 사용하여 데이터에서 불필요한 노이즈를 필터링할 수 있으므로 정확도가 높아집니다.사용자는 Python 프로그래밍 스크립트를 팬더 라이브러리와 함께 사용하여 쉼표로 구분된 값에서 데이터 프레임으로 데이터를 가져올 수 있습니다.그런 다음 데이터 프레임을 사용하여 Excel에서 수행하기가 어려울 수 있는 데이터를 조작할 수 있습니다. Panda(소프트웨어)는 데이터 분석 및 조작을 가능하게 하는 강력한 도구이며, 이를 통해 데이터 시각화, 통계 작업 등을 훨씬 쉽게 수행할 수 있습니다.또한 많은 사람들이 이러한 작업을 수행하기 위해 R(프로그래밍 언어)을 사용합니다.

사용자가 기존 파일을 새 파일로 변환하는 이유는 여러 가지 이유에서입니다.데이터 전처리는 결측값 추가, 정보 집계, 카테고리로 데이터 라벨링(데이터 비닝) 및 [citation needed]궤적 평활화를 목적으로 합니다.주성분 분석 및 특징 선택과 같은 보다 고급 기술은 통계 공식과 함께 작동하며 GPS 추적기 및 모션 캡처 장치에 의해 기록된 복잡한 데이터 세트에 적용됩니다.

시멘틱 데이터 전처리

시맨틱 데이터 마이닝은 데이터 마이닝의 서브셋으로, 특히 데이터 마이닝 프로세스에 정식 시멘틱과 같은 도메인 지식을 통합하려고 합니다.도메인 지식이란 데이터가 처리된 환경에 대한 지식입니다.도메인 지식은 데이터 마이닝의 많은 측면에 긍정적인 영향을 미칠 수 있습니다. 예를 들어, 전처리 [5]단계에서 중복되거나 일관성이 없는 데이터를 걸러내는 것입니다.도메인 지식도 제약으로 작용합니다.이를 위해 사전 지식 집합으로 작업하여 데이터 검색에 필요한 공간을 줄이고 데이터 가이드 역할을 수행합니다.간단히 말하면, 시맨틱 전처리는 해당 데이터의 원래 환경을 보다 정확하고 효율적으로 사용하여 데이터를 필터링하려고 합니다.

기존 정보를 더 잘 분석하기 위한 보다 정교한 기술로 해결해야 하는 복잡한 문제들이 점점 더 많아지고 있습니다.서로 다른 수치 값을 하나의 값으로 집계하는 단순한 스크립트를 작성하는 대신 의미 기반 데이터 [6]전처리에 집중하는 것이 좋습니다.이 아이디어는 전용 온톨로지를 구축하는 것입니다.이 온톨로지는,[7] 문제의 원인을 보다 높은 레벨로 설명합니다.시맨틱 데이터 마이닝 및 시맨틱 전처리에 관해 온톨로지는 시맨틱 지식 및 데이터를 개념화하고 공식적으로 정의하는 방법입니다.Protégé(소프트웨어)는 온톨로지 [citation needed]구축을 위한 표준 도구입니다.일반적으로 온톨로지를 사용하면 의미 불일치에서 발생하는 데이터, 애플리케이션, 알고리즘 및 결과 간의 갭이 해소됩니다.그 결과, 온톨로지와 결합된 시맨틱 데이터 마이닝은 시맨틱 모호성이 데이터 시스템의 유용성과 효율성에 영향을 미칠 수 있는 많은 애플리케이션을 가지고 있습니다.지원 분야에는 의료 분야, 언어 처리, 은행 업무,[8] 심지어 [9]과외까지 포함됩니다.

의미 데이터 마이닝 및 존재론 기반 접근방식을 사용하는 데는 다양한 강점이 있습니다.앞서 설명한 바와 같이 이러한 도구는 데이터 세트에서 바람직하지 않은 데이터를 필터링하여 처리 단계별로 도움이 될 수 있습니다.또한 잘 설계된 온톨로지에 잘 구성된 공식 의미론을 통합하면 [10]기계에서 쉽게 읽고 처리할 수 있는 강력한 데이터를 반환할 수 있습니다.이것의 특히 유용한 예는 의미 데이터 처리의 의학적 사용에 존재한다.예를 들어, 한 환자가 응급상황이 발생하여 병원으로 긴급 후송되고 있다.응급구조대원들은 환자를 돕기 위해 가장 좋은 약을 찾고 있다.정상적인 데이터 처리에서는 최상의 치료를 받기 위해 환자의 모든 의료 데이터를 검색하는 데 시간이 너무 오래 걸리고 환자의 건강이나 심지어 생명까지도 위험할 수 있습니다.그러나, 의미론적으로 처리된 온톨로지를 사용하여, 최초 대응자들은 환자의 생명을 구할 수 있었다.의미론적 이유와 같은 도구는 환자의 의료 [11]기록에 사용되는 자연어를 검사하는 것만으로 특정 암이나 다른 질환이 있는 경우 등 환자에게 투여하는 최선의 약이 무엇인지 추론하기 위해 온톨로지를 사용할 수 있습니다.이를 통해 최초 대응자는 환자의 병력 자체를 걱정할 필요 없이 빠르고 효율적으로 의학을 검색할 수 있다. 의미론자가 이미 이 데이터를 분석하고 해결책을 찾았을 것이기 때문이다.일반적으로 이는 의미 데이터 마이닝 및 온톨로지 사용의 놀라운 강점을 보여줍니다.데이터용으로 구축된 의미론적으로 사전 처리된 데이터 및 온톨로지가 이러한 변수의 대부분을 이미 차지하고 있기 때문에 사용자가 고려해야 할 변수가 적기 때문에 사용자 측에서 더 빠르고 효율적으로 데이터를 추출할 수 있습니다.그러나 이 접근법에는 몇 가지 단점이 있습니다.즉, 비교적 작은 데이터 [12]세트에서도 높은 계산 능력과 복잡성이 요구됩니다.이로 인해 의미 데이터 처리 시스템을 구축하고 유지하는 데 비용이 증가하고 어려움이 가중될 수 있습니다.데이터 세트가 이미 적절하게 구성 및 포맷되어 있는 경우, 이 문제는 다소 완화될 수 있지만, 그래도 표준 데이터 처리와 비교하면 복잡성이 여전히 높습니다.

다음은 일부 프로세스, 특히 의미 데이터 마이닝과 온톨로지에서의 사용을 결합한 간단한 다이어그램입니다.

SimpleSemanticDataMiningDiagram

이 다이어그램은 데이터 세트가 도메인의 특성 또는 도메인 지식, 그리고 실제로 수집된 데이터의 두 부분으로 분할되는 모습을 보여 줍니다.도메인 특성은 데이터에 적용할 수 있는 사용자가 이해할 수 있는 도메인 지식으로 처리됩니다.한편, 데이터 세트를 처리해 보존해, 도메인 지식을 적용할 수 있도록 해, 처리를 계속한다.이 애플리케이션은 온톨로지를 형성합니다.여기에서 온톨로지를 사용하여 데이터를 분석하고 결과를 처리할 수 있습니다.

퍼지 전처리는 복잡한 문제를 해결하기 위한 또 다른 고급 기술입니다.퍼지 전처리 및 퍼지 데이터 마이닝은 퍼지 세트를 사용합니다.이러한 데이터 세트는 0과 1로 구성된 세트의 집합과 멤버십 함수라는 두 가지 요소로 구성됩니다.퍼지 전처리는 이 퍼지 데이터 세트를 사용하여 언어 정보를 포함한 그라운드 수치로 합니다.그런 다음 원시 데이터가 자연 언어로 변환됩니다.궁극적으로 퍼지 데이터 마이닝의 목표는 불완전한 데이터베이스와 같은 부정확한 정보를 처리하는 데 도움이 되는 것입니다.현재 퍼지 전처리 및 기타 퍼지 기반 데이터 마이닝 기술은 신경 네트워크 및 인공지능과 [13]함께 자주 사용됩니다.

레퍼런스

  1. ^ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau. Retrieved 2021-10-17.
  2. ^ 1999년, 파일, D.데이터 마이닝을 위한 데이터 준비.모건 카우프만 출판사, 캘리포니아 로스 알토스
  3. ^ Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  4. ^ Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "The impact of signal preprocessing on the final interpretation of analytical outcomes – A tutorial". Analytica Chimica Acta. 1058: 9–17. doi:10.1016/j.aca.2018.10.055. PMID 30851858. S2CID 73727614.
  5. ^ Dou, Deijing and Wang, Hao and Liu, Haishan. "Semantic Data Mining: A Survey of Ontology-based Approaches" (PDF). University of Oregon.{{cite web}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  6. ^ Culmone, Rosario and Falcioni, Marco and Quadrini, Michela (2014). An ontology-based framework for semantic data preprocessing aimed at human activity recognition. SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS). S2CID 196091422.{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  7. ^ David Perez-Rey and Alberto Anguita and Jose Crespo (2006). OntoDataClean: Ontology-Based Integration and Preprocessing of Distributed Data. Biological and Medical Data Analysis. Springer Berlin Heidelberg. pp. 262–272. doi:10.1007/11946465_24.
  8. ^ Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele (2020). "Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model". 2020 IEEE 22nd Conference on Business Informatics (CBI) (PDF). IEEE. pp. 66–75. doi:10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9. S2CID 219499599.{{cite book}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  9. ^ Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine (2020). "Building Ontology-Driven Tutoring Models for Intelligent Tutoring Systems Using Data Mining". IEEE Access. IEEE. 8: 48151–48162. doi:10.1109/ACCESS.2020.2979281. S2CID 214594754.{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  10. ^ Dou, Deijing and Wang, Hao and Liu, Haishan. "Semantic Data Mining: A Survey of Ontology-based Approaches" (PDF). University of Oregon.{{cite web}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  11. ^ Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. "AN ONTOLOGICAL APPROACH TO DATA MINING FOR EMERGENCY MEDICINE" (PDF). University of Waterloo.{{cite web}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  12. ^ Sirichanya, Chanmee and Kraisak Kesorn (2021). "Semantic data mining in the information age: A systematic review". International Journal of Intelligent Systems. 36 (8): 3880–3916. doi:10.1002/int.22443. S2CID 235506360.
  13. ^ Wong, Kok Wai and Fung, Chun Che and Law, Kok Way (2000). "Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model". 2000 TENCON Proceedings. Intelligent Systems and Technologies for the New Millennium (Cat. No.00CH37119). Vol. 1. IEEE. pp. 400–405. doi:10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8. S2CID 10384426.{{cite book}}: CS1 maint: 여러 이름: 작성자 목록(링크)

외부 링크