래퍼(데이터 마이닝)

데이터 마이닝의 래퍼는 비정형적이거나 느슨하게 구성된 정보 출처의 정기적인 서브 콘텐트를 추출해 관계형 형태로 번역해 정형화된 데이터로 처리할 수 있는 절차다.^[1]래퍼 유도는 수작업으로 만들어진 규칙에 대한 의존도를 최소화하면서 자동으로 추출 절차를 고안하는 문제다.

많은 웹 페이지는 사람의 탐색과 탐색을 위해 포맷된 느슨하게 구성된 프리젠테이션 언어(대개 HTML의 일부 변형)로 둘러싸인 구조화된 데이터(전화 디렉토리, 제품 카탈로그 등)에서 자동으로 생성된다.구조화된 데이터는 일반적으로 사이트 프리젠테이션 스킨의 급속하게 진화하는 방식에 따라 높은 수준의 구조가 매주 달라질 수 있는 페이지에 주입되는 낮은 수준의 고정된 템플리트 다음에 웹 페이지에 표시되는 개체들에 대한 설명이다.유동성 높은 수준의 피부와 덜 유동적인 구조화된 데이터 템플릿 사이의 정확한 구분선은 웹 속성에서 컨텐츠 관리 팀 외부에서 공공 소비를 위해 문서화되는 경우가 거의 없다.이러한 자원을 사용하는 소프트웨어 시스템은 HTML 콘텐츠를 관계형 형태로 변환해야 한다.포장지는 그런 번역가로 흔히 쓰인다.형식적으로 포장지는 한 페이지에서 그 안에 들어 있는 튜플의 집합에 이르는 함수다.

래퍼 생성

래퍼 생성에는 래퍼 유도 및 자동 데이터 추출이라는 두 가지 주요 접근법이 있다.래퍼 유도는 감독된 학습을 사용하여 수동으로 라벨이 부착된 교육 사례에서 데이터 추출 규칙을 학습한다.포장지 유도의 단점은

시간이 많이 걸리는 수동 라벨링 프로세스
포장지 유지의 어려움

수동 라벨링 노력 때문에 사이트마다 자체 템플릿이 있고 포장지 학습을 위해 별도의 수동 라벨링이 필요하기 때문에 다수의 사이트에서 데이터를 추출하기 어렵다.사이트가 변경될 때마다 해당 사이트에 대해 구축된 포장지가 구식이 되기 때문에 포장지 유지 보수도 주요 이슈다.이러한 단점들 때문에, 연구원들은 감독되지 않은 패턴 채굴을 이용한 자동 포장지 생성에 대해 연구해왔다.대부분의 웹 데이터 개체가 고정된 템플릿을 따르기 때문에 자동 추출이 가능하다.그러한 템플릿이나 패턴을 발견하면 시스템이 자동으로 추출 작업을 수행할 수 있다.^[2]

웹상의 래퍼 생성은 다양한 어플리케이션의 중요한 문제다.그러한 데이터의 추출은 비교 쇼핑, 객체 검색, 정보 통합과 같은 부가가치 서비스를 제공하기 위해 여러 웹 사이트의 데이터/정보를 통합할 수 있다.

참고 항목

비즈니스 인텔리전스(반정형 또는 비정형 데이터 섹션)
웹 스크래핑

원천

^ 니콜라스 쿠시머릭, 다니엘 S.용접, Robert Doorenbos, Wrapper Inducation for Information Extraction of the International Joint Conference of 인공지능에 관한 국제 공동 회의, 1997
^ 류, B. 웹 데이터 마이닝: 하이퍼링크, 컨텐츠 및 사용 데이터, Springer, 2007.

[1] 니콜라스 쿠시머릭, 다니엘 S.용접, Robert Doorenbos, Wrapper Inducation for Information Extraction of the International Joint Conference of 인공지능에 관한 국제 공동 회의, 1997

[2] 류, B. 웹 데이터 마이닝: 하이퍼링크, 컨텐츠 및 사용 데이터, Springer, 2007.

[1]

[2]

Search

래퍼(데이터 마이닝)

네임스페이스

더

래퍼 생성

참고 항목

원천