스키마 매칭
Schema matching이 글은 주제를 잘 모르는 사람들에게 불충분한 맥락을 제공한다.더하여 할 수 . (2009년 10월)(이 템플리트 |
스키마 매칭과 매핑이라는 용어는 종종 데이터베이스 프로세스에 대해 서로 바꾸어 사용된다.이 글의 경우 다음과 같이 두 가지를 구분한다.스키마 매칭은 두 개 객체가 의미론적으로 연관되어 있음을 확인하는 과정(이 글의 범위)이며, 매핑은 객체 간의 변환을 가리킨다.예를 들어, 두 스키마 DB1에서.학생(이름, SSN, 레벨, 전공, 마크) 및 DB2.Grad-Student(이름, ID, 전공, 등급); 가능한 일치 항목은 DB1일 것이다.학생 ≈ DB2.Grad-Student, DB1.SSN = DB2.ID 등 및 가능한 변환 또는 매핑은 DB1일 것이다.DB2에 표시.등급(100-90A, 90-80B: 등)null
이러한 두 가지 접근 방식을 자동화하는 것은 데이터 통합의 기본 과제 중 하나이다.일반적으로, 두 스키마의 서로 다른 대응관계를 완전히 자동으로 결정하는 것은 불가능하며, 이는 주로 두 스키마의 의미론이 서로 다르고 종종 설명되거나 문서화되지 않기 때문이다.null
장애물
그 중에서도 매칭과 매핑 자동화에 대한 일반적인 어려움은 특히 관계형 DB 스키마에 대해 이전에 에[1] 분류되어 왔으며, 또한[2] 개략도 대 의미론적 차이/히터질성을 인식하는 관계형 모델에 국한되지 않은 상당히 포괄적인 이질성 목록이다.이러한 이질성의 대부분은 스키마가 동일한 정보를 나타내기 위해 서로 다른 표현이나 정의를 사용하기 때문에 존재한다. 또는 서로 다른 표현, 단위, 정밀도는 동일한 데이터의 상충되는 표현(데이터 충돌)을 초래한다.[1]스키마 매칭 연구는 두 스키마 사이의 의미적 매칭을 찾는 과정에 자동화된 지원을 제공하고자 한다.이 과정은 다음과 같은[3] 수준의 이질성으로 인해 더 어렵게 만들어진다.
- 구문 이질성 – 요소를 나타내기 위해 사용되는 언어의 차이
- 구조 이질성 – 요소의 유형, 구조상의 차이
- 모델/표현 이질성 – 기본 모델(데이터베이스, 온톨로지) 또는 그 모델(키-값 쌍, 관계형, 문서형, XML, JSON, 3배, 그래프, RDF, OWL)의 차이
- 의미론적 이질성 – 동일한 실제 실체가 다른 용어를 사용하거나 그 반대로 표현되는 경우
스키마 매칭
방법론
스키마 통합 또는 관련된 활동에 대한 일반적인 방법론을 논의한다.[5]저자들에 따르면 통합은 누구나 볼 수 있다.null
- 사전 통합 — 일부 통합 정책을 결정하기 위해 통합 전에 스키마 분석을 수행한다.이는 통합할 스키마의 선택, 통합 순서 및 전체 스키마 또는 스키마의 일부에 대한 가능한 기본 설정 할당을 좌우한다.
- 스키마의 비교 — 스키마를 분석하고 비교하여 개념들 간의 대응 관계를 결정하고 가능한 충돌을 탐지한다.스키마를 비교하는 동안 스키마 간 속성이 발견될 수 있다.
- 스키마 준수 — 충돌이 감지되면 다양한 스키마의 병합이 가능하도록 충돌을 해결하기 위해 노력한다.
- 병합 및 재구성 — 이제 스키마가 중첩될 준비가 되어 일부 중간 통합 스키마가 생성된다.중간 결과를 분석하고 필요한 경우 몇 가지 바람직한 품질을 달성하기 위해 재구성한다.
접근
스키마 통합에 대한 접근방식은 스키마 정보나 스키마 및 인스턴스 수준 정보를 이용하는 접근방식으로 광범위하게 분류할 수 있다.[4][5]null
스키마 수준 행렬은 인스턴스 데이터가 아닌 스키마 정보만 고려한다.이용 가능한 정보에는 이름, 설명, 데이터 유형, 관계 유형(부품, is-a 등), 제약 조건, 스키마 구조 등 스키마 요소의 일반적인 속성이 포함된다.요소(물체의 속성과 같은 원자적 요소) 또는 구조 수준(구조물에 함께 나타나는 요소의 결합)에서 작업할 때, 이러한 특성은 두 스키마에서 일치하는 요소를 식별하는 데 사용된다.언어에 기반한 또는 언어에 기초한 행렬은 의미론적으로 유사한 스키마 요소를 찾기 위해 이름과 텍스트(즉, 단어 또는 문장)를 사용한다.제약 조건 기반 행렬은 종종 스키마에 포함된 제약 조건을 이용한다.그러한 제약조건은 데이터 유형과 값 범위, 고유성, 옵션성, 관계 유형 및 기준성 등을 정의하는데 사용된다.스키마 요소의 유사성을 판단하기 위해 두 입력 스키마의 제약조건이 일치한다.null
인스턴스 수준 행렬은 인스턴스 수준 데이터를 사용하여 스키마 요소의 내용과 의미에 대한 중요한 통찰력을 수집한다.이것들은 일반적으로 스키마 레벨 매칭 외에도 스키마 레벨에서 이용할 수 있는 정보가 불충분할 때, 매치 결과에 대한 신뢰도를 높이기 위해 스키마 레벨 매칭 외에도 사용된다.이 수준의 행렬은 언어 및 제약에 기초한 인스턴스 특성을 사용한다.예를 들어, 언어 기법을 사용하면 Dept, DeptName 및 EmpName 인스턴스를 검토하여 DeptName이 EmpName보다 DeptName에 더 적합한 후보라고 결론을 내릴 수 있다.우편 번호와 같은 제약조건은 5자리여야 하며, 또는 전화 번호 형식은 그러한 유형의 인스턴스 데이터를 일치시킬 수 있다.[9]null
하이브리드 채터들은 여러 가지 일치 접근방식을 직접 결합하여 여러 기준이나 정보 출처에 근거하여 일치 후보를 결정한다.또한 이러한 기법의 대부분은 사전, 사우리 및 사용자가 제공한 일치 또는 불일치 정보와[10] 같은 추가 정보를 사용한다.
매칭 정보 재사용 또 다른 이니셔티브는 이전 매칭 정보를 향후 매칭 작업의 보조 정보로 재사용하는 것이었다.이 작업의 동기는 예를 들어 전자상거래 영역의 스키마에서 구조나 하부구조가 종종 반복된다는 것이다.그러나 이전 경기의 재사용은 신중한 선택이 필요하다.그러한 재사용이 새로운 스키마의 일부에 대해서만 또는 일부 도메인에서만 타당할 수 있다.예를 들어 급여와 소득은 급여 신청서에서는 동일하지만 세금 신고서에서는 동일하지 않은 것으로 간주될 수 있다.그러한 재사용에는 더 많은 작업을 할 가치가 있는 몇 가지 개방된 과제가 있다.null
샘플 프로토타입 일반적으로 이러한 일치 기법의 구현은 규칙 기반 또는 학습자 기반 시스템으로 분류될 수 있다.이러한 서로 다른 접근법의 보완적 특성은 고려 중인 도메인이나 응용 프로그램의 특성에 따라 기법의 조합을 사용하는 다수의 응용프로그램을 유발하였다.[4][5]null
식별된 관계
일치 과정의 끝에 식별되는 개체 간의 관계 유형은 일반적으로 중첩, 불연속성, 배제, 동등성 또는 하위합계와 같은 의미론을 갖는 유형이다.이러한 관계의 논리적인 인코딩은 그들이 의미하는 것이다.그 중에서도 스키마 통합과 그러한 관계 파악을 위해 설명 로직을 사용하려는 초기 시도가 제시되었다.[11]오늘날[4][7] 여러 가지 아트 매칭 툴과 온톨로지 정렬 평가 이니셔티브에서[12] 벤치마킹된 툴은 여러 가지 단순한(1:1 / 1:n / n:1 요소 레벨 일치)와 복잡한 객체 간 매칭(n:1 / n:m 요소 레벨 일치 또는 구조 레벨 일치)을 식별할 수 있다.null
품질평가
스키마 매칭의 품질은 일반적으로 정밀도와 리콜로 측정된다.정밀도는 일치된 모든 쌍 중 정확히 일치하는 쌍의 수를 측정하지만, 리콜은 실제 쌍 중 몇 개가 일치했는지를 측정한다.null
참고 항목
참조
- ^ a b Kim, W. & Seo, J. (Dec 1991). "Classifying Schematic and Data Heterogeneity in Multidatabase Systems.". Computer 24, 12.
- ^ Sheth, A. P. & Kashyap, V. (1993). "So Far (Schematically) yet So Near (Semantically)". In Proceedings of the IFIP WG 2.6 Database Semantics Conference on interoperable Database Systems.
- ^ Sheth, A. P. (1999). "Changing Focus on Interoperability in Information Systems: From System, Syntax, Structure to Semantics". In Interoperating Geographic Information Systems. M. F. Goodchild, M. J. Egenhofer, R. Fegeas, and C. A. Kottman (eds.), Kluwer, Academic Publishers.
- ^ a b c d Rahm, E. & Bernstein, P (2001). "A survey of approaches to automatic schema matching". The VLDB Journal 10, 4.
- ^ a b c d Batini, C., Lenzerini, M., and Navathe, S. B. (1986). "A comparative analysis of methodologies for database schema integration.". ACM Comput. Surv. 18, 4.
{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Doan, A. & Halevy, A. (2005). "Semantic-integration research in the database community". AI Mag. 26, 1.
- ^ a b Kalfoglou, Y. & Schorlemmer, M. (2003). "Ontology mapping: the state of the art". Knowl. Eng. Rev. 18, 1.
- ^ Choi, N., Song, I., and Han, H. (2006). "A survey on ontology mapping". SIGMOD Rec. 35, 3.
{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Pereira Nunes, Bernardo; Mera, Alexander; Casanova, Marco Antonio; P. Paes Leme, Luis Andre; Dietze, Stefan (2013). "Complex Matching of RDF Datatype Properties". Database and Expert Systems Applications - 24th International Conference. Lecture Notes in Computer Science. 8055: 195–208. doi:10.1007/978-3-642-40285-2_18. ISBN 978-3-642-40284-5.
- ^ Hamdaqa, Mohammad; Tahvildari, Ladan (2014). "Prison Break: A Generic Schema Matching Solution to the Cloud Vendor Lock-in Problem". IEEE 8th International Symposium on the Maintenance and Evolution of Service-Oriented and Cloud-Based Systems: 37–46. doi:10.1109/MESOCA.2014.13. ISBN 978-1-4799-6152-8. S2CID 14499875.
- ^ Ashoka Savasere; Amit P. Sheth; Sunit K. Gala; Shamkant B. Navathe; H. Markus (1993). "On Applying Classification to Schema Integration". RIDE-IMS.
- ^ 온톨로지 정렬 평가 이니셔티브::2006