기록연계

레코드 링크(데이터 매칭, 엔티티 해결 및 기타 여러 용어로도 알려져 있음)는 서로 다른 데이터 소스(예: 데이터 파일, 책자, 웹사이트 및 데이터베이스)에 걸쳐 동일한 엔티티를 참조하는 데이터 세트에서 레코드를 찾는 작업이다.기록 형태, 저장 위치 또는 큐레이터 스타일이나 선호도의 차이로 인해 공통 식별자(예: 데이터베이스 키, URI, 국민 식별 번호)를 공유할 수 있거나 공유할 수 없는 실체에 따라 서로 다른 데이터 세트를 결합할 때 기록 연계가 필요하다.RL 지향적인 조정을 거친 데이터 세트를 상호연계라고 할 수 있다.기록연계를 많은 관할구역에서 데이터연계라고 부르지만, 두 가지는 동일한 과정이다.null

명명 규칙

"기록연계"는 통계학자, 역학학자, 역사가 등이 같은 실체를 기술하는 다른 데이터 출처의 기록과 결합하는 과정을 기술하기 위해 사용하는 용어다.그러나 이 과정에는 다른 많은 용어들이 사용된다.불행히도, 이러한 용어의 풍부함은 이러한 연구 공동체들 간의 상호 참조를 거의 유발하지 않았다.^[1]^[2]null

컴퓨터 과학자들은 종종 그것을 "데이터 매칭" 또는 "객체 정체성 문제"라고 부른다.상업용 메일 및 데이터베이스 애플리케이션은 이를 "merge/purge 처리" 또는 "list washing"이라고 부른다.동일한 개념을 설명하는 데 사용되는 다른 이름으로는 "핵심/엔티티/아이덴티티/이름/기록 해상도", "entity disabigation/linking", "fuzzy matching", "deduplicate detection", "deduplication", "record matching", "(참조) confilation"^[3] 등이 있다.null

그들은 비슷한 이름을 공유하지만, 기록 연계와 연계된 데이터는 데이터를 처리하고 구조화하는 두 가지 접근방식이다.비록 둘 다 서로 다른 데이터 집합에 걸쳐 일치하는 실체를 식별하는 것을 포함하지만, 기록 연결은 기본적으로 인간 개인과의 "특성"을 동일시한다. 반대로 Linked Data는 데이터 집합 간에 웹 자원을 연동할 수 있는 가능성에 기초하며, 그에 상응하게 광범위한 식별자 개념, 즉 URI를 사용한다.

역사

레코드 연계의 초기 아이디어는 할버트 L으로 거슬러 올라간다. 던은 1946년 미국 공중보건 저널에 게재된 "기록 연계"라는 제목의 기사에서 이렇게 말했다.^[4]null

그 후 하워드 보든 뉴콤브는 1959년 사이언스지에 실린 논문에서 현대 기록 연계 이론의 확률론적 토대를 마련했다.^[5]이것들은 1969년 이반 펠레기와 앨런 선터에 의해 그들의 선구적 연구 "기록 연계를 위한 이론"에서 공식화되었는데, 여기서 그들은 비교 속성이 조건적으로 독립적일 때 그들이 기술한 확률론적 의사결정 규칙이 최적이라는 것을 증명했다.^[6]그들의 작업에서 그들은 컴퓨팅과 자동화에 대한 진보된 관심을 대규모의 행정자료 수집에 적용하는 것에 대한 증가하는 관심을 인식했고, 펠레기-순터 이론은 많은 기록 연계 어플리케이션의 수학적 토대가 되고 있다.null

1990년대 후반부터, 좋은 조건 하에서 펠레기-선터 이론이 요구하는 조건부 확률을 추정하는 데 사용될 수 있는 다양한 기계 학습 기법이 개발되었다.몇몇 연구자들은 펠레기-선터 알고리즘의 조건부 독립성 가정이 실제로 종종 위반된다고 보고했지만, 비교 속성들 간의 조건부 의존성을 명시적으로 모델링하려는 노력이 기록 연계 품질의 개선을 가져오지는 않았다.^{[citation needed]}반면에, 이러한 가정에 의존하지 않는 기계 학습이나 신경 네트워크 알고리즘은 라벨이 부착된 충분한 훈련 데이터를 이용할 수 있을 때 훨씬 높은 정확도를 제공하는 경우가 많다.^[7]null

레코드 연계는 전적으로 컴퓨터의 도움 없이 이루어질 수 있지만, 컴퓨터가 레코드 연동을 완료하는 데 종종 사용되는 주된 이유는 수동 검토를 줄이거나 제거하고 결과를 보다 쉽게 재현하기 위해서입니다.컴퓨터 매칭은 처리의 중앙 관리, 더 나은 품질 관리, 속도, 일관성, 그리고 결과의 더 나은 재현성을 허용한다는 장점이 있다.^[8]null

방법들

데이터 사전 처리

기록 연계는 연결되는 데이터의 품질에 매우 민감하므로 검토 중인 모든 데이터 세트(특히 핵심 식별자 필드)는 기록 연계에 앞서 이상적으로 데이터 품질 평가를 받아야 한다.동일 실체에 대한 많은 핵심 식별자는 데이터 집합 간에 (그리고 심지어 내부에서도) 상당히 다르게 표시될 수 있으며, 이는 사전에 파악되지 않는 한 기록 연계를 크게 복잡하게 만들 수 있다.예를 들어 William J. Smith라는 남자의 주요 식별자는 다음과 같이 세 가지 다른 데이터 세트에 나타날 수 있다.

데이터 세트	이름	출생의 날짜.	거주 도시
데이터 세트 1	윌리엄 J. 스미스	1/2/73	캘리포니아 버클리
데이터 세트 2	스미스, W. J.	1973.1.2	캘리포니아 버클리
데이터 세트 3	빌 스미스	1973년 1월 2일	캘리포니아 주 버클리.null

이 예에서 서로 다른 형식 지정 스타일은 다르게 보이는 레코드로 이어지지만 사실 모두 동일한 논리 식별자 값을 가진 동일한 엔터티를 가리킨다.대부분의 경우, 전부는 아닐지라도, 기록 연계 전략은 이러한 값이 처음 정규화되거나 일관된 형식(예: 모든 이름은 "Surname, Given name"이고 모든 날짜는 "YYYY/MM/DD")으로 표준화되면 보다 정확한 연계를 초래할 것이다.표준화는 단순한 규칙 기반 데이터 변환이나 어휘 기반 토큰화, 확률론적 숨겨진 마르코프 모델과 같은 보다 복잡한 절차를 통해 달성될 수 있다.^[9]소프트웨어 구현 섹션에 나열된 패키지 중 몇 개는 데이터 표준화 프로세스를 단순화하기 위해 이러한 기능 중 일부를 제공한다.null

엔티티 결의

엔티티 해결은 일반적으로 엔티티 해결 엔진이나 미들웨어에 의해 구동되는 운영 인텔리전스 프로세스로서, 조직은 여러 데이터 사일로에서 가능한 엔티티 일치 및 비확실성 관계를 이해하기 위해 상이한 데이터 소스를 연결할 수 있다.여러 데이터 출처의 개인 및/또는 실체와 관련된 모든 정보를 분석한 다음, 가능성 및 확률 점수를 적용하여 어떤 ID가 일치하는지, 그리고 그러한 ID 사이에 어떤, 명백한 관계가 있는지 판단한다.null

기업 해결 엔진은 일반적으로 위험, 사기 및 이해 상충을 파악하기 위해 사용되지만, 고객 데이터 통합(CDI) 및 마스터 데이터 관리(MDM) 요구사항 내에서 사용하기 위한 유용한 도구이기도 하다.기업 해결 엔진의 대표적인 용도는 테러리스트 심사, 보험 사기 탐지, 미국 애국법 준수, 조직화된 소매 범죄 탐지, 신청자 심사 등이다.null

예를 들면 다음과 같다.서로 다른 데이터 사일로(직원 기록, 공급업체 데이터, 감시 목록 등)에 걸쳐 조직은 ABC라는 이름의 여러 기업 변형을 가질 수 있으며, 이는 동일한 개인일 수도 있고 아닐 수도 있다.이러한 항목은 데이터 소스 내에서 ABC1, ABC2 또는 ABC3으로 나타날 수 있다.주소, 생년월일 또는 사회 보장 번호와 같은 기본 속성 간의 유사성을 비교함으로써 사용자는 가능한 일치 항목을 제거하고 다른 일치 항목을 매우 가능성 있는 일치 항목으로 확인할 수 있다.null

그런 다음 기업 해결 엔진은 상식 논리에 근거한 규칙을 적용하여 데이터 전체에 걸쳐 숨겨진 관계를 식별한다.위의 예에서 아마도 ABC1과 ABC2는 동일한 개인이 아니라 주소나 전화번호와 같은 공통의 속성을 공유하는 두 개의 뚜렷한 사람일 것이다.null

데이터 매칭

기업 결의 솔루션은 데이터 일치 기술을 포함하지만, 많은 데이터 일치 오퍼링은 기업 결의의 정의에 맞지 않는다.존 탈버트 UALR 기업 결의 및 정보 품질 연구 센터의 소장에 따르면, 다음은 기업 결의와 데이터 일치를 구분하는 네 가지 요소라고 한다.

정형 및 비정형 레코드와 함께 작동하며, 원본이 비정형 또는 반정형일 때 참조를 추출하는 프로세스를 수반함
누락, 충돌 및 손상된 정보를 처리하기 위해 정교한 비즈니스 규칙 및 개념 모델 사용
직접 매칭 외에 비매칭, 어설픈 연결(연계) 정보 활용
비확실성 관계 및 연결 네트워크(즉, 누구와 연관되어 있는지)를 탐색하지 않음

데이터 품질 제품과 대조적으로, 보다 강력한 ID 해결 엔진은 또한 해결된 ID와 그들의 관계에 비즈니스 인텔리전스를 적용하는 규칙 엔진과 워크플로우 프로세스를 포함한다.이러한 첨단 기술은 자동화된 의사결정을 내리고 비즈니스 프로세스에 실시간으로 영향을 미침으로써 인간의 개입 필요성을 제한한다.null

결정론적 기록 연계

결정론적 또는 규칙 기반 레코드 링크라고 불리는 가장 단순한 종류의 레코드 연결은 사용 가능한 데이터 세트들 사이에 일치하는 개별 식별자의 수에 기초하여 링크를 생성한다.^[10]모든 식별자 또는 일부 식별자(특정 임계값 이상)가 동일한 경우 결정론적 기록 연결 절차를 통해 두 개의 기록이 일치한다고 한다.결정론적 기록 연계는 데이터 집합의 실체가 공통 식별자로 식별될 때 또는 데이터 품질이 상대적으로 높은 대표적인 식별자(예: 이름, 생년월일, 사람 식별 시 성별)가 여럿 있을 때 좋은 옵션이다.null

예를 들어, 병원 시스템의 환자에 대한 서로 다른 정보를 포함하는 두 가지 표준화된 데이터 세트인 Set A와 Set B를 생각해 보십시오.이 두 데이터 세트는 사회보장번호(SSN), 이름, 생년월일(DOB), 성별, ZIP(ZIP) 등 다양한 식별자를 사용하여 환자를 식별한다.("#" 열로 식별되는) 두 데이터 세트의 레코드는 다음과 같다.

데이터 세트	#	SSN	이름	DOB	섹스	ZIP
A 설정	1	000956723	스미스, 윌리엄	1973/01/02	남성	94701
	2	000956723	스미스, 윌리엄	1973/01/02	남성	94703
	3	000005555	존스, 로버트	1942/08/14	남성	94701
	4	123001234	수, 메리	1972/11/19	여성	94109
세트 B	1	000005555	존스, 밥	1942/08/14
세트 B	2		스미스, 빌	1973/01/02	남성	94701

가장 단순한 결정론적 기록 연계 전략은 SSN이라고 하면 고유하게 식별된다고 가정되는 단일 식별자를 선택하고, 동일한 가치를 공유하는 레코드가 동일한 사람을 식별하고, 동일한 가치를 공유하지 않는 레코드가 다른 사람을 식별한다고 선언하는 것이다.이 예제에서 SSN에 기초한 결정론적 연결은 A1과 A2, A3과 B1, 그리고 A4에 기초한 실체를 만들 것이다.A1, A2, B2는 동일한 실체를 나타내는 것으로 보이지만, B2는 SSN에 대한 값이 누락되어 있기 때문에 경기에 포함되지 않을 것이다.

식별자 누락과 같은 예외 처리에는 추가 레코드 연결 규칙의 생성이 포함된다.SSN 누락의 경우 그러한 규칙 중 하나는 일치점을 찾기를 희망하여 이름, 생년월일, 성별 및 우편번호를 다른 기록과 비교하는 것일 수 있다.위의 예에서 이 규칙은 이름이 여전히 약간 다르기 때문에 여전히 A1/A2와 B2와 일치하지 않을 것이다: 표준화는 이름을 적절한 (Surname, Given name) 형식에 넣었지만 "빌"을 "윌리엄"의 별칭으로 구별할 수 없다.사운덱스, NYSIIS, 은유와 같은 음성 알고리즘을 통해 이름을 달리하면 이러한 유형의 문제를 해결하는 데 도움이 될 수 있지만(아직 결혼이나 이혼의 결과로 성이 바뀌지 않을 수도 있지만), 그러면 B2는 A2의 우편번호가 다르기 때문에 A1과만 일치하게 된다.따라서 특정 식별자의 차이가 허용 가능한지(예: ZIP 코드)와 그렇지 않은지(예: 생년월일)를 결정하기 위해 다른 규칙을 만들어야 한다.null

이 예에서 알 수 있듯이, 데이터 품질이 조금만 떨어지거나 데이터의 복잡성이 조금만 증가해도 레코드를 적절히 연결하는데 필요한 규칙의 수가 매우 크게 증가할 수 있다.결국, 이러한 연결 규칙은 전문화된 소프트웨어 도구의 도움 없이 구축하기에는 너무 많고 상호 관련될 것이다.또한 연결 규칙은 서로 연결하도록 설계된 데이터 세트의 특성에 특정되는 경우가 많다.한 연구는 SSN, NYSIIS로 인코딩된 이름, 생년월, 성별을 사용하여 미국 중서부 지역의 두 병원 레지스트리와 사회보장 사망 마스터 파일을 연결할 수 있었지만, 이러한 규칙은 다른 지리적 지역의 데이터 집합이나 젊은 모집단에 대한 데이터 수집과 잘 작동하지 않을 수 있다.^[11]따라서 새로운 데이터가 시스템에 유입될 때 이러한 규칙들이 예상대로 계속 작동하는지 확인하기 위해 이러한 규칙의 지속적인 유지관리 시험이 필요하다.처음에 예상한 것과 다른 특성을 보이는 새로운 데이터는 기록 연계 규칙 집합의 완전한 재구축이 요구될 수 있으며, 이는 매우 시간이 오래 걸리고 비용이 많이 드는 작업이 될 수 있다.null

확률적 기록 연계

퍼지 매칭(데이터베이스의 병합 맥락에서 확률론적 병합 또는 퍼지 병합)이라고도 하는 확률론적 레코드 연결은 정확한 추정 능력에 기초하여 각 식별자에 대한 가중치를 계산하는 광범위한 잠재적 식별자를 고려함으로써 기록 연결 문제에 대한 다른 접근방식을 취한다.일치 또는 불일치를 식별하고, 주어진 두 개의 기록이 동일한 실체를 나타낼 확률을 계산하기 위해 이 가중치를 사용한다.특정 임계값을 초과하는 확률의 레코드 쌍은 일치하는 것으로 간주되는 반면, 다른 임계값보다 낮은 확률을 가진 쌍은 일치하지 않는 것으로 간주된다. 이 두 임계값 사이에 속하는 쌍은 "가능한 일치"로 간주되며 그에 따라 처리될 수 있다(예: 인간 검토, 연결 또는 연결되지 않은 쌍은 의존함).요건에 따라.결정론적 기록 연계는 잠재적으로 복잡한 일련의 규칙을 미리 프로그래밍해야 하는 반면에, 확률론적 기록 연계 방법은 인간의 개입을 훨씬 적게 하여 잘 수행하도록 "훈련"될 수 있다.null

많은 확률론적 기록 연결 알고리즘은 $u$ $u$ 과 $u$ $m$ $m$ 이라는 두 가지 확률로 일치/비일치 가중치를 식별자에 할당한다 $m$ $u$ $u$ 확률은 $u$ 두 비매칭 레코드의 식별자가 순전히 우연히 일치할 확률이다.예를 들어 생년월 $u$ $u$ 확률 $u$ (약간 균일하게 분포된 값이 12개인 경우)은 $1/12\approx 0.083$ 1/ $1/12\approx 0.083$ $1/12\approx 0.083$ $[\displaystyle 1/12\$ 약 $0.083}$ 이다 $1/12\approx 0.083$ 균일하게 분포되지 않은 값을 가진 식별자는 서로 다른 $u$ $u$ 확률을 $u$ 갖는다.값(결측값 포함) $m$ $m$ 확률은 $m$ 일치 쌍의 식별자가 일치할 확률이다(또는 자로-윙클러 또는 레벤슈테인 거리가 낮은 문자열과 같이 충분히 유사하다).이 값은 $완벽$ 한 데이터의 경우 $1.0$ 1.0 $[\displaystyle$ 1.0 $}$ 이 될 것이지만, 이 값이 거의 (있을 경우) 사실인 것을 감안하면 대신 추정할 수 있다.이 추정은 데이터 세트에 대한 사전 지식을 기반으로, 확률론적 기록 연결 알고리즘을 "훈련"하기 위해 다수의 일치 쌍과 비매칭 쌍을 수동으로 식별하거나, $m$ $m$ 확률의 $m$ 더 가까운 추정을 얻기 위해 알고리즘을 반복적으로 실행하여 수행할 수 있다. $m$ $m$ 확률에 $m$ 대해 $0 .95$ ${\displaystyle$ 0 $.95}$ 의 값을 추정할 경우 $0.95$ 생년월 식별자에 대한 일치/비일치 가중치는 다음과 같아야 한다.

결과	링크 비율	비링크 비율	주파수비	무게
매치	$m=0.95$	$0.083년 경의 디스플레이 스타일 u\ 약 0.083}$	$약 11.4의 디스플레이 스타일 m/displaystyle m/u\}$	$\log _{2}{m/u}\ 약 3.51$
불일치	$1-m=0.05}$	$1-u\ 약 0.917}$	$[\displaystyle(1-m)/(1-u)\ 약 0.0545}$	$\log _{2}{(1-m)/(1-u)}\약 -4.20$

고려 중인 다른 모든 식별자에 대해서도 동일한 계산을 수행하여 일치/비일치 가중치를 찾을 수 있다.그런 다음 한 레코드의 모든 식별자를 다른 레코드의 해당 식별자와 비교하여 쌍의 총 가중치를 계산한다. 즉, 식별자 쌍이 동의할 때마다 일치 가중치가 실행 총계에 추가되는 반면, 불일치 가중치는 쌍이 동의하지 않을 때마다 추가된다(즉, 실행 총계는 감소).그 결과 총 중량은 앞에서 언급한 임계값과 비교하여 쌍이 연결되어야 하는지, 연결되지 않아야 하는지 또는 특별한 고려를 위해 따로 두어야 하는지(예: 수동 유효성 검사)를 결정한다.^[12]null

일치/비일치 임계값을 설정할 위치를 결정하는 것은 허용 가능한 민감도(또는 호출, 알고리즘에 의해 연결되는 진정으로 일치하는 레코드의 비율) 획득과 양의 예측 값(또는 정밀도, 실제로 일치하는 알고리즘에 의해 연결된 레코드의 비율) 사이의 균형 조정 작용이다.최적의 임계값을 예측하기 위해 다양한 수동 및 자동화된 방법을 사용할 수 있으며, 일부 레코드 링크 소프트웨어 패키지에는 사용자가 가장 수용할 수 있는 값을 찾을 수 있도록 도와주는 도구가 내장되어 있다.이것은 특히 큰 데이터 세트의 경우, 매우 계산적으로 까다로운 작업이 될 수 있기 때문에, 차단으로 알려진 기법은 효율을 향상시키기 위해 종종 사용된다.차단은 특히 구별되는 식별자가 한 명 이상 동의하는 기록만으로 비교를 제한하려고 시도하는데, 이는 민감도(리콜)를 희생하여 양의 예측 값(정밀)을 증가시키는 효과가 있다.^[12]예를 들어 음성 코드의 성(Seametic code)과 ZIP(Zip) 코드에 기반하여 차단하면 필요한 총 비교 횟수가 감소하고 (두 식별자가 이미 동의하기 때문에) 연결된 레코드가 정확할 가능성이 높아지지만, 성이나 ZIP 코드가 서로 다른 동일한 사람을 지칭하는 레코드를 놓칠 가능성이 있다(mar로 인해).예를 들어, 리지 또는 이전.데이터 오류의 경우에만 변경될 것으로 예상되는 보다 안정적인 식별자 생년월 기준 블럭화는 긍정적인 예측 값과 민감도 상실을 보다 적게 제공하지만, 매우 큰 데이터 집합의 경우 계산 속도를 크게 개선하지 못하는 12개의 개별 그룹만 생성될 수 있다.따라서, 강력한 기록 연계 시스템은 서로 비교해야 할 기록의 그룹을 만들기 위해 다양한 방법으로 그룹 데이터에 다중 차단 패스를 사용하는 경우가 많다.null

머신러닝

최근 몇 년 동안 다양한 머신러닝 기법이 기록 연계에 활용되고 있다.위에서 설명한 확률론적 기록 연계를 위한 고전적인 펠레기-선터 알고리즘이 머신러닝 분야의 순진한 베이즈 알고리즘과 동일하며,^[13] 그 특징의 독립성에 대한 동일한 가정(일반적으로 사실이 아닌 가정)^[14]^[15]에 시달린다는 사실이^[7] 인정되었다.더 높은 정확도는 종종 단층셉트론을 포함한 다양한 다른 기계 학습 기법을 사용함으로써 얻을 수 있다.^[7]분산기술과 연계해 기록연계를 위한 정확성과 규모를 한층 더 개선할 수 있다.^[16]null

수학적 모형

A와 B라는 두 개의 파일이 있는 애플리케이션에서 행( $\alpha (a)$ )을 A 파일에서는 $\alpha (a)$ $\alpha (a)$ ) ${\displaystyle \alpha(a)},$ B 파일에서는 $\beta (b)$ $\beta (b)$ $\beta(b)$ 만큼 나타낸다. $각$ 레코드에 K $K$ 특성을 $K$ 할당하십시오.동일한 실체를 나타내는 레코드 집합은 다음과 같이 정의된다.

$M=\왼쪽\{(a,b);a=b;a\in A;b\in B\right\}$

그리고 다른 엔터티를 나타내는 $U$ $세트$ M $M$ 의 $M$ 보완은 다음과 같이 정의된다.

$U=\{(a,b);a\neq b;a\in A;b\in B\}$ = $U=\{(a,b);a\neq b;a\in A;b\in B\}$ { $U=\{(a,b);a\neq b;a\in A;b\in B\}$ ( $U=\{(a,b);a\neq b;a\in A;b\in B\}$ , b $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ $U=\{(a,b);a\neq b;a\in A;b\in B\}$ ${\displaystyle U=\{(a,b);a;neq b;a;b\in$ B $U=\{(a,b);a\neq b;a\in A;b\in B\}$

벡터, $\gamma$ $\gamma$ 이(가) 정의되며 $\gamma$ , 이 벡터는 각 특성에 대한 코드화된 합의와 불일치를 포함한다.

$\displaystyle \gamma \left[\alpha(a),\beta(b)\right]=\\\\\gamma ^{1}\lft[\alpha(a),\b)\right]\\\\\\\\\\\\\\\\\\\\ftime]}}$

여기서 $K$ $K$ 은 $K$ (는) 파일의 특성(성, 나이, 결혼 상태 등)을 나타내는 첨자이다.주어진 $\gamma$ 특정 벡터 $\gamma$ $\gamma$ 을(를 $(a,b)\in M$ 관찰하는 조건부 확률은 (, $(a,b)\in U$ $(a,b)\in M$ ) $(a,b)\in M$ ${\displaystyle (a,b)\in M},$ $(a,b)\in U$ ) $(a,b)\in U$ ${\displaystyle (a,b)\in$ U $}$ 로 정의된다 $(a,b)\in U$ .

$m(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right] (a,b)\in M\right\}=\sum _{(a,b)\in M}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b) M\right]$

그리고

${\displaystyle u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right] (a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b) U$ $\right]}$ 각각 $u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right],$ .^[6]null

적용들

마스터 데이터 관리

대부분의 마스터 데이터 관리(MDM) 제품은 기록 연계 프로세스를 사용하여 동일한 실제 실체를 대표하는 다른 출처의 기록을 식별한다.이 연계는 기업에 대한 정리되고 조정된 데이터를 포함하는 "황금 마스터 레코드"를 만드는 데 사용된다.MDM에서 사용되는 기법은 일반적으로 기록 연계 기법과 동일하다.MDM은 이 매칭을 확장하여 "황금 마스터 레코드"를 만들 뿐만 아니라 관계를 유추한다.(즉, 성(性)이 동일하고 주소/주소가 동일하며, 이는 가구관계를 공유하는 것을 의미할 수 있다.)null

데이터 웨어하우징 및 비즈니스 인텔리전스

기록 연계는 데이터 웨어하우징과 비즈니스 인텔리전스에 핵심적인 역할을 한다.데이터 웨어하우스는 여러 다른 운영 소스 시스템의 데이터를 하나의 논리적 데이터 모델로 결합하는 역할을 하며, 이후 보고 및 분석을 위해 비즈니스 인텔리전스 시스템으로 공급될 수 있다.각 운용 소스 시스템은 논리적 데이터 모델에 사용되는 동일한 실체를 식별하는 고유한 방법을 가질 수 있으므로, 한 소스 시스템에서 특정 실체에 대한 정보가 다른 소스 시스템에서 동일한 실체에 대한 정보와 원활하게 비교될 수 있도록 서로 다른 출처 간의 기록 연계가 필요하게 된다.e 시스템데이터 표준화 및 후속 기록 연계는 추출, 변환, 부하(ETL) 프로세스의 "변환" 부분에서 종종 발생한다.null

역사연구

인구조사 기록이나 교구등록부와 같은 대부분의 데이터 세트는 주민등록번호가 발명되기 훨씬 전에 기록되었기 때문에 기록 연계는 사회사 연구에 중요하다.오래된 소스가 디지털화되면 데이터 집합의 연계는 종적 연구의 전제조건이다.이 과정은 종종 이름의 표준 철자가 부족하고, 거주지에 따라 변하는 성씨, 행정 경계의 변경, 그리고 다른 출처에 대한 자료 확인의 문제 등으로 인해 더욱 복잡해진다.기록 연계는 1980년대 역사와 컴퓨터 분야에서 가장 두드러진 주제 중 하나였지만, 그 이후 연구에서는 관심을 덜 받게 되었다.^{[citation needed]}null

의료실무 및 연구

기록 연계는 공공의 건강 및 의료 시스템 자체의 건강 검사에 필요한 데이터를 생성하는데 중요한 도구다.데이터 보유, 데이터 수집, 품질 평가, 정보 보급 등의 개선에 활용할 수 있다.중복 기록을 없애고, 과소 보고 및 누락 사례(예: 인구조사 수)를 식별하고, 사람 중심의 건강 통계를 작성하며, 질병 등록제와 건강 감시 시스템을 생성하기 위해 데이터 소스를 검사할 수 있다.일부 암 등록국은 등록부를 생성하기 위해 다양한 데이터 출처(예: 병원 입원, 병리학 및 임상 보고서, 사망 등록)를 연결한다.기록 연계는 건강 지표 작성에도 사용된다.예를 들어, 태아 사망률과 유아 사망률은 한 나라의 사회경제적 발전, 공중 보건, 모성 및 아동 서비스의 일반적인 지표다.영아 사망기록부를 출생기록과 일치시킬 경우 사망원인 등 사망률 데이터와 함께 출생중량, 임신연령 등 출생 변수를 활용할 수 있다.연결은 중요한 상태, 거주지 상태 또는 건강 예후와 같은 요인을 결정하기 위한 코호트 또는 다른 그룹의 후속 연구에 도움이 될 수 있다.사망 및/또는 암의 원인을 얻기 위한 산업용 코호트, 임상시험 및 종적 조사의 후속 작업에 추적이 종종 필요하다.인구 기반 의료 연구를 가능하게 하는 성공적이고 오랜 기록 연계 시스템의 한 예가 미네소타 주 로체스터에 본부를 둔 로체스터 역학 프로젝트다.^[17]null

기존 소프트웨어 구현에 대한 비판

인용되는 주요 이유는 다음과 같다.^{[citation needed]}

프로젝트 비용: 일반적으로 수십만 달러의 비용
시간: 대규모 데이터 클렌징 소프트웨어 처리 시간 부족
보안: 정보 공유, 시스템 간 애플리케이션 액세스 제공 및 레거시 시스템에 미치는 영향에 대한 우려
확장성:레코드에 고유 식별자가 없기 때문에 레코드 연계는 계산적으로 비용이 많이 들고 확장하기 어렵다.^[18]
정확도:비즈니스 데이터를 변경하고 모든 연결 규칙을 캡처하는 것은 어렵고 광범위한 작업이다.

참고 항목

참고 및 참조

^ Christen, P&T: Febrl - 자유롭게 확장 가능한 생물의학 기록 링크(수동, 릴리스 0.3) 페이지 9
^ Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (January 2007). "Duplicate Record Detection: A Survey" (PDF). IEEE Transactions on Knowledge and Data Engineering. 19 (1): pp. 1–16. doi:10.1109/tkde.2007.250581. S2CID 386036. Retrieved 2009-03-30.
^ http://homes.cs.washington.edu/~pedrod/padm/icdm06.pdf
^ Dunn, Halbert L. (December 1946). "Record Linkage". American Journal of Public Health. 36 (12): pp. 1412–1416. doi:10.2105/AJPH.36.12.1412. PMC 1624512. PMID 18016455.
^ Newcombe, H. B.; J.M. Kennedy; S.J. Axford; A. P. James (October 1959). "Automatic Linkage of Vital Records". Science. 130 (3381): 954–959. Bibcode:1959Sci...130..954N. doi:10.1126/science.130.3381.954. PMID 14426783.
^ ^a ^b Fellegi, Ivan; Sunter, Alan (December 1969). "A Theory for Record Linkage" (PDF). Journal of the American Statistical Association. 64 (328): pp. 1183–1210. doi:10.2307/2286061. JSTOR 2286061.
^ ^a ^b ^c Wilson, D. Randall, D. Randall (July 31 – August 5, 2011). Beyond Probabilistic Record Linkage: Using Neural Networks and Complex Features to Improve Genealogical Record Linkage (PDF). Proceedings of International Joint Conference on Neural Networks. San Jose, California, USA.
^ Winkler, William E. "Matching and Record Linkage" (PDF). U.S. Bureau of the Census. Retrieved 12 November 2011.
^ Churches, Tim; Peter Christen; Kim Lim; Justin Xi Zhu (13 December 2002). "Preparation of name and address data for record linkage using hidden Markov models". BMC Medical Informatics and Decision Making. 2: 9. doi:10.1186/1472-6947-2-9. PMC 140019. PMID 12482326.
^ Roos, LL; Wajda A (April 1991). "Record linkage strategies. Part I: Estimating information and evaluating approaches". Methods of Information in Medicine. 30 (2): 117–123. doi:10.1055/s-0038-1634828. PMID 1857246.
^ Grannis, SJ; Overhage JM; McDonald CJ (2002). "Analysis of identifier performance using a deterministic linkage algorithm". Proc AMIA Symp.: 305–9. PMC 2244404. PMID 12463836.
^ ^a ^b Blakely, Tony; Salmond, Clare (December 2002). "Probabilistic record linkage and a method to calculate the positive predictive value". International Journal of Epidemiology. 31 (6): 1246–1252. doi:10.1093/ije/31.6.1246. PMID 12540730.
^ 퀘스, 달란, 스타키, 폴2003년 8월 24-27일 워싱턴 D.C. ACM SIGKDD '03 데이터 청소, 레코드 연결 및 객체 통합에 관한 워크숍'
^ 랭글리, 팻, 웨인 이바, 케빈 톰슨.제10차 인공지능 전국회의(AAAI-92)의 진행 중인 "베이지안 분류자 분석" AAAI 언론/MIT 프레스, 캠브리지, MA, 223-228페이지, 1992.
^ Michie, D.; Spiegelhalter, D.; Taylor, C. (1994). Machine Learning, Neural and Statistical Classification. Hertfordshire, England: Ellis Horwood. ISBN 0-13-106360-X.
^ "Fuzzy Matching With Spark". Spark Summit.
^ St. Sauver JL; Grossardt BR; Yawn BP; Melton LJ 3rd; Pankratz JJ; Brue SM; Rocca WA (2012). "Data Resource Profile: The Rochester Epidemiology Project (REP) medical records-linkage system". Int J Epidemiol. 41 (6): 1614–24. doi:10.1093/ije/dys195. PMC 3535751. PMID 23159830.
^ "Entity Resolution at Scale".

외부 링크

[1] Christen, P&T: Febrl - 자유롭게 확장 가능한 생물의학 기록 링크(수동, 릴리스 0.3) 페이지 9

[2] Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (January 2007). "Duplicate Record Detection: A Survey" (PDF). IEEE Transactions on Knowledge and Data Engineering. 19 (1): pp. 1–16. doi:10.1109/tkde.2007.250581. S2CID 386036. Retrieved 2009-03-30.

[3] ttp://homes.cs.washington.edu/~pedrod/padm/icdm06.pdf

[4] Dunn, Halbert L. (December 1946). "Record Linkage". American Journal of Public Health. 36 (12): pp. 1412–1416. doi:10.2105/AJPH.36.12.1412. PMC 1624512. PMID 18016455.

[5] Newcombe, H. B.; J.M. Kennedy; S.J. Axford; A. P. James (October 1959). "Automatic Linkage of Vital Records". Science. 130 (3381): 954–959. Bibcode:1959Sci...130..954N. doi:10.1126/science.130.3381.954. PMID 14426783.

[FellegiSunter-6] Fellegi, Ivan; Sunter, Alan (December 1969). "A Theory for Record Linkage" (PDF). Journal of the American Statistical Association. 64 (328): pp. 1183–1210. doi:10.2307/2286061. JSTOR 2286061.

[ReferenceA-7] Wilson, D. Randall, D. Randall (July 31 – August 5, 2011). Beyond Probabilistic Record Linkage: Using Neural Networks and Complex Features to Improve Genealogical Record Linkage (PDF). Proceedings of International Joint Conference on Neural Networks. San Jose, California, USA.

[8] Winkler, William E. "Matching and Record Linkage" (PDF). U.S. Bureau of the Census. Retrieved 12 November 2011.

[9] Churches, Tim; Peter Christen; Kim Lim; Justin Xi Zhu (13 December 2002). "Preparation of name and address data for record linkage using hidden Markov models". BMC Medical Informatics and Decision Making. 2: 9. doi:10.1186/1472-6947-2-9. PMC 140019. PMID 12482326.

[10] Roos, LL; Wajda A (April 1991). "Record linkage strategies. Part I: Estimating information and evaluating approaches". Methods of Information in Medicine. 30 (2): 117–123. doi:10.1055/s-0038-1634828. PMID 1857246.

[11] Grannis, SJ; Overhage JM; McDonald CJ (2002). "Analysis of identifier performance using a deterministic linkage algorithm". Proc AMIA Symp.: 305–9. PMC 2244404. PMID 12463836.

[prl-12] Blakely, Tony; Salmond, Clare (December 2002). "Probabilistic record linkage and a method to calculate the positive predictive value". International Journal of Epidemiology. 31 (6): 1246–1252. doi:10.1093/ije/31.6.1246. PMID 12540730.

[13] 퀘스, 달란, 스타키, 폴2003년 8월 24-27일 워싱턴 D.C. ACM SIGKDD '03 데이터 청소, 레코드 연결 및 객체 통합에 관한 워크숍'

[14] 랭글리, 팻, 웨인 이바, 케빈 톰슨.제10차 인공지능 전국회의(AAAI-92)의 진행 중인 "베이지안 분류자 분석" AAAI 언론/MIT 프레스, 캠브리지, MA, 223-228페이지, 1992.

[15] Michie, D.; Spiegelhalter, D.; Taylor, C. (1994). Machine Learning, Neural and Statistical Classification. Hertfordshire, England: Ellis Horwood. ISBN 0-13-106360-X.

[spark-16] "Fuzzy Matching With Spark". Spark Summit.

[data_resource_profile-17] St. Sauver JL; Grossardt BR; Yawn BP; Melton LJ 3rd; Pankratz JJ; Brue SM; Rocca WA (2012). "Data Resource Profile: The Rochester Epidemiology Project (REP) medical records-linkage system". Int J Epidemiol. 41 (6): 1614–24. doi:10.1093/ije/dys195. PMC 3535751. PMID 23159830.

[18] "Entity Resolution at Scale".

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Search