통합의학언어체계

Unified Medical Language System

UMLS(Unified Medical Language System, UMLS)는 생물 의학 과학에서 많은 통제된 어휘집합체다(1986년 생성).[1] 그것은 이러한 어휘들 사이의 매핑 구조를 제공하므로 다양한 용어 시스템들 사이에서 번역할 수 있다; 그것은 또한 생물 의학 개념의 포괄적 동의어온톨로지라고 볼 수도 있다. UMLS는 또한 자연 언어 처리를 위한 시설을 제공한다. 그것은 주로 의료정보학에서 시스템 개발자들에 의해 사용되도록 의도되었다.

UMLS는 지식 소스(데이터베이스)와 소프트웨어 도구 세트로 구성된다.

UMLS는 미국 국립 의학 도서관이 설계하고 유지하며 분기별로 업데이트되며 무료로 사용할 수 있다. 이 프로젝트는 1986년 도널드 A.B.에 의해 시작되었다. 린드버그, 의학 도서관장, 벳시 험프리스 감독.[2]

목적 및 용도

연구자들이 이용할 수 있는 생물의학 자원의 수는 어마어마하다. 의학 문헌을 검색할 때 많은 양의 문서가 검색되어 이것이 문제가 되는 경우가 많다. UMLS의 목적은 생물의학 언어를 이해하는 컴퓨터 시스템의 개발을 촉진함으로써 이 문헌에 대한 접근을 강화하는 것이다. 이것은 "동일한 개념이 서로 다른 기계 판독 가능한 출처와 다른 사람들에 의해 표현되는 다양한 방법"과 "다양한 이질적인 데이터베이스와 시스템 간의 유용한 정보의 배포"[citation needed]라는 두 가지 중요한 장벽을 극복함으로써 달성된다.

라이센싱

시스템 사용자는 "UMLS 계약"에 서명하고 간단한 연간 사용 보고서를 작성해야 한다. 교육용 사용자는 UMLS를 연구 목적으로 무료로 사용할 수 있다. 상업적 또는 생산적 사용은 통합된 소스 어휘 중 일부에 대한 저작권 사용권을 요구한다.

지식 출처

메타테사우루스

메타테사우루스는 UMLS의 기초를 이루고 있으며 100만개 이상의 생물 의학 개념과 500만개 이상의 개념 이름으로 구성되어 있으며, 모두 100개 이상의 통합된 통제 어휘와 분류 시스템에서 유래한다. 통합 제어 어휘의 일부 예로는 CPT, ICD-10, MeSH, SNOMED CT, DSM-IV, LOINC, WHO 부작용 용어, 영국 임상 용어, RxNorm, Gene Ontology, OMIM(전체 목록 참조) 등이 있다.

메타테사우루스(Metathersaurus)는 개념별로 구성되며, 각 개념은 그 의미를 정의하는 구체적인 속성을 가지고 있으며, 다양한 소스 어휘에서 해당 개념 이름과 연결된다. 예를 들어 하위 클래스의 "isa"와 하위 클래스의 "Isa"와 같은 계층적 개념과 "에 의해 야기된다" 또는 "문학에서 종종 발생한다"와 같은 연관적 개념들 사이의 수많은 관계가 표현된다(후자는 메드라인에서 파생된다).

메타테사우루스의 범위는 소스 어휘의 범위에 의해 결정된다. 만약 다른 어휘들이 동일한 개념에 대해 다른 이름을 사용하거나 다른 개념에 동일한 이름을 사용한다면, 이것은 메타테사우르스에 충실하게 표현될 것이다. 소스 어휘의 모든 계층 정보는 메타테사우루스에 보존된다. 메타테사우루스 개념은 유전자 시퀀스 데이터베이스와 같이 데이터베이스 외부의 자원에 연결될 수도 있다.

시맨틱 네트워크

메타테사우루스의 각 개념에는 하나 이상의 의미 유형(범주)이 할당되며, 의미 관계를 통해 서로 연결된다.[3] 의미 네트워크는 이러한 의미 유형과 관계의 카탈로그다. 이것은 다소 넓은 분류로, 127개의 의미 유형과 54개의 관계가 있다.

주요 의미 유형으로는 유기체, 해부학적 구조, 생물학적 기능, 화학 물질, 사건, 물리적 사물, 개념이나 사상이 있다. 의미론적 유형들 사이의 링크는 네트워크의 구조를 정의하고 그룹화와 개념들 사이의 중요한 관계를 보여준다. 의미론적 유형들 간의 주요한 연결고리는 유형의 계층 구조를 설정하는 "isa" 연결이다. 네트워크는 또한 나머지 53개의 관계 유형을 구성하는 비계층적(또는 연관적) 관계의 5가지 주요 범주를 가지고 있다. 이것들은 "물리적 관련", "공간적으로 관련된다", "임시적으로 관련된다", "기능적으로 관련된다", "개념적으로 관련된다"[3] 등이다.

의미 유형에 대한 정보는 식별자, 정의, 예제, 포괄적 의미 유형에 대한 계층적 정보 및 연관 관계를 포함한다. 시맨틱 네트워크 내의 연상 관계는 매우 약하다. 그들은 대부분의 일부 관계, 즉 첫 번째 유형의 어떤 인스턴스가 두 번째 유형의 어떤 인스턴스와 중요한 관계에 의해 연결될 수 있다는 사실을 포착한다. 다르게 표현하면, 해당 관계형 주장이 의미 있다는 사실을 포착한다(모든 경우에 사실일 필요는 없지만).

연상관계의 한 예는 흡연(흡연, 폐암)이 양보할 수 있는 용어에 적용되는 "원인이 될 수 있다"는 것이다.

스페셜리스트 렉시콘

Specialist Lexicon은 일반적인 영어 어휘, 생물 의학 용어, MEDLINE에서 발견된 용어 및 UMLS 메타테사우루스에서 발견된 용어에 대한 정보를 포함하고 있다. 각 항목에는 통사적(말을 조합하여 의미를 만드는 방법), 형태학적(형태와 구조), 맞춤법(표현) 정보가 포함되어 있다. 자바 프로그램 세트는 어휘를 사용하여 단어들을 언어의 각 부분에 연관시킴으로써 생물 의학 텍스트의 변화를 연구하는데, 이것은 검색이나 전자 의료 기록을 통한 검색에 도움이 될 수 있다.

입력 항목은 한 단어 또는 여러 단어 용어가 될 수 있다. 기록에는 기본 형식(예: "실행"을 위한 "실행"), 음성 부분(전문가가 11개를 인식함), 고유 식별자, 사용 가능한 철자 변형 등 4개 부분이 포함된다. 예를 들어, "에스테틱"에 대한 질의가 다음과 같은 결과를 반환할 것이다.[4]

{ base=Anaestic 스펠링_variant=Anestic entry=Anestic at=noon variodes=reg} {base=Anaestic swelling_variant=aestic entit=adj cat=inv 포지션(3) }} 

Specialist 사전은 두 가지 형식으로 제공된다. "단위 기록" 형식은 위에서 볼 수 있으며 슬롯필러로 구성된다. 슬롯은 요소(예: "base=" 또는 "speaking bariant=")이며, 채우기 값은 해당 항목에 대한 슬롯에 귀속되는 값이다. "관계 테이블" 형식은 아직 정규화되지 않았으며 파일에 중복 데이터가 많이 포함되어 있다.

불일치 및 기타 오류

UMLS의 규모와 복잡성, 그리고 용어 통합에 대한 허용 정책을 고려할 때, 오류가 불가피하다.[5] 오류에는 모호성과 중복성, 계층적 관계 주기(개념은 다른 것에 대한 조상과 후손을 모두 포함한다), 누락된 조상(상대의 부모 및 자식 개념은 관련이 없다), 의미론적 반전(의미적 유형과 의미론적 유형과의 자식/부모 관계가 개념과 일관되지 않는다) 등이 있다.[6]

이러한 오류는 UMLS를 감사함으로써 발견되고 해결된다. 수동 감사는 매우 많은 시간과 비용이 들 수 있다. 연구원들은 이 문제를 여러 가지 방법으로 해결하려고 시도했다. 자동화된 도구를 사용하여 이러한 오류를 검색할 수 있다. 구조적 불일치(예: 루프)의 경우, 순서에 기초한 사소한 해결책이 효과적일 것이다. 그러나 비일관성이 용어 또는 개념 수준(컨텍스트별 용어 의미)에 있는 경우에도 동일하지는 않을 것이다.[7] 이를 위해서는 정보에 입각한 검색 전략을 사용해야 한다(지식 표현).

지원 소프트웨어 도구

지식 출처 외에도 국립 의학 도서관이 보조 도구를 제공한다.

  • MetatophoSys - 예를 들어 특정 소스 어휘를 제외함으로써 특정 용도에 대해 메타테사우루스를 사용자 정의한다.
  • lvg - 주어진 용어의 어휘적 변형을 생성하고 자연어 텍스트의 구문을 지원하기 위해 Specialist 어휘소를 사용하는 프로그램.
  • MetaMap - 임의의 텍스트 조각이 주어지면 관련 메타테사우루스 개념을 찾아 반환하는 온라인 도구.
  • MMTx(MetaMap Transfer) - Java의 MetaMap 구현(더 이상 지원되지 않음)
  • Knowledge Source Server - 웹 기반 어휘 액세스(2010년 가을 은퇴)[8]

타사 소프트웨어

참고 항목

참조

  1. ^ Unified Medical Language System, 1996
  2. ^ Ellison D, Humphreys BL, Mitchell J (July 2010). "Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient". Journal of the American Medical Informatics Association. 17 (4): 481–5. doi:10.1136/jamia.2010.005728. PMC 2995660. PMID 20595319.
  3. ^ a b National Library of Medicine (2009). "Chapter 5 - Semantic Networks". UMLS Reference Manual. Bethesda, MD: U.S. National Library of Medicine, National Institutes of Health.
  4. ^ Browne AC, McCray AT, Srinivasan S (June 2000). The Specialist Lexicon (PDF). Bethesda, MD: Lister Hill National Center for Biomedical Communications, National Library of Medicine. p. 1.
  5. ^ Morrey CP, Geller J, Halper M, Perl Y (June 2009). "The Neighborhood Auditing Tool: a hybrid interface for auditing the UMLS". Journal of Biomedical Informatics. 42 (3): 468–89. doi:10.1016/j.jbi.2009.01.006. PMC 2891659. PMID 19475725.
  6. ^ Geller J, Morrey CP, Xu J, Halper M, Elhanan G, Perl Y, Hripcsak G (November 2009). "Comparing inconsistent relationship configurations indicating UMLS errors". AMIA ... Annual Symposium Proceedings. AMIA Symposium. 2009: 193–7. PMC 2815406. PMID 20351848.
  7. ^ Zhu X, Fan JW, Baorto DM, Weng C, Cimino JJ (June 2009). "A review of auditing methods applied to the content of controlled biomedical terminologies". Journal of Biomedical Informatics. 42 (3): 413–25. doi:10.1016/j.jbi.2009.03.003. PMC 3505841. PMID 19285571.
  8. ^ "Unified Medical Language System® (UMLS®) News: Revised License Agreement, New UMLS Terminology Services and Browser, Discontinued UMLSKS, and API Changes". NLM Technical Bulletin. U.S. National Library of Medicine. 29 July 2010.

추가 읽기

외부 링크