변환 생물정보학

Translational bioinformatics

변환 생물정보학(TBI)은 분자 생물정보학, 생물통계학, 통계유전학, 임상정보학의 융합에 초점을 맞춘 건강정보학 연구의 신흥 분야다. 과학자와 임상의, 환자가 활용할 수 있는 지식 및 의료 도구를 공식화하기 위해 늘어나는 바이오의학 및 게놈 데이터의 양에 정보학적 방법론을 적용하는 데 초점을 맞추고 있다.[1] 나아가, 컴퓨터 기반의 정보 시스템 활용을 통한 인간 건강 향상을 위해 생체 의학 연구를 적용하는 것을 포함한다.[2] TBI는 응용을 위한 임상 지식을 생성하기 위해 데이터 마이닝과 생물 의학 정보 분석을 채택한다.[3] 임상 지식에는 환자 모집단에서 유사점을 찾고, 생물학적 정보를 해석하여 치료 치료를 제안하고 건강 결과를 예측하는 것이 포함된다.[4]

역사

번역 생물정보학은 번역 연구 내에서 비교적 젊은 분야다.[5][6] 구글 트렌드는 바이오정보학(bio informatics) 사용이 1990년대 중반 바이오메디컬 연구에 대한 변형적 접근법으로 제시된 이후 감소했음을 보여준다.[6] 그러나 그것은 거의 10년 전에 만들어졌다.[7] 그 후 TBI는 데이터 조직, 접근성 및 이용 가능한 생물의학 연구에 대한 개선된 해석을 용이하게 하기 위한 수단으로 제시되었다.[6][8] 인간의 기억과 사고 패턴의 특성상 생략했을 생물학적 정보를 의사결정 과정에 통합할 수 있는 의사결정 지원 도구로 여겨졌다.[8]

당초 TBI의 초점은 대용량 데이터 저장소를 검색하기 위한 온톨로지 및 어휘 설계에 있었다. 그러나 자동화를 위한 사전 시도가 잘못된 정보로 귀결되면서 이 시도는 크게 성공하지 못했다. TBI는 네트워크에서 데이터, 구조, 기능을 연결하기 위해 상위 알고리즘과 데이터를 상호 참조할 수 있는 기준선을 개발해야 했다.[6] 이는 대학원 수준의 프로그램을 위한 커리큘럼 개발 및 TBI의 잠재적 기회에 대한 대중들의 인지도가 증가하는 것에 대한 자금 조달을 위한 자본화 개발에 초점을 맞췄다.[6]

2000년대 초 인간 게놈의 초안이 완성되었을 때, TBI는 생물학적 발견을 임상 정보학적으로 연결시키기 위한 수단으로 계속 성장하며 두 산업 모두 생물학과 의료의 기회에 영향을 미쳤다.[9] 표현 프로파일링, 경향 분석을 위한 텍스트 마이닝, 생물학적 통찰력을 제공하는 인구 기반 데이터 마이닝, 온톨로지 개발이 TBI에 대한 중요한 기여로 조사, 정의 및 확립되었다.[6][10] 지식발견에 활용된 분야 성과로는 임상기록과 유전체학 데이터 연계, 조상과 의약품 연계, 공통질환을 가진 집단의 전체 게놈 염기서열 분석, 문학 채굴의 의미론 등이 있다.[10] 특히 유럽을 중심으로 TBI에 대한 교차 사법적 전략을 수립하기 위한 협력 노력에 대한 논의가 있어 왔다. 지난 10년 동안 약학유전체학에서도 개인 맞춤형 의학과 데이터 공유가 발달했다. 이러한 성과들은 대중의 관심을 확고히 하고, 훈련과 추가적인 교육과정 개발에 투자하기 위한 자금을 창출하며, 그 분야의 숙련된 인력에 대한 수요를 증가시키고, 지속적인 TBI 연구 개발을 촉진시켰다.[6]

혜택 및 기회

현재 TBI 연구는 여러 분야에 걸쳐 있지만 임상 환경에서 TBI를 적용하는 데는 한계가 있다. 현재는 의약품 개발, 규제 검토, 임상 의학 등에 부분적으로 배치되어 있다.[8] 의학전문지들이 '정보학'이라는 용어를 언급하고 생물정보학 관련 주제를 논의하는 사례가 늘고 있어 TBI 적용 기회는 훨씬 넓다.[2] TBI 연구는 4개의 주요 담론분야인 임상유전체학, 유전체학, 약리유전학, 유전역학 등에 대해 연구한다.[9] 지식 공유와 현장 개발의 기회를 창출하기 위해 TBI를 중심으로 한 컨퍼런스와 포럼이 늘고 있다. 최근 컨퍼런스에 나타나는 일반적인 주제로는 (1) 개인 유전체학 및 게놈 인프라, (2) 의약품 부작용, 상호작용 및 용도변경을 위한 약물 및 유전자 연구, (3) 바이오마커 및 표현형 표현, (4) 시퀀싱, 과학 및 시스템 의학, (5) TBI에 대한 계산 및 분석 방법론, (6) 등이 있다. 유전자 연구와 임상 실습의 [8][10][11]응용

생물정보학자의 도움을 받아 생물학자들은 복잡한 데이터를 분석하고, 실험적인 측정을 위한 웹사이트를 설정하며, 측정의 공유를 촉진하고, 연구 결과를 임상 결과와 상관시킬 수 있다.[2] 특정 질병을 연구하는 변환적 생물정보학자는 특정 질병에 관한 샘플 데이터를 개별 생물학자가 단독으로 연구하는 것보다 더 많이 가질 것이다.

인간 게놈의 완성 이후, 새로운 프로젝트들은 한번에 몇 개의 유전자에 집중하기보다는 과 같은 질병의 모든 유전자 변형을 체계적으로 분석하려고 시도하고 있다. 앞으로 기능정보를 추출하기 위해 서로 다른 출처로부터 대규모 데이터를 통합한다. 많은 수의 인간 게놈의 이용가능성은 그들의 생활방식, 약물 상호작용, 그리고 다른 요소들과 관련된 통계적 채굴을 가능하게 할 것이다. 따라서 번역적 생물정보학은 질병 유전자에 대한 검색을 변화시키고 있으며 약리유전학을 포함한 다른 의학 연구의 중요한 요소가 되고 있다.[12]

대규모 데이터 통합 및 유전체의학 분석을 수행함에 있어 클라우드 컴퓨팅의 컴퓨팅 및 경제적 특성을 평가하는 연구에서 클라우드 기반 분석은 로컬 컴퓨팅 클러스터와 비교했을 때 비용과 성능이 유사했다. 이는 클라우드 컴퓨팅 기술이 게놈 의학에서 대규모의 번역 연구를 용이하게 하기 위한 가치 있고 경제적인 기술일 수 있음을 시사한다.[13]

방법론

저장

방대한 양의 생물정보학 데이터가 현재 이용가능하며 계속 증가하고 있다. 예를 들어, 국립보건원(NHI)이 후원하는 GenBank 데이터베이스는 현재 27만 종에 대해 7800만 개의 시퀀스 코딩에 820억 개의 뉴클레오티드를 보유하고 있다. 유전자 발현 옴니버스(GEO)로 알려진 유전자 발현 마이크로레이에 해당하는 GenBank의 경우 7,200개의 실험에서 18만3,000개가 넘는 샘플이 있으며, 이 숫자는 매년 두 배 또는 세 배로 증가한다. 유럽생물정보연구소(EBI)는 ArrayExpress라는 유사한 데이터베이스를 가지고 있는데, 이 데이터베이스는 3,000개 이상의 실험에서 100,000개 이상의 샘플을 가지고 있다. TBI는 모두 합쳐 현재 25만개 이상의 마이크로 어레이 샘플에 접근할 수 있다.[2]

TBI는 대형 데이터 세트에서 관련 데이터를 추출하기 위해 데이터 통합, 데이터 연합, 데이터 웨어하우징 등 다양한 방법을 채택하고 있다. 데이터 통합 접근방식에서 데이터는 다양한 소스에서 추출되어 단일 데이터베이스에 중앙 집중화된다. 이 접근방식은 이기종 데이터의 표준화를 가능하게 하며 데이터 세트 간의 상호운용성 및 호환성 문제를 해결하는데 도움이 된다. 그러나 이 방법의 지지자들은 단일 데이터 모델에 기초하기 때문에 종종 데이터베이스를 업데이트하는 데 어려움을 겪는다. 이와는 대조적으로 데이터 연합 접근법은 데이터베이스를 서로 연결하고 정기적으로 데이터를 추출한 다음 쿼리를 위해 데이터를 결합한다. 이 접근방식의 장점은 사용자가 단일 포털에서 실시간 데이터에 액세스할 수 있다는 것이다. 그러나, 이것의 제한은 수집된 데이터가 여러 출처에서 파생되었기 때문에 항상 동기화되지는 않을 수 있다는 것이다. 데이터 웨어하우징은 데이터 큐레이션을 위한 단일 통합 플랫폼을 제공한다. 데이터 웨어하우징은 여러 소스의 데이터를 공통의 형식으로 통합하며, 일반적으로 의사결정 지원 목적으로만 생체 공학에 사용된다.[14]

분석

분석 기법은 고처리 기법을 사용하여 생물학적 데이터를 임상적으로 관련 정보로 변환하는 역할을 한다. 현재 데이터 조회를 위한 수많은 소프트웨어와 방법론이 존재하며, 게놈생물학, BMC 생물정보학, BMC 게노믹스, 생물정보학 등의 생물정보학 저널에 더 많은 연구를 수행하고 게재함에 따라 이 숫자는 계속 증가하고 있다. 최상의 분석 기법을 확인하기 위해, Weka와 같은 도구들은 소프트웨어의 배열을 통해 암호화할 수 있도록 만들어졌고, 특정한 방법론을 알 필요를 추상화하는 가장 적절한 기법을 선택했다.[15]

통합

데이터 통합에는 임상 환경에 생물학적 정보를 사용하는 방법을 개발하는 것이 포함된다. 데이터 통합으로 임상의사에게 데이터 액세스, 지식 검색 및 의사 결정 지원을 위한 도구를 제공할 수 있다. 데이터 통합은 생체정보학에서 이용할 수 있는 풍부한 정보를 활용하여 환자의 건강과 안전을 개선하는 역할을 한다. 데이터 통합의 예는 변환 생물정보학을 기반으로 한 의사결정 지원 시스템(DSS)의 사용이다. 이와 관련하여 사용된 DSS는 임상전문가의 진단을 지원하기 위해 환자 전자 의료기록(EMR) 및 기타 임상 정보 시스템에서 상관관계를 확인한다.[14]

비용

기업들은 이제 간단한 아웃소싱 서비스로 전체 인간 게놈 염기서열 분석과 분석을 제공할 수 있게 되었다. 2세대와 3세대 염기서열체계는 기기당 하루 게놈의 양을 80개로 늘릴 계획이다. Complete Genomics Cliff Reid의 CEO에 따르면, 전 세계 인간 게놈 염기서열 분석 총 시장은 2009년과 2010년 사이에 5배 증가했으며, 2011년에는 1만 5천 개의 게놈으로 추정되었다. 게다가, 만약 가격이 게놈당 1,000달러까지 떨어진다면, 그는 회사가 여전히 이익을 낼 수 있을 것이라고 주장했다. 또 샘플 준비비와 인건비를 제외한 게놈당 내부 비용을 100달러 내외로 낮추기 위한 공정 개선 작업도 진행 중이다.[16][17]

국립 인간 게놈연구소에 따르면 전체 게놈의 염기서열 분석 비용은 2001년 9500만 달러 이상에서 2012년 1월 7666달러로 크게 줄었다. 마찬가지로 메가베이스 1개(1백만 베이스)를 결정하는 비용도 2001년 5000달러 이상에서 2012년 0.09달러로 줄었다. 2008년, 시퀀싱 센터는 Sanger 기반(다이오드 체인 종료 시퀀싱)에서 '2세대'(또는 '차세대') DNA 시퀀싱 기술로 전환되었다. 이것은 시퀀싱 비용에서 상당한 하락을 초래했다.[18]

미래 방향

TBI는 의학에서 중요한 역할을 할 수 있는 잠재력을 가지고 있지만, 여전히 많은 도전들이 남아 있다. TBI의 가장 중요한 목표는 "전통적으로 상이한 데이터와 새로운 가설을 생성 및 테스트할 수 있는 지식 소스를 연결하는 정보학 접근법을 개발하는 것"이다.[9] 현재 TBI의 적용은 다양한 데이터 수집 방법론을 야기하는 표준의 부족으로 인해 어려움에 직면하고 있다. 또한, 현재 연구에 존재하는 대량의 데이터로 인해 분석 및 스토리지 기능이 방해받고 있다. 이 문제는 개인 유전체학에 따라 더욱 많은 데이터가 축적될 것으로 예상된다.[6][9]

약물과 바이오마커, 게놈 의학, 단백질 설계 메타게노믹스, 전염병 발견, 데이터 큐레이션, 문헌 채굴, 워크플로우 개발에도 과제가 존재한다.[6] TBI의 기회와 이익에 대한 지속적인 믿음은 인프라, 지적재산권 보호 및 접근성 정책에 대한 추가 자금후원을 정당화한다.[6][19]

지난 10년간 TBI에 대한 가용 자금은 증가했다.[2] 번역적 생물정보학 연구에 대한 수요는 생물정보학건강정보학의 수많은 분야의 성장에 기인하고 있으며, 부분적으로 인간 게놈 프로젝트와 같은 프로젝트의 인기 있는 지원 덕분이다.[7][9][20] 이러한 자금 증가와 유입으로 업계는 유전자 발현 데이터 저장소와 유전체 척도 데이터 저장소와 같은 자산을 생산하는 동시에 1000달러짜리 게놈을 만들고 인간 게놈 프로젝트를 완성한다는 개념으로 진척되었다.[9][20] 일부에서는 TBI가 제약업계, 규제기관, 임상실무 내에서 과학적, 임상적 정보를 처리하는 방식에 문화적 변화를 일으킬 것으로 보고 있다. 또한 임상 실험 설계를 사례 연구로부터 벗어나 EMR 분석으로 전환하는 수단으로도 간주된다.[8]

현장의 리더들은 TBI가 나아가야 할 방향과 관련하여 수많은 예측을 제시해 왔다. 예측의 집합은 다음과 같다.

  1. 레스코(2012년)는 다음과 같은 방법으로 학계와 산업계 간의 격차를 해소하기 위한 전략이 유럽연합에서 반드시 발생해야 한다고 언급하고 있다.[8]
    1. 채택을 촉진하기 위해 공인 표준에 정보학 데이터 및 기술 모델을 검증하고 게시한다.
    2. 전자 의료 기록을 변환하여 액세스성과 상호운용성을 향상시키십시오.
    3. 정보 공유 장려, 규제 기관 참여 및
    4. 성장 및 TBI 개발을 위한 재정 지원 증대
  2. Altman(2011년)은 2011년 TBI에서 AMIA 서밋에서 다음과 같이 예측한다.[10]
    1. 클라우드 컴퓨팅은 주요 생물의학 발견에 기여할 것이다.
    2. 줄기세포 과학에 대한 정보학 응용은 증가할 것이다.
    3. 면역 유전체학이 강력한 데이터로 등장할 것이다.
    4. 흐름 세포측정학 정보학자들이 성장할 것이다.
    5. 분자 및 표현 데이터를 결합하여 약물 용도 변경
    6. Exome 시퀀싱이 예상보다 오래 지속됨 부호화되지 않은 DNA 변화 해석 진행률
  3. Sarkar, 뷰트, 러시어, Tarczy-Hornoch &, Ohno-Machado(2011년)상태가 미래의 추후 해체야 한다를 확립하는 길을 관리하는 많은 량의 사용할 수 있는 데이터와 찾기 위해 통합 결과로부터 프로젝트와 같은 그 eMERGE(전자 의무 기록물과 유전체학)프로젝트 자금에 의해 NIH의 개인 게놈 프로젝트, 진유 전체 프로젝트는 MillionVeter프로그램 [9]및 1000 게놈 프로젝트

"정보가 풍부한 세상에서 정보의 부(富)는 정보가 소비하는 것이 무엇이든 간에 부족한 것, 즉 정보의 부족을 의미한다. 정보가 소비하는 것은 오히려 명백하다: 그것은 수신자의 주의를 소비한다. 따라서 풍부한 정보는 주의의 빈곤을 야기하고, 그러한 주의를 소비할 수 있는 정보의 과잉 공급원에 효율적으로 분배할 필요가 있다."(Herbert Simon, 1971)

협회, 회의 및 저널

아래는 TBI에 특화된 기존 협회, 컨퍼런스, 저널 목록이다. 이것은 결코 모든 것을 포함하는 리스트가 아니며, 다른 것들이 발견됨에 따라 개발되어야 한다.

연관성
회의 *연간 변경
  • AMIA 연례 심포지엄 [시카고, 2012]
  • IMT2000 3GPP - AMIA의 번역과학 공동정상회의 [San Francisco, 2013]
  • IMT-2000 3GPP - AMIA 변환 생물정보학 서밋 [San Francisco, 2013]
  • AMIA Summit 임상 연구 정보학(CRI) [San Francisco, 2013]
  • TBC 2011, 변환 생물정보학 회의 [서울, 한국, 2011]
  • TBC 2012, 변환 생물정보학 회의 [제주도, 2012]
  • TBC/ISCB-Asia 2013, Translational Bio Informatics Conference [서울, 한국, 2013]
  • TBC/ISB 2014, 변환 생물정보학 회의 [칭다오, 중국, 2014]
  • TBC2015, Translational Bio informatics Conference [도쿄, 일본, 2015]
  • IFP/IMIA 작업 회의, 생체 및 의료 정보 인터페이스 [암스테르담, 2012]
저널스
번역 생물정보학 특별논문

교육 및 인증

TBI에 특화된 교육 및 인증 프로그램의 비배출 목록은 다음과 같다.

참조

  1. ^ "Translational Bioinformatics". American Medical Informatics Association. Retrieved 24 September 2014.
  2. ^ a b c d e Butte, A. J. (2008). "Translational bioinformatics: Coming of age". Journal of the American Medical Informatics Association. 15 (6): 709–714. doi:10.1197/jamia.M2824. PMC 2585538. PMID 18755990.
  3. ^ Geospiza. "Translational bioinformatics". Archived from the original on May 28, 2011. Retrieved March 23, 2011.
  4. ^ "When Healthcare and Computer Science Collide". University of Illinois at Chicago. University of Illinois at Chicago. 2014. Retrieved 18 September 2014.
  5. ^ "Colorado Clinical and Translational Sciences Institute (CCTSI)". Retrieved November 16, 2012.
  6. ^ a b c d e f g h i j Ouzounis, C. A. (2012). "Rise and demise of bioinformatics? Promise and progress". PLOS Computational Biology. 8 (4): 1–5. Bibcode:2012PLSCB...8E2487O. doi:10.1371/journal.pcbi.1002487. PMC 3343106. PMID 22570600.
  7. ^ a b Shah, N. H.; Jonquet, C.; Lussier, Y. A.; Tarzy-Hornoch, P.; Ohno-Machado, L. (2009). "Ontology-driven indexing of public datasets for translational bioinformatics". BMC Bioinformatics. 10 (2): S1. doi:10.1186/1471-2105-10-S2-S1. PMC 2646250. PMID 19208184.
  8. ^ a b c d e f Lesko, L. J. (2012). "Drug research and translational bioinformatics". Clinical Pharmacology & Therapeutics. 91 (6): 960–962. doi:10.1038/clpt.2012.45. PMID 22609906. S2CID 26762976.
  9. ^ a b c d e f g Sarkar, I. N.; Butte, A. J.; Lussier, Y. A.; Tarczy-Hornoch, P.; Ohno-Machado, L. (2011). "Translational bioinformatics: Linking knowledge across biological and clinical realms". J Am Med Inform Assoc. 18 (4): 345–357. doi:10.1136/amiajnl-2011-000245. PMC 3128415. PMID 21561873.
  10. ^ a b c d Altman, R. B. "Translational bioinformatics: The year in review". Retrieved November 16, 2012.
  11. ^ Mendonca, E. A. (2010). "Selected proceedings of the 2010 summit on translational bioinformatics". BMC Bioinformatics. 11 (9): 1–4. doi:10.1186/1471-2105-11-S9-S1. PMC 2967739. PMID 21044356.
  12. ^ Kann, M. G. (2010). "Advances in translational bioinformatics: Computational approaches for the hunting of disease genes". Briefings in Bioinformatics. 11 (1): 96–110. doi:10.1093/bib/bbp048. PMC 2810112. PMID 20007728.
  13. ^ Dudley, J. T. (2010). "Translational bioinformatics in the cloud: An affordable alternative". Genome Medicine. 2 (8): 51. doi:10.1186/gm172. PMC 2945008. PMID 20691073.
  14. ^ a b Yan, Q (2010). "Translational bioinformatics and systems biology approaches for personalized medicine". Systems Biology in Drug Discovery and Development. Methods Mol Biol. Vol. 662. pp. 167–178. doi:10.1007/978-1-60761-800-3_8. ISBN 978-1-60761-799-0. PMID 20824471.
  15. ^ Butte, A. J. (2009). "Translational bioinformatics applications in genome medicine". Genome Med. 1 (6): 64. doi:10.1186/gm64. PMC 2703873. PMID 19566916.
  16. ^ Heger, M. "Complete genomics targets 2015 for new instruments with capacity of 80 genomes per day". Retrieved November 1, 2012.
  17. ^ "Complete genomics". Retrieved November 1, 2012.
  18. ^ Wetterstrand, K. A. "DNA sequencing costs: Data from the NHGRI Genome sequencing program (GSP)". Retrieved November 3, 2012.
  19. ^ Azuaje, F. J.; Heymann, M.; Ternes, A.; Wienecke-Baldacchino, A.; Struck, D.; Moes, D.; Schneider, R. (2012). "Bioinformatics as a driver, not a passenger, of translational biomedical research: Perspectives from the 6th Benelux bioinformatics conference" (PDF). Journal of Clinical Bioinformatics. 2 (7): 1–3. doi:10.1186/2043-9113-2-7. PMC 3323358. PMID 22414553.
  20. ^ a b Butte, A. J.; Chen, R. (2006). "Finding disease-related genomic experiments within an international repository: First steps in translational bioinformatics". AMIA Annu Symp Proc: 106–110. PMC 1839582. PMID 17238312.