생물학적 자료

Biological data

생물학적 데이터는 살아있는 유기체와 그들의 생산물에서 파생된 화합물이나 정보를 가리킨다. 혈청이나 백신과 같은 살아있는 유기체로 만들어진 약용 화합물은 생물학적 데이터로 특징지어질 수 있다. 생물학적 데이터는 다른 형태의 데이터와 비교할 때 매우 복잡하다. 생물 데이터에는 텍스트, 시퀀스 데이터, 단백질 구조, 게놈 데이터와 아미노산, 링크 등 여러 형태가 있다.

RNA 중합효소(purple)는 전사의 심장에 있는 복합 효소다. 이 과정에서 효소는 DNA 이중나선을 풀고 하나의 가닥(더 진한 오렌지색)을 템플릿으로 사용해 나중에 단백질 합성을 위해 리보솜이 사용하는 단일 가닥 메신저 RNA(녹색)를 만든다.

생물학적 데이터와 생물정보학

생물학적 데이터는 생물정보학(Bio Informatics)과 밀접하게 작용하며, 이는 방대한 양의 유전적 데이터를 분석하고 해석할 필요성에 초점을 맞추고 있는 최근의 학문이다.

지난 몇 십 년 동안 게놈 연구의 비약적인 발전은 엄청난 양의 생물학적 데이터로 이어졌다. 그 결과 생물학적 데이터에 집중하면서 유전체학, 생명공학, 정보기술의 융합으로 생물정보학이 탄생했다.

생물정보학은 광범위한 영역이기 때문에 생물학적 데이터도 정의하기가 어려웠다. 또한, '생체'는 분자 진화, 생물 모델링, 생물물리학, 시스템 생물학을 포괄하는 모호한 용어를 나타내기 때문에, 무엇이 살아있는 유기체로서 구성되는가에 대한 문제는 논쟁의 여지가 있었다. 지난 10년 동안, 데이터를 관리하고 해석하는 데 필요한 기술이 급증하면서 생물정보학 및 생물 데이터 분석이 성행하고 있다. 생물정보학 및 생물학적 자료의 취득, 이전, 활용에 사회가 더욱 집중되면서 현재는 번창하고 있는 분야다.

생물학적 데이터의 유형

생물학적 데이터는 오믹스, 생체 이미지 생성 및 의료 이미징 영역에서 사용하기 위해 추출될 수 있다. 생명과학자는 생물학적 데이터를 생명체에서 분자상세 정보를 제공하기 위해 중요시한다. DNA 염기서열화(GE), 유전자 발현(GE), 생체 이미지화(Bio-imaging), 신경 이미지화(Neuro-imaging), 뇌-기계 인터페이스를 위한 도구는 모두 생물학적 데이터를 활용하는 영역이며, 차원성이 높은 생물학적 시스템을 모델링한다.[1]

더욱이 원시 생물학적 염기서열 데이터는 대개 DNA, RNA, 아미노산을 가리킨다.[1]

생물학적 데이터는 생물학적 실체에 대한 데이터로도 설명할 수 있다.[2] 예를 들어, 시퀀스, 그래프, 기하학적 정보, 스칼라 및 벡터 필드, 패턴, 제약조건, 이미지 및 공간 정보와 같은 특성은 생물학적 존재의 특징을 설명하기 때문에 모두 생물학적 데이터로 특징지어질 수 있다. 많은 경우 생물학적 데이터는 이러한 여러 범주와 연관된다. 예를 들어, 국립 보건원의 컴퓨터 및 생물학 인터페이스에서의 촉매조회에 관한 보고서에 기술된 바와 같이, 단백질 구조는 1차원 시퀀스, 2차원 이미지, 3차원 구조 등과 연관되어 있을 수 있다.[2]

Cath - 단백질 구조 분류 데이터베이스

바이오메디컬 데이터베이스

바이오메디컬 데이터베이스는 종종 전자 건강 기록(EHRs), 분권화된 연방 데이터베이스 시스템의 유전 데이터, 대규모 임상 연구로부터 수집된 유전 데이터를 포함한 생물 데이터의 데이터베이스로 언급되어 왔다.[3][4]

바이오 해킹 및 개인정보 보호 위협

바이오해킹

바이오 컴퓨터 공격은 최근 일반적인 도구가 공격자가 DNA 분석에서 정보를 가로채는 데 사용될 수 있는 생물학적 정보를 합성할 수 있다는 것을 보여주면서 더 흔해졌다.[5] DNA분석이 법의학, 임상연구, 유전체학 등 분야에서 공통성이 높아지면서 바이오해킹의 위협은 더욱 뚜렷해졌다.

바이오해킹은 악성 DNA를 합성해 생물학적 샘플에 삽입해 진행할 수 있다. 연구진은 해커가 실험실 외투나 벤치, 고무장갑 등 공통 표면에 악의적인 DNA를 숨겨 생물학적 샘플에 도달하는 등 바이오해킹의 위협을 입증하는 시나리오를 수립했다.[5]

그러나 기존 주입 공격을 방지하기 위해 사용되는 유사한 기법을 사용함으로써 바이오 해킹의 위협을 완화할 수 있다. 임상의사와 연구자는 생물 검체에서 유전 정보를 추출하고, 샘플을 비교하여 알려지지 않은 물질을 식별함으로써 생물학 ack을 완화할 수 있다. 유전자 정보를 생물학적 샘플과 비교, 생체해킹 코드를 식별하기 위해 생물해킹 공격에서 악의적인 DNA 삽입물을 검출하는 데 최대 95% 효과적이라는 연구결과가 나왔다.[5]

개인 데이터로서의 유전자 샘플

게놈 연구의 프라이버시 우려는 게놈 표본이 개인 데이터를 포함하는지 여부에 대한 개념에 따라 발생하거나 물리적 물질로 간주해야 한다.[6] 더욱이 일부 국가는 게놈 데이터를 개인 데이터로 인식하고(그리고 데이터 보호 규칙을 적용) 다른 국가는 샘플을 물리적 물질로 간주하며 게놈 샘플에 동일한 데이터 보호법을 적용하지 않기 때문에 우려가 발생한다. 곧 있을 GDPR(General Data Protection Regulations)은 바이오 뱅킹 및 게놈 연구에서 개인 정보 보호 규제를 더 잘 집행할 수 있는 잠재적 법적 수단으로 언급되어 왔다.[6]

그러나 GDPR 본문의 '개인 데이터'의 정의를 둘러싼 모호성, 특히 생물학적 데이터와 관련한 모호성 때문에 유전자 샘플에 대한 규제가 시행될지에 대한 의구심이 제기되고 있다. 제4조 제(1)항은 개인자료는 "특정하거나 식별할 수 있는 자연인과 관련된 모든 정보('데이터 주체')"[7]로 정의한다고 명시하고 있다.

생물학적 데이터에 대한 딥러닝의 응용

생명과학자는 데이터 과학과 계산력이 급속도로 발전한 결과 딥러닝(DL), 강화학습(RL), 그 조합(딥 RL) 등 생물학적 데이터에 데이터집약적 머신러닝 방법을 적용할 수 있게 됐다. 이러한 방법들은 데이터 저장과 컴퓨팅의 증가와 함께 생명과학자들이 생물학적 데이터를 채굴하고 이전에 너무 크거나 복잡했던 데이터 세트를 분석할 수 있게 했다. 딥러닝(DL)과 강화학습(RL)은 오믹스 연구[1] 분야(유전체학, 단백질학 또는 대사학 포함)에서 사용되어 왔다. 일반적으로 원시 생물학적 시퀀스 데이터(DNA, RNA, 아미노산 등)를 추출해 생물학적 데이터에서 특징, 기능, 구조, 분자역학 등을 분석하는 데 사용한다. 그 이후로는 GE 프로파일링 스플리싱 접합 예측과 같은 다양한 분석이 수행될 수 있으며 단백질-단백질 상호작용 평가가 모두 수행될 수 있다.[1]

행동심리학에서 비롯된 용어인 강화학습은 시행착오를 통해 사물을 학습함으로써 문제를 해결하는 방법이다. 강화학습은 세균 게놈 예측을 위해 RL을 활용함으로써, 오믹스 분야의 생물학적 데이터에 적용할 수 있다.[8]

다른 연구들은 생물학적 시퀀스 주석을 정확하게 예측하기 위해 강화 학습을 사용할 수 있다는 것을 보여주었다.[9]

딥러닝(DL) 아키텍처는 생물학적 데이터를 훈련하는 데도 유용하다. 예를 들어, 생물학적 영상의 픽셀 레벨을 대상으로 하는 DL 아키텍처는 유방의 역사학적 영상에서 유사 분열의 과정을 식별하기 위해 사용되었다. DL 아키텍처는 또한 유방암 세포의 이미지에서 핵을 식별하는 데 사용되었다.[10]

바이오메디컬 정보학의 데이터 마이닝 과제

복잡성

임상 환경 및 생물의학 연구에 종사하는 생명과학자들이 정보의 과부하 가능성에 직면함에 따라 생물 의학 데이터 모델이 직면하고 있는 주요 문제는 일반적으로 복잡성이었다. 그러나 의료 분야에서는 정보 과부하가 종종 논쟁의 대상이 되어 왔다.[11] 계산적 발전은 서로 다른 철학 아래 분리된 공동체가 형성되는 것을 허용했다. 예를 들어, 데이터 마이닝과 머신러닝 연구자들은 생물학적 데이터에서 관련 패턴을 찾고, 아키텍처는 인간의 개입에 의존하지 않는다. 그러나 최종 사용자 이해와 제어와 같은 인간의 개입이 감소할 때 아티팩트를 모델링할 때 관련된 위험이 있다.[12]

연구자들은 의료비 증가와 활용도가 낮은 데이터의 엄청난 양으로 보건 정보 기술이 의료의 효율성과 품질을 향상시키는 열쇠가 될 수 있다고 지적했다.[11]

데이터베이스 오류 및 남용

전자 건강 기록(EHR)은 수백만 명의 환자의 유전적 데이터를 포함할 수 있으며, 이러한 데이터베이스의 생성은 칭찬과 우려를 동시에 낳았다.[4]

법률학자들은 생물 의학 데이터베이스와 관련된 소송의 증가에 대한 세 가지 주요 우려를 지적해 왔다. 첫째, 생물의학 데이터베이스에 포함된 데이터는 부정확하거나 불완전할 수 있다. 둘째로, 연구자의 편견이나 생물 데이터의 특성에서 발생할 수 있는 체계적 편향은 연구 결과의 타당성을 위협할 수 있다. 셋째, 생물학적 데이터베이스에 데이터 마이닝이 존재하면 정치적, 사회적, 경제적 의제를 가진 개인이 연구 결과를 조작하여 여론을 흔들기 쉽게 할 수 있다.[13][4]

데이터베이스 오용의 사례는 2009년 정신건강연구저널(Journal of Hensey Research)이 낙태를 정신질환과 연관시킨 연구를 발표하면서 발생했다.[14] 이 연구의 목적은 낙태 역사와 불안 장애(공황장애, PTSD, Agoraphopia 등)와 정신 질환 사이의 연관성을 약물 남용 장애, 기분 장애와 함께 분석하는 것이었다.

그러나 2012년 과학자들이 이 연구의 방법론을 면밀히 조사하여 심각한 결함이 발견되면서 이 연구는 신빙성이 떨어졌다.[15] 연구진은 연구 결과를 도출하기 위해 "생식 이력과 정신 건강 변수가 있는 국가 데이터 세트"[14]를 사용했었다. 그러나 연구진은 임신중절 이후 발생한 정신과적 문제에 초점을 맞추면서 (계획되지 않은 임신과 낙태를 한) 여성들을 낙태를 하지 않은 여성 그룹에 비교하는 데 실패했다. 그 결과, 과학적 신뢰성을 주는 것으로 보이는 연구 결과는 장기간 정신 건강에 영향을 미칠 수 있기 때문에 낙태 전에 여성들이 상담을 받도록 요구하는 법률을[16] 제정하는 몇몇 주들을 낳았다.

뉴욕 타임즈에 게재된 또 다른 기사는 어떻게 전자 건강 기록(EHR) 시스템이 의료 보험 보상의 목적으로 제공한 진료의 양을 과장하기 위해 의사들에 의해 조작될 수 있는지를 보여주었다.[17][4]

HIPAA에 따른 건강정보의 안전성에 관한 의회조사국 보고서

바이오메디컬 데이터 공유

생물 의학 데이터를 공유하는 것은 연구 재현성과 과학적 발견을 향상시키는 효과적인 방법이라고 선전되어 왔다.[13][18]

연구자들이 데이터 공유에서 기술적 문제와 씨름하는 동안, 사회적 이슈는 생물학적 데이터 공유의 장벽이기도 하다. 예를 들어, 임상의와 연구자는 개인 정보 보호 문제 및 HIPAA와 같은 환자 개인 정보 보호 법률과 같은 의료 공동체 내에서 생물학적 또는 건강 데이터를 공유해야 하는 고유한 문제에 직면한다.[19]

데이터 공유에 대한 태도

2015년 임상의와 과학연구직원의 실무태도를 중심으로 한 연구에[19] 따르면 응답자 대다수가 업무상 데이터 공유가 중요하다고 보고했지만 전문성이 낮다는 것을 의미했다. 조사 응답자 190명 중 135명이 임상 또는 기초연구과학자로 확인했으며, 조사 대상에는 국립보건원 경내연구프로그램에 임상 및 기초연구과학자가 포함됐다. 또한 응답자 중에서는 다른 임상의와 직접 데이터를 공유하는 것이 일반적인 관행이지만, 연구 대상자는 저장소에 데이터를 업로드하는 연습이 거의 없는 것으로 나타났다.

바이오의학 연구 분야에서는 개인화되고 정밀도가 높은 의학의 장점을 충분히 포착하기 위해 연구자들이 데이터를 공유하고 재사용할 수 있는 중요한 방법으로 데이터 공유가 추진되고[20] 있다.[19]

데이터 공유에 대한 당면 과제

의료 분야에서의 데이터 공유는 여러 가지 이유로 인해 난제로 남아 있다. 의료 분야의 데이터 공유에 대한 연구가 진전되었음에도 불구하고, 많은 의료 기관들은 의료 데이터 공개를 여전히 꺼리거나 꺼리고 있다. 의료 정보 보호법(HIPAA)과 같은 개인정보 보호법 때문에 말이다. 또한 기관 간 생물학적 데이터를 공유하려면 여러 조직에 걸쳐 있을 수 있는 데이터에 대한 기밀성을 보호해야 한다. 다양한 프라이버시 요구사항을 충족하면서 데이터 구문 및 의미 이질성을 달성하는 것은 모두 데이터 공유에 장벽을 초래하는 요인이다.[21]

참조

  1. ^ a b c d Mahmud, Mufti; Kaiser, Mohammed Shamim; Hussain, Amir; Vassanelli, Stefano (June 2018). "Applications of Deep Learning and Reinforcement Learning to Biological Data". IEEE Transactions on Neural Networks and Learning Systems. 29 (6): 2063–2079. doi:10.1109/tnnls.2018.2790388. hdl:1893/26814. ISSN 2162-237X. PMID 29771663. S2CID 9823884.
  2. ^ a b Wooley, John C.; Lin, Herbert S.; Biology, National Research Council (US) Committee on Frontiers at the Interface of Computing and (2005). On the Nature of Biological Data. National Academies Press (US).
  3. ^ Nadkarni, P. M.; Brandt, C.; Frawley, S.; Sayward, F. G.; Einbinder, R.; Zelterman, D.; Schacter, L.; Miller, P. L. (1998-03-01). "Managing Attribute-Value Clinical Trials Data Using the ACT/DB Client-Server Database System". Journal of the American Medical Informatics Association. 5 (2): 139–151. doi:10.1136/jamia.1998.0050139. ISSN 1067-5027. PMC 61285. PMID 9524347.
  4. ^ a b c d Hoffman, Sharona; Podgurski, Andy (2013). "The use and misuse of biomedical data: is bigger really better?". American Journal of Law & Medicine. 39 (4): 497–538. doi:10.1177/009885881303900401. ISSN 0098-8588. PMID 24494442. S2CID 35371353.
  5. ^ a b c Islam, Mohd Siblee; Ivanov, S.; Robson, E.; Dooley-Cullinane, T.; Coffey, L.; Doolin, K.; Balasubramaniam, S. (2019). "Genetic similarity of biological samples to counter bio-hacking of DNA-sequencing functionality". Scientific Reports. 9 (1): 8684. Bibcode:2019NatSR...9.8684I. doi:10.1038/s41598-019-44995-6. PMC 6581904. PMID 31213619. S2CID 190652460.
  6. ^ a b Hallinan, Dara; De Hert, Paul (2016), Mittelstadt, Brent Daniel; Floridi, Luciano (eds.), "Many Have It Wrong – Samples Do Contain Personal Data: The Data Protection Regulation as a Superior Framework to Protect Donor Interests in Biobanking and Genomic Research", The Ethics of Biomedical Big Data, Law, Governance and Technology Series, Cham: Springer International Publishing, pp. 119–137, doi:10.1007/978-3-319-33525-4_6, ISBN 978-3-319-33525-4, retrieved 2020-12-09
  7. ^ "Statewatch.org" (PDF). StateWatch.org. Retrieved 3 July 2015.{{cite web}}: CS1 maint : url-status (링크)
  8. ^ Chuang, Li-Yeh; Tsai, Jui-Hung; Yang, Cheng-Hong (July 2010). "Binary particle swarm optimization for operon prediction". Nucleic Acids Research. 38 (12): e128. doi:10.1093/nar/gkq204. ISSN 0305-1048. PMC 2896535. PMID 20385582.
  9. ^ Ralha, C. G.; Schneider, H. W.; Walter, M. E. M. T.; Bazzan, A. L. (October 2010). "Reinforcement Learning Method for BioAgents". 2010 Eleventh Brazilian Symposium on Neural Networks: 109–114. doi:10.1109/SBRN.2010.27. ISBN 978-1-4244-8391-4. S2CID 14685651.
  10. ^ Xu, Jun; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (January 2016). "Stacked Sparse Autoencoder (SSAE) for Nuclei Detection on Breast Cancer Histopathology Images". IEEE Transactions on Medical Imaging. 35 (1): 119–130. doi:10.1109/TMI.2015.2458702. ISSN 0278-0062. PMC 4729702. PMID 26208307.
  11. ^ a b Holzinger, Andreas; Jurisica, Igor (2014), Holzinger, Andreas; Jurisica, Igor (eds.), "Knowledge Discovery and Data Mining in Biomedical Informatics: The Future Is in Integrative, Interactive Machine Learning Solutions", Interactive Knowledge Discovery and Data Mining in Biomedical Informatics: State-of-the-Art and Future Challenges, Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, pp. 1–18, doi:10.1007/978-3-662-43968-5_1, ISBN 978-3-662-43968-5, retrieved 2020-12-09
  12. ^ Shneiderman, Ben (March 2002). "Inventing Discovery Tools: Combining Information Visualization with Data Mining". Information Visualization. 1 (1): 5–12. doi:10.1057/palgrave.ivs.9500006. hdl:1903/6484. ISSN 1473-8716. S2CID 208272047.
  13. ^ a b Mittelstadt, Brent Daniel; Floridi, Luciano (April 2016). "The Ethics of Big Data: Current and Foreseeable Issues in Biomedical Contexts". Science and Engineering Ethics. 22 (2): 303–341. doi:10.1007/s11948-015-9652-2. ISSN 1471-5546. PMID 26002496. S2CID 23142795.
  14. ^ a b Coleman, Priscilla K.; Coyle, Catherine T.; Shuping, Martha; Rue, Vincent M. (May 2009). "Induced abortion and anxiety, mood, and substance abuse disorders: isolating the effects of abortion in the national comorbidity survey". Journal of Psychiatric Research. 43 (8): 770–776. doi:10.1016/j.jpsychires.2008.10.009. ISSN 1879-1379. PMID 19046750.
  15. ^ Kessler, Ronald C.; Schatzberg, Alan F. (March 2012). "Commentary on Abortion Studies of Steinberg and Finer (Social Science & Medicine 2011; 72:72–82) and Coleman (Journal of Psychiatric Research 2009;43:770–6 & Journal of Psychiatric Research 2011;45:1133–4)". Journal of Psychiatric Research. 46 (3): 410–411. doi:10.1016/j.jpsychires.2012.01.021.
  16. ^ "Counseling and Waiting Periods for Abortion". Guttmacher Institute. 2016-03-14. Retrieved 2020-12-09.
  17. ^ Abelson, Reed; Creswell, Julie; Palmer, Griff (2012-09-22). "Medicare Bills Rise as Records Turn Electronic (Published 2012)". The New York Times. ISSN 0362-4331. Retrieved 2020-12-09.
  18. ^ Kalkman, Shona; Mostert, Menno; Gerlinger, Christoph; van Delden, Johannes J. M.; van Thiel, Ghislaine J. M. W. (March 28, 2019). "Responsible data sharing in international health research: a systematic review of principles and norms". BMC Medical Ethics. 20 (1): 21. doi:10.1186/s12910-019-0359-9. ISSN 1472-6939. PMC 6437875. PMID 30922290.
  19. ^ a b c Federer, Lisa M.; Lu, Ya-Ling; Joubert, Douglas J.; Welsh, Judith; Brandys, Barbara (2015-06-24). Kanungo, Jyotshna (ed.). "Biomedical Data Sharing and Reuse: Attitudes and Practices of Clinical and Scientific Research Staff". PLOS ONE. 10 (6): e0129506. Bibcode:2015PLoSO..1029506F. doi:10.1371/journal.pone.0129506. ISSN 1932-6203. PMC 4481309. PMID 26107811.
  20. ^ Shneiderman, Ben (2016-07-21). "Inventing Discovery Tools: Combining Information Visualization with Data Mining1". Information Visualization. 1: 5–12. doi:10.1057/palgrave.ivs.9500006. hdl:1903/6484. S2CID 208272047.
  21. ^ Wimmer, Hayden; Yoon, Victoria Y.; Sugumaran, Vijayan (2016-08-01). "A multi-agent system to support evidence based medicine and clinical decision making via data sharing and data privacy". Decision Support Systems. 88: 51–66. doi:10.1016/j.dss.2016.05.008. ISSN 0167-9236.