EMRBots

EMRBots


우리 카툰은 2019년 2월 스탠포드 대학에서 EMRBotts를 선보이고 있다.

EMRBotts는 실험적으로 인공적으로 생성된 전자 의료 기록(EMR)이다.[1][2] EMRBots의 목적은 (대학과 같은) 비영리 단체가 인공 환자 저장소를 사용하여 통계 및 기계 학습 알고리즘을 연습할 수 있도록 하는 것이다. 상업적 기업도 저장소를 사용하여 소프트웨어 제품을 만들지 않는 한 저장소를 어떤 목적으로든 사용할 수 있다.

ACM 통신에 게재된 서한은 "... EMRBotts는 인구통계학, 입학, 합병증, 실험실 값 등 모든 크기의 합성 환자 집단을 생성할 수 있다. 합성환자는 비밀유지 제한이 없어 누구나 기계학습 알고리즘을 연습할 수 있다."[3]

배경

EMR은 민감한 개인 정보를 포함하고 있다. 예를 들어 인체면역결핍바이러스(HIV)와 같은 감염병에 대한 세부사항을 포함하거나 정신질환에 대한 정보를 포함할 수 있다. 그들은 또한 불임 치료와 관련된 의료 세부사항과 같은 다른 민감한 정보를 포함할 수 있다. EMR은 기밀유지 요건의 대상이 되기 때문에 EMR 데이터베이스에 접근하고 분석하는 것은 소수의 개인에게만 부여되는 특권이다. EMR 시스템에 접근할 수 없는 기관에서 일하는 개인들은 이 귀중한 자원으로 실무 경험을 얻을 기회가 없다. 시뮬레이션 의료 데이터베이스는 현재 사용할 수 있지만 구성하기가 어렵고 실제 임상 데이터베이스와 유사성이 제한된다. 실제 환자 데이터에 최소로 의존하면서 접근성이 높은 인공 환자 EMR 저장소를 생성하는 것은 저개발 국가에 거주하는 의료인을 포함한 더 넓은 범위의 의료진에게 귀중한 자원이 될 것으로 기대된다.

학술용도

2018년 4월 생물정보학(저널)은 EMRBots 데이터에 의존하여 "commoRbidity"[4]로 표시된 새로운 R 패키지를 만드는 연구를 발표했다. 이번 연구의 공동 저자는 폼페우 파브라 유니버시아드하버드 대학의 과학자들을 포함했다. 이 저장소는 연구를 가속화하기 위해 사용되어 왔다. 예를 들어, 미시간 주립 대학교, IBM Research, 코넬 대학교의 연구원들이 KDD(Knowledge Discovery and Data Mining) 컨퍼런스에서 연구를 발표하였다.[5][6][7][8] 이들의 연구는 1997년 셉 호크라이터위르겐 슈미두버가 개발한 널리 사용되는 장기기억 신경망보다 성능이 뛰어난 참신한 신경망을 설명한다.[9] 2018년 5월 IBM Research and Cornell University의 과학자들은 이 저장소를 Health-ATM으로 알려진 새로운 심층 건축물을 시험하기 위해 사용했다. 전통적인 신경망보다 우월함을 증명하기 위해, 그들은 울혈성 심부전 사용 사례에 그들의 구조를 적용했다.[10] 이 외에도 시카고 대학교는 저장소를 이용한 R 사용법을 보여주는 매우 상세한 튜토리얼을 만들고,[11] 캘리포니아 대학교 머세드,[12][13] 핀란드 Tampere 대학교 등이 있다.[14][15] 추가 자원은 다음과 같다.[16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][40][41]

2019년 3월에는 하버드 의과대학이 개설한 강좌인 "컴퓨터가 가능한 의학"을 향상시키기 위해 저장소를 사용하였다.[42] 더 나아가 3월에는 북경대, 도쿄대, 밀라노 폴리테크닉대 등 여러 기관의 과학자들이 이 저장소를 활용해 의료정보 프라이버시에 초점을 맞춘 새로운 틀을 개발했다.[43]

해커톤에 사용

카네기 멜론 대학의 연구원들은 예측 도구를 만들기 위해 CMU HackAuton 해커톤에서 EMRBots 데이터를 사용했다.[44] 추가 사용이 가능하다.[45]

EMRBotts는 프린스턴 대학교가 주관하는 HackPrincipleton 2018에서 발표되었다.[46][47][48]

EMRBotts는 스탠퍼드 대학교가 주관하는 TreeHacks 2019에서 선보였다.[49]

유용성

리포지토리는 등록 후 다운로드할 수 있다.[50]

리포지토리는 등록 없이 Figshare에서 다운로드할 수 있다.[51][52][53]

리포지토리 생성을 위한 전체 소스 코드는 Figshare에서 다운로드할 수 있다.[54]

EMRBots에 대한 모든 소스 코드는 ExvierSoftware Impacts GitHub 사이트에서 사용할 수 있다.[55][56]

노스웰 헬스 EMRBot

2018년 5월 Northwell Health는 보건 시스템의 세 번째 연간 혁신 과제에서 EMRBOT로 표시된 프로젝트에 자금을 지원했다. 그러나 노스웰헬스의 EMRBot은 우리카툰의 웹사이트(2015년 4월 도메인명으로 등록, www.emrbots.org)나 그 어떤 리포지토리나 애플리케이션과도 관련이 없다.

비판

"[EMRBots]는 합성 EHR의 사전 생성 데이터셋이며 데이터셋 생성 방법에 대한 설명이 불충분하다. 이러한 데이터 집합은 건강 문제, 나이, 성별 간에 몇 가지 불일치를 나타낸다."[57][58] 추가적인 비판은 매시대학이 부여한 논문("합성 데이터 생성의 현실주의")에 기술되어 있다.[59]

기타 합성 의료 데이터 리소스

케어클라우드

MDClone[60]

합성매스[61]

싱트렌[62]

참조

  1. ^ Kartoun, Uri (September 2019). "Advancing informatics with electronic medical records bots (EMRBots)". Software Impacts. 2: 100006. doi:10.1016/j.simpa.2019.100006.
  2. ^ Kartoun, Uri (2016). "A methodology to generate virtual patient repositories". arXiv:1608.00570 [cs.CY].
  3. ^ CACM Staff (1 January 2018). "A leap from artificial to intelligence". Communications of the ACM. 61 (1): 10–11. doi:10.1145/3168260.
  4. ^ Gutiérrez-Sacristán, Alba; Bravo, Àlex; Giannoula, Alexia; Mayer, Miguel A; Sanz, Ferran; Furlong, Laura I; Kelso, Janet (15 September 2018). "comoRbidity: an R package for the systematic analysis of disease comorbidities". Bioinformatics. 34 (18): 3228–3230. doi:10.1093/bioinformatics/bty315. PMC 6137966. PMID 29897411.
  5. ^ "Patient Subtyping via Time-Aware LSTM Networks". Kdd.org. Retrieved 24 May 2018.
  6. ^ "SIGKDD". Kdd.org. Retrieved 24 May 2018.
  7. ^ "Patient subtyping" (PDF). biometrics.cse.msu.edu. Retrieved 2020-02-03.
  8. ^ "Thesis" (PDF). biometrics.cse.msu.edu. Retrieved 2020-02-03.
  9. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1997). "Long short-term memory". Neural Comput. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
  10. ^ Ma, Tengfei; Xiao, Cao; Wang, Fei (2018). "Health-ATM: A Deep Architecture for Multifaceted Patient Health Record Representation and Risk Prediction". Proceedings of the 2018 SIAM International Conference on Data Mining. pp. 261–269. doi:10.1137/1.9781611975321.30. ISBN 978-1-61197-532-1.
  11. ^ "Statistical Modeling of Clinical Data" (PDF). Cri.uchicago.edu. Retrieved 24 May 2018.
  12. ^ Bahrami, Mehdi; Singhal, Mukesh (2015). "A dynamic cloud computing platform for eHealth systems". A dynamic cloud computing platform for eHealth systems - IEEE Conference Publication. pp. 435–438. doi:10.1109/HealthCom.2015.7454539. ISBN 978-1-4673-8325-7. S2CID 25042895.
  13. ^ "Publication - UC Merced Cloud Lab". Cloudlab.ucmerced.edu.
  14. ^ "Fairness in Group Recommendations in the Health Domain" (PDF). People.uta.fi. Retrieved 24 May 2018.
  15. ^ "MLARAPP". Devpost.com. Retrieved 24 May 2018.
  16. ^ "illidanlab/T-LSTM". GitHub. Retrieved 24 May 2018.
  17. ^ Stratigi, Maria; Kondylakis, Haridimos; Stefanidis, Kostas (2018). Database and Expert Systems Applications. Lecture Notes in Computer Science. Vol. 11030. pp. 147–155. doi:10.1007/978-3-319-98812-2_11. hdl:10024/104308. ISBN 978-3-319-98811-5.
  18. ^ "Teaching data science fundamentals through realistic synthetic clinical cardiovascular data". bioRxiv 10.1101/232611.
  19. ^ Bhuiyan, Mansurul A.; Hasan, Mohammad Al (2016). "PRIIME: A generic framework for interactive personalized interesting pattern discovery". PRIIME: A generic framework for interactive personalized interesting pattern discovery - IEEE Conference Publication. pp. 606–615. arXiv:1607.05749. doi:10.1109/BigData.2016.7840653. ISBN 978-1-4673-9005-7. S2CID 8454336.
  20. ^ "Generic frameworks for interactive personalized interesting pattern discovery" (PDF). Dmgroup.cs.iupui.edu. Retrieved 24 May 2018.
  21. ^ "Obstacle Avoider Robotic Vehicle" (PDF). Repository.sustech.edu. Retrieved 24 May 2018.
  22. ^ Nithya, M.; Sheela, T. (2019). "Predictive delimiter for multiple sensitive attribute publishing". Cluster Computing. 22: 12297–12304. doi:10.1007/s10586-017-1612-y. S2CID 12093722.
  23. ^ Janaswamy, Sreya; Kent, Robert D. (2016). "Semantic Interoperability and Data Mapping in EHR Systems". 2016 IEEE 6th International Conference on Advanced Computing (IACC). pp. 117–122. doi:10.1109/IACC.2016.31. ISBN 978-1-4673-8286-1. S2CID 17062479.
  24. ^ "Improving patient screening by applying predictive analytics to electronic medical records.: Big data conference & machine learning training Strata Data".
  25. ^ "Technical Program". insticc.org.
  26. ^ "Data" (PDF). xuc.me. Retrieved 2020-02-03.
  27. ^ Chen, J; Chun, D; Patel, M; Chiang, E; James, J (2019). "The validity of synthetic clinical data: a validation study of a leading synthetic data generator (Synthea) using clinical quality measures". BMC Med Inform Decis Mak. 19 (1): 44. doi:10.1186/s12911-019-0793-0. PMC 6416981. PMID 30871520.
  28. ^ "Paper" (PDF). www.ijitee.org. Retrieved 2020-02-03.
  29. ^ "Info" (PDF). sutir.sut.ac.th:8080. Retrieved 2020-02-03.
  30. ^ "Full issue" (PDF). sigmodrecord.org. Retrieved 2020-02-03.
  31. ^ "Publication" (PDF). uclab.khu.ac.kr. Retrieved 2020-02-03.
  32. ^ "Media" (PDF). api.sunlab.org. Retrieved 2020-02-03.
  33. ^ Ayala Solares, Jose Roberto; Diletta Raimondi, Francesca Elisa; Zhu, Yajie; Rahimian, Fatemeh; Canoy, Dexter; Tran, Jenny; Pinho Gomes, Ana Catarina; Payberah, Amir H.; Zottoli, Mariagrazia; Nazarzadeh, Milad; Conrad, Nathalie; Rahimi, Kazem; Salimi-Khorshidi, Gholamreza (January 1, 2020). "Deep learning for electronic health records: A comparative review of multiple deep neural architectures". Journal of Biomedical Informatics. 101: 103337. doi:10.1016/j.jbi.2019.103337. PMID 31916973.
  34. ^ https://medinform.jmir.org/2020/2/e16492/
  35. ^ 상태 도메인의 다차원 그룹 권장 사항
  36. ^ Satti, Fahad Ahmed; Ali Khan, Wajahat; Ali, Taqdir; Hussain, Jamil; Yu, Hyeong Won; Kim, Seoungae; Lee, Sungyoung (2020). "Semantic Bridge for Resolving Healthcare Data Interoperability". 2020 International Conference on Information Networking (ICOIN). pp. 86–91. doi:10.1109/ICOIN48656.2020.9016461. ISBN 978-1-7281-4199-2. S2CID 212634693.
  37. ^ Satti, Fahad Ahmed; Ali, Taqdir; Hussain, Jamil; Khan, Wajahat Ali; Khattak, Asad Masood; Lee, Sungyoung (2020). "Ubiquitous Health Profile (UHPr): A big data curation platform for supporting health data interoperability". Computing. 102 (11): 2409–2444. doi:10.1007/s00607-020-00837-2.
  38. ^ Al‐Qahtani, Meshal; Katsigiannis, Stamos; Ramzan, Naeem (2021). "Information Retrieval from Electronic Health Records". Engineering and Technology for Healthcare. pp. 117–127. doi:10.1002/9781119644316.ch6. ISBN 9781119644248. S2CID 229413648.
  39. ^ http://www.ejournal.org.cn/Jweb_cje/EN/Y2021/V30/I2/219
  40. ^ Satti, Fahad Ahmed; Hussain, Musarrat; Hussain, Jamil; Ali, Syed Imran; Ali, Taqdir; Bilal, Hafiz Syed Muhammad; Chung, Taechoong; Lee, Sungyoung (2021). "Unsupervised Semantic Mapping for Healthcare Data Storage Schema". IEEE Access. 9: 107267–107278. doi:10.1109/ACCESS.2021.3100686. S2CID 236940396.
  41. ^ Abbasi, Afsoon; Mohammadi, Behnaz (2021). "A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud". Concurrency and Computation: Practice and Experience. 34. doi:10.1002/cpe.6487. S2CID 237767088.
  42. ^ "kartoun/IBM-Harvard-Workshop". August 18, 2019 – via GitHub.
  43. ^ "POET: Privacy on the Edge with Bidirectional Data Transformations" (PDF). Retrieved 2020-02-03.
  44. ^ Gebert, Theresa; Jiang, Shuli; Sheng, Jiaxian (2018). "Characterizing Allegheny County opioid overdoses with an interactive data explorer and synthetic prediction tool". arXiv:1804.08830 [stat.AP].
  45. ^ "GitHub - gyaneshanand/Rajasthan_Hackathon_5.0". GitHub. 2018-07-26.
  46. ^ "HackPrinceton Fall 2018 Workshops". 2018-11-10.
  47. ^ Kartoun, Uri (2018-11-10). "Advancing informatics with electronic medical records bots (HackPrinceton 2018)". doi:10.6084/m9.figshare.7325903.v1. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  48. ^ "Archived copy". hackprinceton.com. Archived from the original on 17 December 2018. Retrieved 17 January 2022.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)
  49. ^ "TreeHacks 2020". live.treehacks.com.
  50. ^ "EMRBOTS.ORG". EMRBOTS.ORG.
  51. ^ Kartoun, Uri (2018-09-03). "EMRBots: A 100-patient database". figshare. doi:10.6084/m9.figshare.7040039.v3. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  52. ^ Kartoun, Uri (2018-09-03). "EMRBots: A 10,000-patient database". figshare. doi:10.6084/m9.figshare.7040060.v3. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  53. ^ Kartoun, Uri (2018-09-03). "EMRBots: A 100,000-patient database". figshare. doi:10.6084/m9.figshare.7040198.v1. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  54. ^ Kartoun, Uri (2018-09-03). "EMRBots: Full source code". doi:10.6084/m9.figshare.7040204.v2. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  55. ^ "SoftwareImpacts/SIMPAC-2019-8". November 20, 2019 – via GitHub.
  56. ^ "Software Impacts" – via www.journals.elsevier.com.
  57. ^ Walonoski, J; et al. (2018). "Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record". J Am Med Inform Assoc. 25 (3): 230–238. doi:10.1093/jamia/ocx079. PMC 7651916. PMID 29025144.
  58. ^ "Corrigendum". Journal of the American Medical Informatics Association. 25 (7): 921. 2017. doi:10.1093/jamia/ocx147. PMC 6016640. PMID 29253166.
  59. ^ "Realism in Synthetic Data Generation" (PDF). Mro.massey.ac.nz. Retrieved 24 May 2018.
  60. ^ "Israeli healthcare data engine firm MDClone raises $26 mln". Reuters. August 22, 2019 – via www.reuters.com.
  61. ^ "Data". synthea.mitre.org. Retrieved 2020-02-03.
  62. ^ Van Den Bulcke, Tim; Van Leemput, Koenraad; Naudts, Bart; Van Remortel, Piet; Ma, Hongwu; Verschoren, Alain; De Moor, Bart; Marchal, Kathleen (2006). "SynTReN: A generator of synthetic gene expression data for design and analysis of structure learning algorithms". BMC Bioinformatics. 7: 43. doi:10.1186/1471-2105-7-43. PMC 1373604. PMID 16438721.