질량분석 데이터 형식

Mass spectrometry data format

질량분광법은 이온의 질량 대 충전 비율을 측정하는 과학 기술이다. 가스 크로마토그래피나 액체 크로마토그래피와 같은 크로마토그래피 기법과 결합되는 경우가 많으며, 소분자단백질(단백질)을 식별하고 특성화하는 데 사용할 수 있는 분석 화학생화학 분야에서 널리 채택되고 있음을 발견했다. 전형적인 대량 분광 실험에서 생성된 대량의 데이터는 컴퓨터를 데이터 저장과 처리에 사용할 것을 요구한다. 수년에 걸쳐, 질량 분광기의 제조사마다 그러한 데이터를 처리하기 위한 다양한 독점적 데이터 형식을 개발하여 학술 과학자들이 직접 데이터를 조작하는 것을 어렵게 했다. 이러한 한계를 해결하기 위해, 공공 부문에서의 데이터 조작과 혁신을 촉진하기 위해 시스템 생물학 연구소Trans-Protomic Pipeline에 의해 최근 몇 가지 개방형 XML 기반 데이터 형식이 개발되었다.[1] 이러한 데이터 형식은 여기에 설명되어 있다.

오픈 포맷

제이캠프-DX

이 형식은 대량 분광 분석에서 데이터 교환을 위한 표준화된 파일 형식을 제공하려는 초기 시도 중 하나이다. JCAMP-DX는 처음에 적외선 분광 분석을 위해 개발되었다. JCAMP-DX는 ASCII 기반 포맷이므로 파일 압축 표준을 포함해도 그다지 소형화되지 않는다. JCAMP는 1988년에 정식 출시되었다.[2] 미국질량분석학회(American Society for Mass Spectrometry)와 함께 질량분석을 위한 JCAMP-DX 형식이 레거시 데이터 보존을 목적으로 개발되었다.[3]

ANDI-MS 또는 netCDF

질량분석을 위한 분석 데이터 교환 형식은 데이터를 교환하는 형식이다. 많은 대량 분석 소프트웨어 패키지는 ANDI 파일을 읽거나 쓸 수 있다. ANDI는 ASTM E1947 표준에 명시되어 있다.[4] ANDI는 데이터 파일 작성과 열람을 위한 소프트웨어 도구 라이브러리인 netCDF를 기반으로 한다. ANDI는 처음에 크로마토그래피-MS 데이터를 위해 개발되었기 때문에 XML을 기반으로 한 새로운 형식이 개발되는 단백질학 골드러시에서는 사용되지 않았다.[5]

애니멀

AnIMLIUPACASTM International이 협력하여 매스 분광법을 비롯한 다양한 분석 기법을 망라한 XML 기반 표준을 만들었다.[6]

mzData

mzData는 인간 프로테오메 조직(HUPO)의 PSI(Proteomics Standards Initiative)가 질량 분광학 데이터의 표준화된 형식을 만들려는 첫 시도였다.[7] 이 형식은 이제 사용되지 않으며 mzML로 대체된다.[8]

mzXML

mzXML은 단백질학 질량분석 데이터를 위한 XML(eXtensible Markup Language) 기반의 공통 파일 형식이다.[9][10] 이 형식은 HUPO-PSI가 표준화된 mzData 형식을 지정하려고 하는 동안 시애틀 프로테오메 센터/Institute for Systems Biology에서 개발되었으며, 여전히 프로테오믹스 커뮤니티에서 사용되고 있다.

YAFMS

그러나 질량분석을 위한 또 다른 형식(Another Format for Mass Spectrometry, YAFMS)은 데이터를 추출하고 SQL 쿼리를 사용하여 연습하는 것을 추가하는 4개의 테이블 관계형 서버 없는 데이터베이스 스키마에 데이터를 저장하자는 제안이다.[11]

mzML

동일한 정보를 나타내는 두 가지 형식(mzData와 mzXML)이 바람직하지 않은 상태임에 따라, mzData와 mzXML의 가장 좋은 측면을 모두 차용하는 통일 표준을 만들기 위해 HUPO-PSI, SPC/ISB 및 계측기 벤더가 공동 노력을 설정하였으며, 이를 대체하고자 하였다. 원래 dataXML이라고 불렸으며, mzML로 공식 발표되었으며,[12] 2008년 6월에 첫 번째 사양이 발표되었다.[13] 이 형식은 2008년 미국질량분석학회 모임에서 공식적으로 발표되었으며, 그 이후 업데이트는 거의 없어 비교적 안정적이다. 2009년 6월 1일 mzML 1.1.0이 출시되었다. 2013년 현재 계획된 추가 변경은 없다.

mzAPI

새로운 파일 형식을 정의하고 독점 판매업체 포맷을 위한 변환기를 작성하는 대신에, 한 그룹의 과학자들은 기기 제조사의 기존 데이터 액세스 라이브러리에 대한 표준 준수 부담을 전가하기 위해 공통 애플리케이션 프로그램 인터페이스를 정의할 것을 제안했다.[14]

mz5

mz5 형식은 이전 XML 기반 형식의 성능 문제를 다룬다. mzML 온톨로지를 사용하지만 HDF5 백엔드를 사용하여 데이터를 저장하므로 스토리지 공간 요구사항이 줄어들고 읽기/쓰기 속도가 향상된다.[15]

imzML

mzML 표준은 mzML 온톨로지 기반의 표준화된 XML 파일로 매스 분광 분석 이미징의 데이터를 교환하기 위해 제안되었다. 실험 데이터를 XML로, 스펙트럼 데이터를 이진 파일로 나눈다. 두 파일 모두 보편적으로 고유한 식별자에 의해 연결된다.[16]

mzDB

mzDB는 관계형 데이터베이스에서 데이터 지점을 쿼리할 수 있으므로 SQLite 데이터베이스에 데이터를 저장하여 저장 공간을 절약하고 액세스 시간을 단축한다.[17]

토피

Toffee는 데이터 독립 획득 대량 분광 분석을 위한 개방형 무손실 파일 형식이다.회사는 HDF5를 활용하며 독점적 및 폐쇄적 벤더 포맷과 유사한 파일 크기를 달성하는 것을 목표로 한다.[18]

mzMLb

mzMLb는 HDF5 백엔드를 사용하여 Raw data(로우 데이터)를 저장하는 또 다른 방법이다. 그러나 mzML XML 데이터 구조를 보존하고 기존 표준을 준수한다.[19]

소유권 형식

아래는 파일 형식 확장명이 다른 표입니다.

회사 확장 파일 형식
애질런트
브루커
.D(폴더) Agilent MassHunter, Agilent ChemStation 또는 Bruker BAF/YEP/TDF 데이터 형식
애질런트/브루커 .YEP 계측기 데이터 형식
브루커 .BAF 계측기 데이터 형식
브루커 .FID 계측기 데이터 형식
브루커 .TDF timsTOF 계측기 데이터 형식
ABI/Sciex .WIFF 계측기 데이터 형식
ABI/Sciex .t2d 4700 및 4800 파일 형식
.PKL MassLynx 피크 목록 형식
테르모
페르키넬머
.RAW* 테르모 크칼리버
페르키넬머 터보매스
마이크로매스***/워터스 .RAW*(폴더) 워터스 매슬린스
크롬텍
피니건****
VG
.DAT Finnigan ITDS 파일 형식, MAT95 계측기 데이터 형식
MassLab 데이터 형식
피니건**** .MS ITS40 계측기 데이터 형식
시마즈 .QGD GCMSSolution 형식
시마즈 .qgd 계측기 데이터 형식
시마즈 .cs QQQ/QTOF 계측기 데이터 형식
시마즈 .cs 라이브러리 데이터 형식
브루커/바리안 .SMS 계측기 데이터 형식
브루커/바리안 .XMS 계측기 데이터 형식
이온-토프 .itm 원시 측정 데이터
이온-토프 .ita 분석 자료
물리전자/ULVAC-PHI .raw* 원시 측정 데이터
물리전자/ULVAC-PHI .tdc 스펙트럼 데이터

(*) 각 벤더의 RAW 형식은 교환할 수 없으며, 한 벤더의 소프트웨어는 다른 벤더의 RAW 파일을 처리할 수 없다는 점에 유의하십시오.
(***) 마이크로매스는 1997년 워터스 사에 인수되었다.
(****) 피니건은 써모 사단의 사단이다.

소프트웨어

시청자들

mzXML,[27] mzML, mzData의 시청자는 MZminine,[20] PEQUES,[21] Insilicos,[22] MS-Spectre,[23] TOPPView(mzXML, mzML 및 mzData),[24] 스펙트럼 [25][26]뷰어, SeeMS, Msinspect, jmzML[28], Mascot Gruffer 등 여러 명이 있다.[29]

ITA 영상 시청자가 있다.[30] ITA 및 ITM 영상은 pySPM python 라이브러리로 구문 분석할 수 있다.[31]

컨버터

mzData에서 mzX로의 알려진 변환기ML:

헤르메스: 모든 방향의 Java[32][33] "mzData, mzXML, mzML" 변환기: 공개 가능, ETH 취리히 Molecular Systems Biology에 의해 그래픽 사용자 인터페이스로 실행
FileConverter: TOPP의[35] 일부인 [34]다양한 질량 분석 형식으로 변환하거나 변환하는 명령줄 도구

mzX용 알려진 변환기ML:

시스템 생물학 연구소는 변환기[36] 목록을 유지한다.

mzML에 대해 알려진 변환기:

msConvert:[37][38] 다양한 질량 분석 형식에서 변환하는 명령줄 도구. Windows 사용자도 GUI를 사용할 수 있다.
ReAdW:[39] Thermo RAW 파일용 Institute for Systems Biology 명령줄 컨버터, TransProtomicPipeline의 일부.[40] 이 도구의 최신 업데이트는 2009년 9월에 이루어졌다. 사용자들은 이제 TPP 개발팀에 의해 msConvert 소프트웨어를 사용하도록 리디렉션된다(위 참조).
FileConverter: TOPP의[35] 일부인 [34]다양한 질량 분석 형식으로 변환하거나 변환하는 명령줄 도구

소유권 형식을 위한 변환기:

msConvert:[37][38] 여러 개의 고유 형식을 포함한 다양한 질량 분석 형식에서 변환하는 명령줄 도구. Windows 사용자도 GUI를 사용할 수 있다.
대부분의 기본 파일 형식(.baf)에 대해 mzXML(현재 mzData)[citation needed] 파일을 생성하는 Bruker의 무료 도구인 CompassXport.
Palisade Corporation이 독점 형식 간에 데이터를 변경하고 Scientific Instrument Services, Inc[41]. 및 PerkinElmer가 배포하는 소프트웨어인 MASSTransit.[42] 2020년 팰리세이드에서 John Wiley and Sons에 구입하여 KnowItAll Spectroscopy 소프트웨어에 통합.(지원되는 파일 형식 목록).
Aston,[43] Agilent Chemstation, Agilent Masshunter 및 Thermo Isodat 파일 형식에 대한 기본 지원
언피니건,[44] 피니건(*)에 대한 원주민 지원.RAW) 파일 형식
OpenChrom은 자체 오픈 .ocb 포맷을 포함한 다양한 네이티브 파일 형식을 크로마토그램, 피크 및 식별 결과를[45] 저장하도록 변환할 수 있는 지원을 받는 오픈 소스 소프트웨어 입니다.

현재 사용할 수 있는 변환기는 다음과 같다.

MassWolf, Micromass MassLynx.원시 형식
mzStar(SCIEX/ABI SCIEX/ABI 분석가 형식용)
mzXML, DTA, MGF 및 PMF에 SCIEX/ABI 분석기 형식에 대한 wiff2dta[46]

참고 항목

참조

  1. ^ Deutsch EW (December 2012). "File formats commonly used in mass spectrometry proteomics". Molecular & Cellular Proteomics. 11 (12): 1612–21. doi:10.1074/mcp.R112.019695. PMC 3518119. PMID 22956731.
  2. ^ R.S. 맥도날드와 P.A. Wilks; "JCAMP-DX: 컴퓨터 판독형 형태의 적외선 스펙트럼 교환을 위한 표준 양식"; 응용 스펙트럼 분석, 제42권, 제1호, 1988년 1월, pp-151-162.
  3. ^ Lampen P, Hillig H, Davies AN, Linscheid M (December 1994). "JCAMP-DX for mass spectrometry". Applied Spectroscopy. 48 (12): 1545–52.
  4. ^ ASTM E1947 – 98(2009) 크로마토그래픽 데이터를 위한 분석 데이터 교환 프로토콜 표준 규격
  5. ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L, et al. (January 2014). "Controlled vocabularies and ontologies in proteomics: overview, principles and practice". Biochimica et Biophysica Acta. 1844 (1 Pt A): 98–107. doi:10.1016/j.bbapap.2013.02.017. PMC 3898906. PMID 23429179.
  6. ^ Davies, Tony (2007). "Herding AnIMLs (no, it's not a spelling mistake): Update on the IUPAC and ASTM Collaboration on Analytical Data Standards". Chemistry International. 29 (6).
  7. ^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N, et al. (October 2007). "Five years of progress in the Standardization of Proteomics Data 4th Annual Spring Workshop of the HUPO-Proteomics Standards Initiative April 23-25, 2007 Ecole Nationale Supérieure (ENS), Lyon, France". Proteomics. 7 (19): 3436–40. doi:10.1002/pmic.200700658. PMID 17907277. S2CID 22837325.
  8. ^ "mzData". HUPO-PSI. Archived from the original on 7 July 2018. Retrieved 26 April 2021.
  9. ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B, et al. (November 2004). "A common open representation of mass spectrometry data and its application to proteomics research". Nature Biotechnology. 22 (11): 1459–66. doi:10.1038/nbt1031. PMID 15529173. S2CID 25734712.
  10. ^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (December 2005). "What is mzXML good for?". Expert Review of Proteomics. 2 (6): 839–45. doi:10.1586/14789450.2.6.839. PMID 16307524. S2CID 24914725.
  11. ^ Shah AR, Davidson J, Monroe ME, Mayampurath AM, Danielson WF, Shi Y, et al. (October 2010). "An efficient data format for mass spectrometry-based proteomics". Journal of the American Society for Mass Spectrometry. 21 (10): 1784–8. doi:10.1016/j.jasms.2010.06.014. PMID 20674389.
  12. ^ "mzML". HUPO-Proteomics Standards Initiative. Retrieved 19 April 2013.
  13. ^ Deutsch E (July 2008). "mzML: a single, unifying data format for mass spectrometer output". Proteomics. 8 (14): 2776–7. doi:10.1002/pmic.200890049. PMID 18655045. S2CID 28297899.
  14. ^ Askenazi M, Parikh JR, Marto JA (April 2009). "mzAPI: a new strategy for efficiently sharing mass spectrometry data". Nature Methods. 6 (4): 240–1. doi:10.1038/nmeth0409-240. PMC 2691659. PMID 19333238.
  15. ^ Wilhelm M, Kirchner M, Steen JA, Steen H (January 2012). "mz5: space- and time-efficient storage of mass spectrometry data sets". Molecular & Cellular Proteomics. 11 (1): O111.011379. doi:10.1074/mcp.O111.011379. PMC 3270111. PMID 21960719.
  16. ^ Schramm T, Hester Z, Klinkert I, Both JP, Heeren RM, Brunelle A, et al. (August 2012). "imzML--a common data format for the flexible exchange and processing of mass spectrometry imaging data". Journal of Proteomics. 75 (16): 5106–5110. doi:10.1016/j.jprot.2012.07.026. PMID 22842151.
  17. ^ Bouyssié D, Dubois M, Nasso S, Gonzalez de Peredo A, Burlet-Schiltz O, Aebersold R, Monsarrat B (March 2015). "mzDB: a file format using multiple indexing strategies for the efficient analysis of large LC-MS/MS and SWATH-MS data sets". Molecular & Cellular Proteomics. 14 (3): 771–81. doi:10.1074/mcp.O114.039115. PMC 4349994. PMID 25505153.
  18. ^ Tully B (June 2020). "Toffee – a highly efficient, lossless file format for DIA-MS". Scientific Reports. 10 (1): 8939. doi:10.1038/s41598-020-65015-y. PMC 7265431. PMID 32488104.
  19. ^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (January 2021). "mzMLb: A Future-Proof Raw Mass Spectrometry Data Format Based on Standards-Compliant mzML and Optimized for Speed and Storage Requirements". Journal of Proteome Research. 20 (1): 172–183. doi:10.1021/acs.jproteome.0c00192. PMC 7871438. PMID 32864978.
  20. ^ "MZmine website".
  21. ^ "BSI: PEAKS website". Bioinfor.com. Retrieved 29 November 2011.
  22. ^ "Insilicos website". Archived from the original on 20 December 2014. Retrieved 28 March 2020.
  23. ^ "MS-Spectre website". Ms-spectre.sourceforge.net. Retrieved 29 November 2011.
  24. ^ "OpenMS and TOPP website". Open-ms.sourceforge.net. Retrieved 29 November 2011.
  25. ^ "An open source viewer developed under academic projects". Staff.icar.cnr.it. Retrieved 29 November 2011.
  26. ^ "An open source viewer developed by Matt Chambers at Vanderbilt". Proteowizard.sourceforge.net. Retrieved 29 November 2011.
  27. ^ "An open source viewer developed by at the Fred Hutchinson Cancer Center". Proteomics.fhcrc.org. Retrieved 29 November 2011.
  28. ^ "jmzML". Retrieved 29 November 2011.
  29. ^ Matrix Science Limited. "Commercial software with free viewer mode for mzXML and many proprietary formats". Matrixscience.com. Retrieved 29 November 2011.
  30. ^ "ITAviewer online".
    "ITAviewer source".
  31. ^ "pySPM website".
  32. ^ 2016년 3월 3일 웨이백 머신보관헤르메스
  33. ^ "Hermes website". Icecoffee.ch. Retrieved 29 November 2011.
  34. ^ a b "FileConverter". Open-ms.sourceforge.net. Retrieved 29 November 2011.
  35. ^ a b TOPP 2008년 4월 15일 웨이백 머신보관
  36. ^ "mzXML". Retrieved 30 June 2008.
  37. ^ a b "msconvert". ProteoWizard. Retrieved 20 April 2013.
  38. ^ a b "ProteoWizard". Retrieved 20 April 2013.
  39. ^ "ReAdW". Tools.proteomecenter.org. Retrieved 29 November 2011.
  40. ^ "TransProteomicPipeline". Tools.proteomecenter.org. 25 May 2011. Retrieved 29 November 2011.
  41. ^ MASSTransit by Palisade 2008년 5월 9일 웨이백 머신보관
  42. ^ "Gas Chromatography (GC)". PerkinElmer. Retrieved 29 November 2011.
  43. ^ Aston – 오픈 소스 크로마토그래피 및 매스 분광 분석 소프트웨어 – Google 프로젝트 호스팅
  44. ^ 언피니건 – 써모 "원시" 파일에서 질량 스펙트럼 추출 – Google 프로젝트 호스팅
  45. ^ Dąbrowski Ł (7 August 2015). "Review of free data processing software for chromatography". Mediterranean Journal of Chemistry. 4 (4): 193–200. doi:10.13171/mjc.4.4.2015.15.09.16.35/dabrowski.
  46. ^ 소스포지에 2dta at sourceforge.