MPEG-G

MPEG-G

MPEG-G(ISO / IEC 23092)는 ISO/IEC JTC 1/SC 29/WG 9(MPEG)와 ISO TC 276 "바이오테크놀로지" 작업 그룹 5의 협업을 통해 유전적 정보 표현을 위해 설계된 ISO/IEC 표준이다. 이 표준의 목표는 고투과 시퀀싱 기계와 후속 처리 및 분석에 의해 생성되는 데이터 정보에 대해 가능한 여러 구현에 걸쳐 데이터 스토리지, 액세스 및 보호를 위한 상호운용 가능한 솔루션을 제공하는 것이다.[1][2] 표준은 서로 다른 부분으로 구성되며, 각각 압축, 메타데이터 연결, API(응용프로그램 인터페이스), 데이터 디코딩을 위한 참조 소프트웨어와 같은 특정 측면을 다룬다. 참조 디코더 소프트웨어와 함께, 상용 및 오픈[3] 소스 구현이 2019년부터 제공되기 시작했으며, 점차적으로 표준의 발행된 부분을 더 많이 다루고 있다.

배경

고투과 시퀀싱(HTS) 기술의 등장은 양적 생물학 분야에 혁명을 일으켰다. 게놈 정보의 다량 수집은 이제 일상 생활로 접어들었고, 생물학적 연구에서부터 클리닉의 개인화된 의학에 이르기까지 다양한 분야의 초석이 되었다. 현재 게놈 정보는 비정렬 시퀀싱 읽기의 경우 FASTA/FASTQ, 정렬된 읽기의 경우 SAM/BAM/CRAM 등 다양한 데이터 형식을 통해 대부분 교환된다. 생물학적 연구는 일반적으로 지도 통계, 정량적 브라우저 트랙, 변형, 게놈 기능 주석, 유전자 표현 데이터, Hi-C 접촉 매트릭스와 같은 유전학적 주석 데이터를 생성한다. 이러한 다양한 유형의 다운스트림 게놈 데이터는 현재 VCF, BED, GFF 등과 같은 서로 다른 형식으로 표시되며 때로는 느슨하게 정의되는 의미론도 있다.ISO/IEC 23092(MPEG-G) 표준은 파일 저장과 데이터 전송을 위해 이러한 다양한 데이터의 효율적인 표현과 압축을 위한 통일된 형식을 제공하는 것을 목표로 한다. 그러기 위해 표준은 여러 부분으로 나뉜다.

표준의 구조

MPEG-G 표준은 디지털 미디어 분야에서 이전에 검증된 기술 및 데이터 표현 아키텍처를 활용한다. 그들은 예를 들어, 많은 양의 가능한 분산된 데이터에 대한 액세스가 필요한 경우 또는 사생활 보호를 위해 데이터의 일부를 암호화해야 하는 경우 등 복잡한 시나리오에서도 게놈 염기서열 데이터를 압축하고 전송할 수 있다. 개념적으로, 그러한 요구사항은 다음 목록에 요약되어 있는 상호 관련 메커니즘의 정의로 이어진다.

  • 데이터 형식 및 압축
  • 데이터 스트리밍[4]
  • 압축 파일 연결[4]
  • 시퀀싱 데이터 및 메타데이터의[4] 증분 업데이트
  • 압축 데이터에 대한 선택적 액세스(예: 게놈 범위별[5] 빠른 쿼리)
  • 메타데이터 연결[6]
  • 개인 정보 보호 규칙[6] 시행
  • 데이터 및 메타데이터의[6] 선택적 암호화
  • 게놈 세그먼트의 주석 및 연결.[7]

그 결과, 표준의 이해와 구현이 용이하도록 하기 위해 이 주제들 중 일부를 함께 수집하였다. 그 결과 ISO/IEC 23092 표준은 다음과 같이 일련의 별도 문서로서 물리적으로 구조화된다.

MPEG-G 부품
부분 숫자 첫 공개일(제1판) 최신 공개 날짜(편집) 최신 수정 사항 제목 설명
1부 ISO/IEC 23092-1 2019 2019 유전정보의 전송 및 저장 파일 형식, 스트리밍 및 인덱싱의[4] 사양
2부 ISO/IEC 23092-2 2019 2019 유전정보의 부호화 매핑되지 않은(원시) 및 정렬된 게놈 염기서열 데이터[5] 압축
3부 ISO/IEC 23092-3 2020 2020 메타데이터 및 API(애플리케이션 프로그래밍 인터페이스) 표준 인터페이스 사양, 메타데이터 구문 및 콘텐츠 보호 메커니즘[6] 설명
4부 ISO/IEC 23092-4 (2020) 참조 소프트웨어 그것은 규범적 디코더와 유용한 인코더의 오픈 소스 구현을 설명한다. 참고용으로 사용할 수 있는 압축 비트스트림도 제공한다. 독립 그룹에 의해 개발된 다른 오픈 소스 구현이 존재한다는[8][9] 점에 유의하십시오.
5부 ISO/IEC 23092-5 (2020) 적합성 시험 MPEG-G 표준에[10] 대한 디코더 구현의 적합성을 평가하고자 할 때 사용할 테스트 절차 및 관련 압축 참조 비트스트림을 상세히 기술한다.
6부 ISO/IEC 23092-6 (2021) 게놈 주석 부호화 게놈 주석의 압축된 표현 - 즉, 시퀀싱 데이터가 정렬된 참조 게놈의 간격과 관련된 여러 가지 이기종 데이터 유형.[7]

ISO/IEC 23092-1 MPEG-G 파트 1

정의된다.

ISO/IEC 23092-2 MPEG-G 파트 2

정의된다.

ISO/IEC 23092-3 MPEG-G 파트 3

ISO/IEC 23092-3은 정보 메타데이터, 보호 메타데이터, 보조 필드, SAM 상호운용성, 게놈 정보의 프로그래밍 인터페이스 등을 규정한다. 그것은 다음을 정의한다.

  • ISO/IEC 23092-1에 명시된 다양한 캡슐화 수준에 대한 메타데이터 저장 및 해석
  • ISO/IEC 23092-1에 명시된 다양한 캡슐화 수준에서 기밀성, 무결성 및 개인 정보 보호 규칙을 제공하는 보호 요소
  • 보조 필드를 인코딩된 읽기에 연결하는 방법
  • 기존 SAM 콘텐츠와의 역호환성 및 이 형식으로 내보내기 위한 메커니즘
  • ISO/IEC 23092-1 및 ISO/IEC 23092-2에 따라 코딩된 게놈 정보에 접근하기 위한 인터페이스.
API 함수 그룹
함수 그룹 간략한 설명
게놈 정보 ISO/IEC 23092 시리즈를 준수하는 비트스트림에서 코딩된 게놈 정보의 구조를 쿼리하고 검색하는 데 사용되는 함수.
메타데이터 코드화된 유전체 데이터와 관련된 메타데이터의 구조를 쿼리하고 검색하는 데 사용되는 함수.
보호 코드화된 유전체 데이터와 관련된 보호 메타데이터를 검색하는 데 사용되는 함수.
참조 데이터 집합과 관련된 참조를 검색하는 데 사용되는 함수.
통계 데이터 집합과 관련된 통계를 검색하는 데 사용되는 함수.

ISO/IEC 23092-4 MPEG-G 파트 4

ISO/IEC 23092-4[9] 게놈 모델(GM)이라고 하는 게놈 정보 표현 기준 소프트웨어를 명시하고 있으며, 기준 인코더 소프트웨어와 기준 디코더 소프트웨어의 두 가지 요소로 구성된다. 참조 디코더 소프트웨어는 ISO/IEC [4]23092-1, ISO/IEC 23092-2[5] ISO/IEC 23092-6의 요건 준수를 평가하기 위해 제공되지만, 참조 인코더 소프트웨어는 앞에서 언급한 표준의 구현을 위한 지침서의 역할을 한다.[7] 참조 인코더 소프트웨어 지니(Genie[3])는 전 세계 여러 대학과 기업의 개인 그룹이 개발한 오픈소스 소프트웨어다. 이 제품은 다음과 같은 구성 요소를 갖추고 있다.

참조 소프트웨어 구성 요소
부분 숫자 구성 요소 설명
1부[4] ISO/IEC 23092-1 캡슐화
인덱싱
2부[5] ISO/IEC 23092-2 분류
레퍼런스 엔진
품질값 정량화
설명자열생성
변형
엔트로피 인코딩
6부 ISO/IEC 23092-6 (결정할 것)

ISO/IEC 23092-5 MPEG-G 5부

정의된다.

ISO/IEC 23092-6 MPEG-G 파트 6

정의된다.

파일 이름 확장명

정의된다.

참고 항목

참조

  1. ^ Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ribeca, Paolo; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (October 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv: 426353. doi:10.1101/426353. S2CID 53606895.
  2. ^ Hernaez, Mikel; Pavlichin, Dmitri; Weissman, Tsachy; Ochoa, Idoia (2019-07-20). "Genomic Data Compression". Annual Review of Biomedical Data Science. 2 (1): 19–37. doi:10.1146/annurev-biodatasci-072018-021229. ISSN 2574-3414.
  3. ^ a b "Genie, Open Source MPEG-G Codec". 22 June 2021.{{cite web}}: CS1 maint : url-status (링크)
  4. ^ a b c d e f g "ISO/IEC 23092-1 Transport and Storage of Genomic Information".
  5. ^ a b c d "ISO/IEC 23092-2 Coding of Genomic Information".
  6. ^ a b c d "ISO/IEC 23092-3 Metadata and APIs".
  7. ^ a b c "ISO/IEC 23092-6 Coding of Genomic Annotations".
  8. ^ Bliss, Brian; Allen, Joshua; Baheti, Saurabh; Bockol, Matthew; Delgado, Jaime; Fostier, Jan; Gelpi, Josep; Hart, Steven; Hernaez, Mikel; Hudson, Matthew; Kalmbach, Michael; Klee, Eric; Mainzer, Liudmila; Müntefering, Fabian; Naro, Daniel; Ochoa, Idoia; Ostermann, Joern; Paridaens, Tom; Ross, Christian; Voges, Jan; Wieben, Eric; Yang, Mingyu; Weissman, Tsachy; Wiepert, Mathieu (November 2019). Genie: an MPEG-G conformant software to compress genomic data. sc19.supercomputing.org. doi:10.1101/426353.
  9. ^ a b "ISO/IEC 23092-4 Reference Software".
  10. ^ "ISO/IEC 23092-5 Conformance".

외부 링크