게놈 배열 데이터 압축

Compression of genomic sequencing data

높은 처리량 염기서열 분석 기술은 게놈 염기서열 분석 비용을 극적으로 감소시키고 게놈 데이터를 놀라울 정도로 빠르게 축적하는 결과를 초래했습니다.이 기술들은 1000개의 게놈 프로젝트와 1001개의 (아라비도시스 탈리아나) 게놈 프로젝트와 같은 야심찬 게놈 배열 작업을 가능하게 하고 있다.방대한 양의 게놈 데이터의 저장과 전송이 주요 문제가 되어 게놈 데이터를 위해 특별히 설계된 고성능 압축 도구의 개발에 동기를 부여하고 있습니다.최근 게놈 재서열 데이터를 저장하고 관리하기 위한 새로운 알고리즘 및 도구 개발에 대한 관심이 급증함에 따라 게놈 데이터 압축을 위한 효율적인 방법에 대한 수요가 증가하고 있습니다.

일반적인 개념

표준 데이터 압축 도구(예: zip 및 rar)가 시퀀스 데이터(예: GenBank 플랫 파일 데이터베이스)를 압축하는 데 사용되는 반면, 게놈 시퀀스는 종종 반복적인 콘텐츠(예: 마이크로 위성 시퀀스)를 포함하거나 많은 시퀀스가 높은 수준의 유사성을 보이기 때문에 이 접근법은 터무니없다는 비판을 받아왔다.같은 종의 오메 시퀀스).또한 게놈 배열의 통계적 및 정보 이론적 특성은 잠재적으로 시퀀스 데이터 [1][2][3]압축에 이용될 수 있다.

그림 1: 게놈 재시퀀스 데이터를 압축하는 워크플로우의 주요 단계 (1) 원래 시퀀스 데이터의 처리(예를 들어 원래 데이터 세트를 지정된 참조 시퀀스에 대한 변형으로만 축소), (2) 처리된 데이터를 이진 형식으로 인코딩하고 (3) 데이터를 텍스트 형식으로 복호화한다.

기본 변형

기준 템플릿을 이용할 수 있는 경우에는 차이(예를 들어 단일 뉴클레오티드 치환 및 삽입/탈리)만 기록하면 되므로 저장되는 정보의 양이 크게 감소한다.상대 압축의 개념은 특히 개별 게놈의 변이를 발견하는 것을 목적으로 하는 게놈 재서열화 프로젝트에서 명백하다.dbSNP와 같은 참조 단일 뉴클레오티드 다형성(SNP) 맵을 사용하면 저장을 [4]위한 변종 수를 더욱 개선할 수 있습니다.

상대 게놈 좌표

또 다른 유용한 아이디어는 절대 [4]좌표 대신 상대 게놈 좌표를 저장하는 것입니다.예를 들어 시퀀스 바리안트 베이스를 'Position1Base1Position2Base2…', '123C125T130G' 형식으로 나타내면 바리안트 간의 간격을 나타내는 '0C2T5G'로 단축할 수 있다.이 비용은 절대 좌표와 보정 계수의 저장 공간을 복구하는 데 필요한 약간의 산술 계산입니다(이 예에서는 '123'

게놈에 대한 사전 정보

게놈 배열 풀에서 가능한 모든 치환 위치를 [4]미리 알고 있다면 추가적인 감소를 달성할 수 있다.예를 들어, 인구에서 SNP의 모든 위치를 알고 있는 경우, 변종 좌표 정보를 기록할 필요가 없다(예: '123C125T130G'는 'CTG'로 축약할 수 있다).그러나 이러한 정보는 일반적으로 불완전하거나 이용할 수 없기 때문에 이러한 접근법은 거의 적절하지 않다.

게놈 좌표 인코딩

부호화 방식은 추가적인 압축 이득을 제공하기 위해 좌표 정수를 이진 형식으로 변환하는 데 사용됩니다.골롬 코드 및 허프만 코드와 같은 인코딩 설계는 게놈 데이터 [5][6][7][8][9][10]압축 도구에 통합되었습니다.물론 부호화 방식에는 복호화 알고리즘이 수반됩니다.복호화 방식의 선택은 시퀀스 정보 검색의 효율성에 영향을 미칠 수 있다.

알고리즘 설계 선택지

특정 방법이 특정 목적 및 목적에 더 적합할 수 있기 때문에 게놈 데이터를 압축하는 보편적인 접근법이 반드시 최적인 것은 아닐 수 있다.따라서 압축 성능에 잠재적으로 영향을 미칠 수 있는 몇 가지 설계 선택이 고려에 중요할 수 있습니다.

참조 시퀀스

상대 압축에 대한 기준 시퀀스를 선택하면 압축 성능에 영향을 줄 수 있습니다.보다 구체적인 기준 시퀀스(예: 개정된 캠브리지 기준 시퀀스)보다 합의 기준 시퀀스를 선택하면 합의 기준이 데이터에 [4]더 적은 편향을 포함할 수 있기 때문에 압축비가 높아질 수 있다.그러나 압축되는 시퀀스의 소스에 대한 지식은 더 큰 압축 이득을 얻기 위해 악용될 수 있습니다.여러 기준 시퀀스를 사용하는 아이디어가 [4]제안되었습니다.브랜든 등([4]2009년)는 미토콘드리아 DNA 변이체 데이터의 압축을 예로 들어 민족 고유의 참조 배열 템플릿의 사용 가능성을 시사했다(그림 2 참조).저자들은 수정된 캠브리지 기준 염기서열에 비해 아프리카인, 아시아인, 유라시아인의 미토콘드리아 DNA 염기서열에서 편향된 하플로타입 분포를 발견했다.그들의 결과는 개정된 캠브리지 기준 시퀀스가 인종적으로 멀리 떨어진 개인의 데이터에 대해 사용될 때 더 많은 수의 변형을 저장해야 하기 때문에 항상 최적이지는 않을 수 있음을 시사한다.또한 기준 시퀀스는 통계적 특성에 기초하여 설계하거나 압축비를 개선하도록 설계할 수 있다.

부호화 방식

변종 베이스와 게놈 [4]좌표를 부호화하기 위해 다른 유형의 부호화 스킴의 적용이 탐구되었다.Golomb 코드나 Rice 코드와 같은 고정 코드는 변종 또는 좌표(정수로 표현) 분포가 잘 정의된 경우에 적합합니다.허프만 코드와 같은 변수 코드는 기초가 되는 변종 및/또는 좌표 분포가 잘 정의되지 않은 경우(일반적으로 게놈 시퀀스 데이터의 경우) 보다 일반적인 엔트로피 부호화 방식을 제공한다.

게놈 재시퀀스 데이터 압축 도구 목록

현재 이용 가능한 게놈 데이터 압축 도구의 압축 비율은 인간 [4][5][6][7][8][9][10][13]게놈의 65배에서 1,200배 사이입니다.동일한 게놈의 매우 가까운 변형이나 수정은 매우 효율적으로 압축될 수 있다(예를 들어, 99.999% 동일한 동일한 A. 탈리아나 게놈의 두 수정에 대해 18,133개의 압축비가 보고되었다).그러나 이러한 압축은 동일한 유기체의 다른 게놈(개체)에 대한 전형적인 압축비를 나타내는 것은 아니다.이러한 도구 중 가장 일반적인 인코딩 방식은 무손실 데이터 압축에 사용되는 Huffman 코딩입니다.

Genomic 표준 게놈 시퀀싱 파일 형식(BAM 및 FASTQ)과 호환되는 데이터 압축 도구
소프트웨어 묘사 압축비 평가에 사용되는 데이터 접근/인코딩 방식 링크 라이선스 사용 언급
제노집 게놈 파일용 범용 압축기 - FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GVF, Phylip 및 23andMe 파일을 압축합니다. 60%~99% 1000개의 게놈 프로젝트의 인간 게놈 배열 Genozip 확장 프레임워크 http://genozip.com 비상업적 사용 시 무료 [14]
게놈 스퀴즈(G-SQZ) 시퀀싱 읽기 데이터 저장 및 분석을 위해 설계된 무손실 압축 도구 65% ~ 76% 1000개의 게놈 프로젝트의 인간 게놈 배열 허프만 부호화 http://public.tgen.org/sqz - 미신고- [8]
CRAM(SAMtools의 일부) 매우 효율적이고 조정 가능한 참조 기반 시퀀스 데이터 압축 [15] 유럽 뉴클레오티드 아카이브 감압 http://www.ebi.ac.uk/ena/software/cram-toolkit Apache-2.0 [16]
게놈 압축기(GeCo) 참조 시퀀스 및 참조 프리 시퀀스를 압축하기 위해 여러 마르코프 모델을 혼합한 도구 인간핵유전체배열 산술 부호화 http://bioinformatics.ua.pt/software/geco/ 또는 https://pratas.github.io/geco/ GPLv3 [13]
페타수이트 BAM 및 FASTQ 파일용 무손실 압축 도구 60 ~ 90 % 1000개의 게놈 프로젝트의 인간 게놈 배열 https://www.petagene.com 상업의 [17]
GenomSys 코덱 BAM 및 FASTQ 파일을 표준[18] 포맷 ISO/IEC 23092(MPEG-G)로 무손실 압축 60 ~ 90 % 1000개의 게놈 프로젝트의 인간 게놈 배열 컨텍스트 적응 바이너리 산술 부호화(CAB)AC) https://www.genomsys.com 상업의 [19]
지니 FASTA, FASTQ 및 SAM/BAM 형식과 ISO/IEC 23092 형식(MPEG-G) 간의 트랜스코딩 [개발 중] [개발 중] 컨텍스트 적응 바이너리 산술 부호화(CAB)AC) https://github.com/mitogen/genie BSD [21]
게놈 염기서열 분석 데이터 압축 도구가 표준 게놈 염기서열 분석 파일 형식과 호환되지 않음
소프트웨어 묘사 압축비 평가에 사용되는 데이터 접근/인코딩 방식 링크 라이선스 사용 언급
게놈 차동 압축기(GDC) 같은 종의 여러 게놈을 압축하는 LZ77식 도구 180~250배/70~100배 인간과 사카로미세스 세레비시아의 핵 게놈 배열 허프만 부호화 http://sun.aei.polsl.pl/gdc GPLv2 [5]
게놈 재서열결정(GRS) 참조 SNP 맵 또는 시퀀스 변동 정보와 무관한 참조 시퀀스 기반 도구 159배/18,186배/82배 인간, Arabidopsis Thaliana(동일한 게놈의 다른 개정판), Oryza sativa의 핵 게놈 배열 허프만 부호화 https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ 비상업적 사용을 위해 무료로 [6]
게놈 재서열 부호화(GREEN) 참조 시퀀스를 사용하여 데이터를 재시퀀스 압축하기 위한 확률론적 복사 모델 기반 도구 최대 100배 인간핵유전체배열 산술 부호화 http://bioinformatics.ua.pt/software/green/ - 미신고- [7]
DNAzip 압축 도구 패키지 최대 750배 인간핵유전체배열 허프만 부호화 http://www.ics.uci.edu/~httpzip/ - 미신고- [9]
게놈 Zip 참조 게놈에 대한 압축.선택적으로 게놈 변형의 외부 데이터베이스 사용(dbSNP 등) ~140배 인간 핵 게놈 배열(왓슨) 및 1000 게놈 프로젝트의 배열 경험적 분포의 근사치에 대한 엔트로피 부호화 https://sourceforge.net/projects/genomezip/ - 미신고- [10]

레퍼런스

  1. ^ a b 지안카를로, R., D. 스캣루, F.Utro. 2009년컴퓨터 생물학에서의 텍스트 데이터 압축: 개요.생물정보학 25(13) : 1575-1586.
  2. ^ 날반토글루, 외유, D. J. 러셀, K.Sayood.2010. 데이터 압축 개념과 알고리즘 및 이들의 생물정보학 분야 적용.엔트로피 12 (1): 34~52.
  3. ^ 오세이니, D, 프라타, A.핀호 2016년생물학적 배열에 대한 데이터 압축 방법에 대한 조사.정보 7(4) : (2016) : 56
  4. ^ a b c d e f g h i 브랜든, M.C., D.C. 월리스, P. 발디2009. 게놈 배열 데이터를 위한 데이터 구조 및 압축 알고리즘.생물정보학 25(14) : 1731–1738.
  5. ^ a b c Deorowicz, S. 및 S. Grabowski.2011. 무작위 접근 가능한 게놈의 강력한 상대적 압축.생물정보학 27(21) : 2979-2986.
  6. ^ a b c d 왕, C, D.장. 2011년.게놈 시퀀스 변경 데이터를 효율적으로 저장하기 위한 새로운 압축 도구입니다.핵산 분해능 39(7): e45.
  7. ^ a b c 핀호, A.J., D. 프라타스, S.P. 가르시아.2012. GReen: 게놈 재시퀀스 데이터를 효율적으로 압축하기 위한 도구.핵산 분해능 40(4): e27.
  8. ^ a b c Tembe, W., J. Lowey, E. Suh. 2010.G-SQZ: 게놈 배열 및 품질 데이터의 콤팩트 부호화.생물정보학 26(17) : 2192-2194.
  9. ^ a b c Christley, S., Y. Lu, C. Li 및 X. Xie. 2009.이메일의 첨부 파일로서의 인간 게놈.생물정보학 25(2): 274-275.
  10. ^ a b c 파블리친, D.S., 와이즈먼, T., G.요나 2013년인간 게놈이 다시 수축합니다.생체정보학 29(17) : 2199-2202.
  11. ^ 쿠루푸, S., S. J. Puglisi, J. Zobel.2011. 게놈의 상대적 압축을 위한 기준 배열 구성.컴퓨터 사이언스 7024 강의 노트: 420-425.
  12. ^ 그래보스키, S., S.데오로비츠2011. 게놈의 상대적 압축 엔지니어링.CoRR 진행 중.
  13. ^ a b Pratas, D., Pinho, A. J. 및 Ferreira, P. J. S. G. 게놈 시퀀스의 효율적인 압축.데이터 압축 컨퍼런스, 유타, 스노우버드, 2016년
  14. ^ Lan, D., et al. 2021 Genozip: 범용 확장형 게놈 데이터 압축기, 생물정보학
  15. ^ CRAM 벤치마크
  16. ^ CRAM 형식 사양(버전 3.0)
  17. ^ "The Importance of Data Compression in the Field of Genomics". pulse.embs.org. Retrieved 2019-12-17.
  18. ^ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org.
  19. ^ "An introduction to MPEG-G, the new ISO standard for genomic information representation".
  20. ^ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org.
  21. ^ "An introduction to MPEG-G, the new ISO standard for genomic information representation".