파일업 형식
Pileup format파일업 형식은 정렬된 읽기의 기본 호출을 참조 시퀀스로 요약하는 텍스트 기반 형식입니다.이 형식을 사용하면 SNP/인델 호출 및 정렬을 시각적으로 쉽게 표시할 수 있습니다.Wellcome Trust Sanger Institute에서 Tony Cox와 Zemin Ning에 의해 처음 사용되었으며, SAMtools 소프트웨어 스위트에 구현되어 널리 알려졌습니다.[1]
포맷
예
순서 | 위치 | 레퍼런스 베이스 | 읽기 수 | 결과 읽기 | 퀄리티 |
---|---|---|---|---|---|
seq1 | 272 | T | 24 | ,.$.....,,.,.,...,,,.,..^+. | <<<+;<<<<<<<<<<<=<;<;7<& |
seq1 | 273 | T | 23 | ,.....,,.,.,...,,,.,..a | <<<;<<<<<<<<<3<=<<<;<<+ |
seq1 | 274 | T | 23 | ,.$....,,.,.,...,,,.,... | 7<7;<;<<<<<<<<<=<;<;<<6 |
seq1 | 275 | A | 23 | ,$....,,.,.,...,,,.,...^l. | <+;9*<<<<<<<<<=<<:;<<<< |
seq1 | 276 | G | 22 | t, .,, .,, ...., .... | 33;+<<7=7<<7<&<<1;<<6< |
seq1 | 277 | T | 22 | ........C......,G. | +7<;<<<<<<<&<=<<:;<<&< |
seq1 | 278 | G | 23 | ............................^k. | %38*<<;<7<<7<=<<<;<<<<< |
seq1 | 279 | C | 23 | A,T, , , , , , , , , , , , , , . | 75&<<<<<<<<<=<<<9<<:<<< |
열
각 행은 탭으로 구분된 5개(또는 옵션 6개)의 열로 구성됩니다.
- 시퀀스 식별자
- 순서대로 위치(1부터 시작)
- 해당 위치의 레퍼런스 뉴클레오티드
- 해당 위치를 커버하는 정렬된 판독 횟수(범위의 깊이)
- 정렬된 읽기에서 해당 위치 기반
- -33 오프셋으로 ASCII로 표시되는 이러한 베이스의 Pred 품질(옵션)
열 5: 기본 문자열
- . (dot)은 정방향 가닥의 기준과 일치하는 염기를 의미합니다.
- (기판)은 역스트랜드상의 기준과 일치하는 염기를 의미한다.
- </> (less-than-than 기호)는 참조 스킵을 나타냅니다.예를 들어, 참조 게놈의 베이스가 인트로닉이고 판독치가 두 개의 측면 엑손에 매핑된 경우 이러한 현상이 발생합니다.여섯 번째 열에 품질 점수가 주어지는 경우, 이는 특정 기준이 아닌 판독의 품질을 나타냅니다.
- AGTCN(대문자)은 순방향 스트랜드 상의 참조와 일치하지 않는 베이스를 나타냅니다.
- agtcn(소문자)은 역스트랜드상의 참조와 일치하지 않는 염기를 나타냅니다.
- 정규 표현과 일치하는 시퀀스
\+[0-9]+[ACGTNacgtn]+
다음 위치에서 시작하는 하나 이상의 베이스 삽입을 나타냅니다.예를 들어 +2AG는 순방향 가닥에 AG를 삽입하는 것을 의미합니다. - 정규 표현과 일치하는 시퀀스
\-[0-9]+[ACGTNacgtn]+
다음 위치에서 시작하는 하나 이상의 베이스 삭제를 나타냅니다.예를 들어 -2ct는 역스트랜드에서 CT가 삭제됨을 의미합니다. - ^(carett)은 읽기 세그먼트의 시작을 나타내며, '^' - 33 뒤에 오는 문자의 ASCII는 매핑 품질을 제공합니다.
- $(달러)는 읽기 세그먼트의 끝을 나타냅니다.
- * (explaces)는 이전 행에서 언급된 다중 베이스쌍 삭제에서 삭제된 베이스의 플레이스 홀더입니다.
-[0-9]+[ACGTNacgtn]+
표기법
열 6: 기본 품질 문자열
이것은 옵션 컬럼입니다.존재하는 경우 문자 마이너스 33의 ASCII 값은 이전 열 5의 각 베이스의 매핑 Pred 품질을 나타낸다.이는 FASTQ 형식의 품질 인코딩과 유사합니다.
파일 확장자
파일업 파일에는 표준 파일 확장자가 없지만 .msf(복수 시퀀스 파일), .pup[2] 및 .pileup이[citation needed] 사용됩니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; 1000 Genome Project Data Processing Subgroup (2009) (2009). "The Sequence alignment/map (SAM) format and SAMtools". Bioinformatics. 25 (16): 2078–2079. doi:10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943.
- ^ Accelrys (1998-10-02). "QUANTA: Protein Design. 3. Reading and Writing Sequence Data Files". Université de Montréal. Retrieved 2020-03-27.