파일업 형식

Pileup format

파일업 형식은 정렬된 읽기의 기본 호출을 참조 시퀀스로 요약하는 텍스트 기반 형식입니다.이 형식을 사용하면 SNP/인델 호출 및 정렬을 시각적으로 쉽게 표시할 수 있습니다.Wellcome Trust Sanger Institute에서 Tony Cox와 Zemin Ning에 의해 처음 사용되었으며, SAMtools 소프트웨어 스위트에 구현되어 널리 알려졌습니다.[1]

포맷

순서 위치 레퍼런스 베이스 읽기 수 결과 읽기 퀄리티
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 T 23 ,.....,,.,.,...,,,.,..a <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 G 22 t, .,, .,, ...., .... 33;+<<7=7<<7<&<<1;<<6<
seq1 277 T 22 ........C......,G. +7<;<<<<<<<&<=<<:;<<&<
seq1 278 G 23 ............................^k. %38*<<;<7<<7<=<<<;<<<<<
seq1 279 C 23 A,T, , , , , , , , , , , , , , . 75&<<<<<<<<<=<<<9<<:<<<

각 행은 탭으로 구분된 5개(또는 옵션 6개)의 열로 구성됩니다.

  1. 시퀀스 식별자
  2. 순서대로 위치(1부터 시작)
  3. 해당 위치의 레퍼런스 뉴클레오티드
  4. 해당 위치를 커버하는 정렬된 판독 횟수(범위의 깊이)
  5. 정렬된 읽기에서 해당 위치 기반
  6. -33 오프셋으로 ASCII로 표시되는 이러한 베이스의 Pred 품질(옵션)

열 5: 기본 문자열

  • . (dot)은 정방향 가닥의 기준과 일치하는 염기를 의미합니다.
  • (기판)은 역스트랜드상의 기준과 일치하는 염기를 의미한다.
  • </> (less-than-than 기호)는 참조 스킵을 나타냅니다.예를 들어, 참조 게놈의 베이스가 인트로닉이고 판독치가 두 개의 측면 엑손에 매핑된 경우 이러한 현상이 발생합니다.여섯 번째 에 품질 점수가 주어지는 경우, 이는 특정 기준이 아닌 판독의 품질을 나타냅니다.
  • AGTCN(대문자)은 순방향 스트랜드 상의 참조와 일치하지 않는 베이스를 나타냅니다.
  • agtcn(소문자)은 역스트랜드상의 참조와 일치하지 않는 염기를 나타냅니다.
  • 정규 표현과 일치하는 시퀀스 \+[0-9]+[ACGTNacgtn]+다음 위치에서 시작하는 하나 이상의 베이스 삽입을 나타냅니다.예를 들어 +2AG는 순방향 가닥에 AG를 삽입하는 것을 의미합니다.
  • 정규 표현과 일치하는 시퀀스\-[0-9]+[ACGTNacgtn]+다음 위치에서 시작하는 하나 이상의 베이스 삭제를 나타냅니다.예를 들어 -2ct는 역스트랜드에서 CT가 삭제됨을 의미합니다.
  • ^(carett)은 읽기 세그먼트의 시작을 나타내며, '^' - 33 뒤에 오는 문자의 ASCII는 매핑 품질을 제공합니다.
  • $(달러)는 읽기 세그먼트의 끝을 나타냅니다.
  • * (explaces)는 이전 행에서 언급된 다중 베이스쌍 삭제에서 삭제된 베이스의 플레이스 홀더입니다.-[0-9]+[ACGTNacgtn]+표기법

열 6: 기본 품질 문자열

이것은 옵션 컬럼입니다.존재하는 경우 문자 마이너스 33의 ASCII 값은 이전 열 5의 각 베이스의 매핑 Pred 품질을 나타낸다.는 FASTQ 형식의 품질 인코딩과 유사합니다.

파일 확장자

파일업 파일에는 표준 파일 확장자가 없지만 .msf(복수 시퀀스 파일), .pup[2] 및 .pileup이[citation needed] 사용됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; 1000 Genome Project Data Processing Subgroup (2009) (2009). "The Sequence alignment/map (SAM) format and SAMtools". Bioinformatics. 25 (16): 2078–2079. doi:10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943.
  2. ^ Accelrys (1998-10-02). "QUANTA: Protein Design. 3. Reading and Writing Sequence Data Files". Université de Montréal. Retrieved 2020-03-27.

외부 링크