SAM(파일 형식)

SAM 파일 형식
개발자	헝리; 밥 핸즈커; 알렉 위소커; 팀 페넬; 저우란; 닐스 호머; 개보르 마스; 곤살로 아베카시스; 리처드 M.더빈; 1000개의 게놈 프로젝트;
포맷의 종류	생물정보학
확장원	탭 구분 값
웹 사이트	samtools.github.io/hts-specs/

시퀀스 얼라인먼트 맵(SAM)은 원래 Heng Li와 Bob Handsaker ^[1]등이 개발한 참조 시퀀스에 맞춰 정렬된 생물학적 시퀀스를 저장하기 위한 텍스트 기반 형식이다.1000 Genetomes Project가 MAQ 매퍼 형식에서 벗어나 새로운 형식을 설계하기로 결정했을 때 개발되었습니다.이 포맷의 전체적인 TAB 구분된 맛은 BLAT의 PSL에서 영감을 얻은 초기 포맷에서 유래했다.SAM의 이름은 Utah 대학의 Gabor Marth에서 유래했습니다.Gabor Marth는 원래 이름은 같지만 BLAST ^[2]출력과 더 유사한 구문을 가지고 있었습니다.차세대 염기서열 기술에 의해 생성된 뉴클레오티드 염기서열 등의 데이터 저장에 널리 사용되며, ^[3]매핑되지 않은 염기서열을 포함하도록 표준이 확대되었다.이 형식은 다양한 시퀀싱 플랫폼에서 생성되는 짧은 읽기 및 긴 읽기(최대 128Mbp)를 지원하며 GATK(Genome Analysis Toolkit) 내, Broad Instit, Wellcome Sanger Instit 및 1000 Genomes Project 전체에서 매핑된 데이터를 보관하기 위해 사용됩니다.

포맷

SAM 형식은 헤더와 얼라인먼트 섹션으로 구성됩니다.^[1]SAM 파일에 해당하는 바이너리는 BAM(Binary Alignment Map) 파일로 압축된 바이너리 ^[4]표현에 동일한 데이터를 저장합니다.SAM ^[1]파일은 소프트웨어 SAMtools를 사용하여 분석 및 편집할 수 있습니다.헤더 섹션이 있는 경우 정렬 섹션보다 앞에 있어야 합니다.머리글은 정렬 섹션과 구분되는 '@' 기호로 시작합니다.정렬 섹션에는 11개의 필수 필드와 다양한 수의 옵션 ^[1]필드가 있습니다.

콜	들판	유형	간단한 설명
1	QNAME	스트링	템플릿 이름 쿼리
2	플래그	내부	비트 플래그
3	이름	스트링	시퀀스 이름 참조
4	POS	내부	1 베이스의 최좌측 매핑 POSition
5	맵	내부	MAPping 품질
6	시가	스트링	시가 스트링
7	다음	스트링	상대 이름/다음 읽기
8	다음	내부	상대/다음 판독치의 위치
9	클렌	내부	관찰된 템플릿 LENgth
10	SEQ	스트링	세그먼트 SEQuence
11	자격	스트링	프레드 스케일 베이스 Quality+33의 ASCII

묘사

사양부터:^[4]

QNAME: 쿼리 템플릿 NAME. 동일한 QNAME을 가진 읽기/세그먼트는 동일한 템플릿에서 온 것으로 간주됩니다.QNAME '*'는 정보를 사용할 수 없음을 나타냅니다.SAM 파일에서 읽기는 키메라 또는 여러 매핑이 주어질 때 여러 개의 정렬 라인을 차지할 수 있습니다.
FLAG: 비트 단위^[5] FLAG의 조합
RNAME: 선형 시퀀스 이름 참조.@SQ 헤더 행이 있는 경우 RNAME('*'가 아닌 경우)이 SQ-SN 태그 중 하나에 있어야 합니다.좌표 없이 매핑되지 않은 세그먼트는 이 필드에 '*'가 있습니다.그러나 매핑되지 않은 세그먼트는 정렬 후 원하는 위치에 배치할 수 있도록 일반 좌표를 가질 수도 있습니다.RNAME이 '*'인 경우 POS 및 GIGA에 대한 가정은 할 수 없습니다.
POS: 첫 번째 일치 베이스의 왼쪽 끝 매핑 POSition.기준 시퀀스의 첫 번째 베이스에는 좌표 1이 있습니다. POS는 좌표 없이 매핑되지 않은 판독치의 경우 0으로 설정됩니다.POS가 0인 경우 RNAME 및 GIGA에 대한 가정은 할 수 없습니다.
MAPQ: MAPping 품질.이 값은 -10 log10 Pr{mapping position is wrong}이고, 가장 가까운 정수로 반올림됩니다.값 255는 매핑 품질을 사용할 수 없음을 나타냅니다.
GIGA: CIGAR(간결한 특이성 Gaped Alignment Report) 문자열.
RNEXT: 템플릿에서 읽은 NEXT의 기본 정렬 참조 시퀀스 이름입니다.마지막 읽기의 경우 다음 읽기가 템플릿의 첫 번째 읽기가 됩니다.@SQ 헤더 행이 있는 경우 RNEXT('*' 또는 '='이 아닌 경우)가 SQ-SN 태그 중 하나에 있어야 합니다.정보를 사용할 수 없는 경우 이 필드는 '*'로 설정되며, RNEXT가 동일한 RNAME이면 '='로 설정됩니다. '='이 아닌 경우 템플릿의 다음 읽기에는 기본 매핑이 하나 있습니다(FLAG의 비트 0x100 참조). 이 필드는 다음 읽기의 기본 줄에 있는 RNAME과 동일합니다.RNEXT가 '*'인 경우 PNEXT 및 비트 0x20에 대한 가정은 할 수 없습니다.
PNEXT: 템플릿에서 읽은 다음 번 기본 정렬 위치.정보를 사용할 수 없는 경우 0으로 설정합니다.이 필드는 다음 판독의 프라이머리 행에서 POS와 동일합니다.PNEXT가 0일 경우 RNEXT 및 비트0x20에 대한 가정은 할 수 없습니다.
TLEN: 서명된 관찰된 템플릿 LENgth.모든 세그먼트가 동일한 참조에 매핑되어 있는 경우 부호 없는 관찰 템플릿 길이는 맨 왼쪽의 매핑 베이스에서 맨 오른쪽의 매핑 베이스까지의 베이스 수와 같습니다.맨 왼쪽 세그먼트에는 플러스 기호가 있고 맨 오른쪽 세그먼트에는 마이너스 기호가 있습니다.가운데 세그먼트의 기호는 정의되어 있지 않습니다.싱글 세그먼트템플릿의 경우 또는 정보를 사용할 수 없는 경우에는 0으로 설정됩니다.
SEQ: 세그먼트 SEQuence.시퀀스가 저장되지 않은 경우 이 필드는 '*'일 수 있습니다.'*'가 아닌 경우 시퀀스의 길이는 GAGA의 M/I/S/=/X 작동 길이의 합계와 같아야 합니다. '='는 베이스가 기준 베이스와 동일함을 나타냅니다.편지 케이스에 대해서는 추측할 수 없습니다.
Quality: 베이스 Quality + 33의 ASCII(생거 FASTQ 형식의 품질 문자열과 동일).기본 품질은 -10 log10 Pr{base is wrong}와 같은 프래드 스케일의 기본 오류 확률입니다.품질이 저장되지 않은 경우 이 필드는 '*'일 수 있습니다.'*'가 아닌 경우 SEQ는 '*'가 아니어야 하며 품질 문자열의 길이는 SEQ의 길이와 같아야 합니다.

비트 플래그

FLAG 필드는 단일 정수로 표시되지만 읽기 ^[4]정렬의 여러 속성을 나타내는 비트 플래그의 합계입니다.각 속성은 정수의 바이너리 표현에서 1비트를 나타냅니다.

비트 플래그
정수	바이너리	설명(쌍으로 구성된 읽기 해석
1	`000000000001`	시퀀싱에 여러 개의 템플릿이 있는 템플릿(읽기가 쌍으로 이루어짐)
2	`000000000010`	얼라이너에 따라 올바르게 정렬된 각 세그먼트(적절한 쌍으로 매핑된 판독치)
4	`000000000100`	세그먼트 매핑 해제(읽기 1 매핑 해제)
8	`000000001000`	템플릿의 다음 세그먼트 매핑 해제(read2 매핑 해제)
16	`000000010000`	SEQ가 역보완됨(read1 역보완됨)
32	`000000100000`	템플릿 내 다음 세그먼트의 SEQ가 역보완됩니다(read2 reverse completed).
64	`000001000000`	템플릿의 첫 번째 세그먼트(read1)
128	`000010000000`	템플릿의 마지막 세그먼트(read2)
256	`000100000000`	프라이머리 얼라인먼트가 아니다
512	`001000000000`	얼라인먼트가 품질 체크에 실패하다
1024	`010000000000`	PCR 또는 옵티컬(광학식) 복제
2048	`100000000000`	보조 정렬(예: 얼라이너 고유, 분할 판독 또는 동점 영역일 수 있음)

FLAG 속성은 최종 값을 얻기 위해 합산됩니다. 예를 들어, FLAG 값 2145를 가진 Illumina 쌍으로 구성된 FASTQ 레코드에서 생성된 SAM 행은 다음을 나타냅니다.

플래그 값	의미.	플래그섬
1	읽기가 쌍으로 되어 있다	1
32	read2는 역보완되었습니다.	33
64	읽기 1	97
2048	보조 정렬	2145

옵션 필드

사양부터:^[4]

유형은 A(문자), B(일반 배열), f(16진수 배열), H(16진수 배열), i(정수) 또는 Z(문자열) 중 하나입니다.

태그	유형	묘사
오전	i	템플릿에서 템플릿에 의존하지 않는 최소 매핑 품질
~하듯이	i	얼라이너에 의해 생성된 얼라인먼트 점수
BC	Z	샘플을 식별하는 바코드 시퀀스
BQ	Z	기준 정렬 품질(BAQ)에 대한 오프셋
BZ	Z	OX 태그에 포함된 고유한 분자 바코드 베이스의 품질
CB	Z	셀 식별자
참조	Z	다음 안타의 참조 이름
CG	B, I	BAM만: 65535 이상의 연산자로 구성된 경우에만 BAM의 바이너리 부호화 GAGA
CM	i	색상 시퀀스와 색상 참조 사이의 거리를 편집합니다(NM 참조).
CO	Z	자유 텍스트 코멘트
CP	i	다음 타격의 왼쪽 끝 좌표
CQ	Z	컬러 판독 기준 품질
CR	Z	셀룰러 바코드 시퀀스 베이스(수정되지 않음)
CS	Z	컬러 판독 시퀀스
CT	Z	전체 주석 태그 읽기(컨센서스 주석 더미 기능에 사용)
CY	Z	CR 태그의 셀룰러 바코드 시퀀스의 pred 품질
E2	Z	두 번째로 가능성이 높은 베이스 콜
FI	i	템플릿 세그먼트 인덱스
FS	Z	세그먼트 서픽스
FZ	B,S	유량 신호 강도
GC	?	이전 버전과의 호환성을 위해 예약됨
GQ	?	이전 버전과의 호환성을 위해 예약됨
GS	?	이전 버전과의 호환성을 위해 예약됨
H0	i	퍼펙트 히트 수
H1	i	1차 히트 수('NM'도 참조)
H2	i	2차 적중 횟수
안녕	i	조회 적중률 색인
IH	i	조회 적중 총수
LB	Z	도서관
MC	Z	짝/다음 세그먼트용 시가 문자열
MD	Z	일치하지 않는 위치에 대한 문자열
MF	?	이전 버전과의 호환성을 위해 예약됨
MI	Z	분자 식별자: 레코드가 파생된 분자를 고유하게 식별하는 문자열
MQ	i	상대/다음 세그먼트의 매핑 품질
NH	i	현재 레코드에 조회가 포함된 보고된 선형 수
NM	i	참조까지의 거리 편집
OA	Z	원래 위치 맞추기
조직	Z	원래 시가(사용하지 않음, 대신 OA 사용)
동작	i	원래 매핑 위치(사용되지 않음, 대신 OA 사용)
OQ	Z	오리지널 베이스 품질
황소	Z	독자적인 분자 바코드 베이스
PG	Z	프로그램.
p q.	i	템플릿의 프리드 우도
PT	Z	패딩된 읽기 시퀀스의 일부에 대한 주석 읽기
PU	Z	플랫폼 유닛
문제 2	Z	R2 태그의 짝/다음 세그먼트 시퀀스의 pred 품질
QT	Z	BC 태그에 있는 샘플 바코드 시퀀스의 pred
QX	Z	RX 태그의 고유 분자 식별자 품질 점수
R2	Z	템플릿의 짝/다음 세그먼트 시퀀스
RG	Z	그룹 읽기
RT	?	이전 버전과의 호환성을 위해 예약됨
RX	Z	(보정 가능한) 고유 분자 식별자의 염기서열
S2	?	이전 버전과의 호환성을 위해 예약됨
SA	Z	키메라 정렬의 기타 표준 정렬
SM	i	템플릿에 의존하지 않는 매핑 품질
SQ	?	이전 버전과의 호환성을 위해 예약됨
TC	i	템플릿의 세그먼트 수
U2	Z	두 번째 콜이 잘못될 확률은 최선의 콜이 잘못될 가능성을 조건으로 한다.
UQ	i	매핑이 올바른 것을 조건으로 하는 세그먼트의 pred 우도
X?	?	최종 사용자용으로 예약됨
Y?	?	최종 사용자용으로 예약됨
Z?	?	최종 사용자용으로 예약됨

「」를 참조해 주세요.

FASTA 포맷은 게놈 서열을 나타내기 위해 사용됩니다.
FASTQ 포맷은 DNA 시퀀서의 판독값과 품질 점수를 나타내기 위해 사용됩니다.
GFF3 형식을 기반으로 한 확장 기능인 GVF 형식(Genome Variation Format)

레퍼런스

^ ^a ^b ^c ^d ^e Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. (2009). "The Sequence Alignment/Map format and SAMtools" (PDF). Bioinformatics. 25 (16): 2078–2079. doi:10.1093/bioinformatics/btp352. ISSN 1367-4803. PMC 2723002. PMID 19505943.
^ "Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog". gigasciencejournal.com. Retrieved 2021-03-20.
^ https://samtools.github.io/hts-specs/SAMv1.pdf^{[베어 URL PDF]}
^ ^a ^b ^c ^d "SAM/BAM Format Specification" (PDF). samtools.github.io.
^ SAM 플래그 디코딩

[samtools-1] Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. (2009). "The Sequence Alignment/Map format and SAMtools" (PDF). Bioinformatics. 25 (16): 2078–2079. doi:10.1093/bioinformatics/btp352. ISSN 1367-4803. PMC 2723002. PMID 19505943.

[2] "Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog". gigasciencejournal.com. Retrieved 2021-03-20.

[3] ttps://samtools.github.io/hts-specs/SAMv1.pdf^{[베어 URL PDF]}

[spec-4] "SAM/BAM Format Specification" (PDF). samtools.github.io.

[5] SAM 플래그 디코딩

[1]

[2]

[3]

[4]

[5]

v t 생물정보학
데이터베이스	시퀀스 데이터베이스:GenBank, 유럽 뉴클레오티드 아카이브 및 일본 DNA 데이터 뱅크 보조 데이터베이스:UniProt, Swiss-Prot, TrEMBL 및 단백질 정보 자원을 함께 그룹화한 단백질 배열 데이터베이스 기타 데이터베이스: 단백질 데이터 뱅크, Ensembl 및 InterPro 전문 게놈 데이터베이스: BOLD, Saccharomyces Genome Database, FlyBase, VectorBase, WormBase, Rat Genome Database, PHI 기반, Arabidopsis Information Resource 및 Zebrafish 정보 네트워크
소프트웨어	폭발. 보타이 클러스터 엠보스 흐물흐물하다 근육 SAM툴 SOAP 스위트 톱햇
다른.	서버: ExPASy 온톨로지:진 온톨로지 Rosalind (교육 플랫폼)
기관	브로드 인스티튜트 중국국가진뱅크(CNGB) 컴퓨터 생물학부(CBD) Microsoft Research - Trento University Computational and Systems Biology(COSBI) 센터 생명과학 데이터베이스센터(DBCLS) 일본 DNA데이터은행(DDBJ) 유럽생물정보학연구소(EMBL-EBI) 유럽분자생물연구소(EMBL) 플랫 아이언 인스티튜트 J. Craig Venter Institute (JCVI) 막스플랑크 분자세포생물유전학연구소(MPI-CBG) 미국 국립생명공학정보센터(NCBI) 일본 유전학회 네덜란드 생물정보학센터(NBIC) 필리핀 게놈 센터(PGC) 스크립스 리서치 스위스 생물정보학연구소(SIB) 웰컴 생어 연구소 화이트헤드 연구소
단체들	아프리카 생물정보학 및 계산생물학회(ASBCB) 오스트레일리아 생물정보학 자원(EMBL-AR) 유럽 분자 생물학 네트워크(EMBnet) 국제 뉴클레오티드 배열 데이터베이스 콜라보레이션(INSDC) 국제 생물화 협회(ISB(International Society for Biocation(ISB) 국제계산생물학회(ISCB) 학생회(ISCB-SC) 유전체학 및 통합생물학연구소(CSIR-IGIB) 일본 생물 정보 학회
회의	바젤 컴퓨터 생물학 회의(BC)² 유럽계산생물학회의(ECCB) ISMB(Intelligent Systems for Molecular Biology) 국제생물정보학회의(InCoB) 생물정보학 및 생물통계학 계산지능방법 국제회의(CIBB) ISCB 아프리카 ASBCB 생물정보학 회의 태평양 생물계산 심포지엄(PSB) 컴퓨터 분자생물학(RECOMB) 연구
파일 형식	CRAM 형식 FASTA 포맷 FASTQ 형식 NeXML 형식 Nexus 형식 파일업 형식 SAM 포맷 스톡홀름 형식 VCF 형식
관련 토픽	계산생물학 바이오뱅크 목록 생물학적 데이터베이스 목록 분자 계통학 시퀀싱 시퀀스 데이터베이스 시퀀스 얼라인먼트
카테고리 공통

Search

SAM(파일 형식)

네임스페이스

더

목차

포맷

묘사

비트 플래그

옵션 필드

「」를 참조해 주세요.

레퍼런스

개발자	헝리 밥 핸즈커 알렉 위소커 팀 페넬 저우란 닐스 호머 개보르 마스 곤살로 아베카시스 리처드 M.더빈 1000개의 게놈 프로젝트^[1]
포맷의 종류	생물정보학
확장원	탭 구분 값
웹 사이트	samtools.github.io/hts-specs/

Search

SAM(파일 형식)

포맷

묘사

비트 플래그

옵션 필드

「 」를 참조해 주세요.

레퍼런스

「」를 참조해 주세요.