FASTA 포맷
FASTA format| 파일 이름 확장자 | .fasta, .fna, .ffn, .faa, .frn, .fa |
|---|---|
| 인터넷 미디어 유형 | text/x-fasta |
| Uniform Type Identifier(UTI; 균일 유형 식별자) | 아니요. |
| 개발자 | 데이비드 J. 립먼 윌리엄 R.피어슨[1][2] |
| 초기 릴리즈 | 1985 |
| 포맷의 종류 | 생물정보학 |
| 확장원 | FASTA용 ASCII |
| 확장처 | FASTQ 형식[3] |
| 웹 사이트 | www |
생체정보학 및 생화학에서 FASTA 포맷은 뉴클레오티드 배열 또는 아미노산(단백질) 배열 중 하나를 나타내기 위한 텍스트 기반 포맷으로, 뉴클레오티드 또는 아미노산이 단일 문자 코드를 사용하여 표현된다.이 형식을 사용하면 시퀀스 이름 및 주석을 시퀀스 앞에 붙일 수도 있습니다.이 형식은 FASTA 소프트웨어 패키지에서 시작되었지만, 현재는 생물 정보학 [4]분야에서 거의 보편적인 표준이 되었습니다.
FASTA 포맷의 단순성은 R 프로그래밍 언어, Python, Ruby, Haskell 및 Perl과 같은 텍스트 처리 도구와 스크립트 언어를 사용하여 시퀀스를 쉽게 조작하고 구문 분석할 수 있도록 합니다.
오리지널 포맷과 개요
원래의 FASTA/Pearson 형식은 FASTA 프로그램 스위트용 설명서에 설명되어 있습니다.FASTA를 무료로 배포하여 다운로드할 수 있습니다(fasta20.doc, fastaVN.doc 또는 fastaVN.me 참조). 여기서 VN은 버전 번호입니다.
원래 형식에서는 시퀀스가 일련의 행으로 표시되었으며, 각 행은 120자 이하이며 보통 80자를 넘지 않습니다.이는 아마도 소프트웨어에서 고정 회선 크기를 사전 할당하기 위한 것일 것입니다.당시 대부분의 사용자는 Digital Equipment Corporation(DEC) VT220(또는 호환되는) 단말기에 의존하여 [citation needed]회선당 80자 또는 132자를 표시할 수 있었습니다.대부분의 사람들은 80자 모드에서 더 큰 글꼴을 선호하기 때문에 FASTA 줄에서 80자 이하(대부분 70자)를 사용하는 것이 권장되는 패션이 되었습니다.또, 표준 인쇄 페이지의 폭은 70~80 문자(글꼴에 따라 다름)입니다.그래서 80자가 [citation needed]표준이 되었다.
FASTA 파일의 첫 번째 행은 ">"(보다 큼) 기호로 시작하거나 [citation needed]";"(세미콜론) 기호로 시작하는 빈도가 낮습니다.세미콜론으로 시작하는 후속 행은 소프트웨어에 의해 무시됩니다.사용된 코멘트는 첫 번째 코멘트뿐이었기 때문에 시퀀스의 요약 설명을 저장하는 데 빠르게 사용되었습니다.대부분은 고유한 라이브러리 등록번호로 시작되며, 시간이 지남에 따라 첫 번째 줄에 항상 ">"를 사용하고 ";" 코멘트를 사용하지 않는 것이 일반적이 되었습니다(그렇지 않으면 무시됩니다).
첫 번째 행(시퀀스 설명에 사용됨) 뒤에 실제 시퀀스 자체가 표준1글자 문자열로 표시되어 있습니다.유효한 문자 이외의 문자(스페이스, 탭, 아스터리스크 등)는 무시됩니다.또, 시퀀스를 「*」(아스터리스크) 문자(PIR 형식의 시퀀스에서 사용하는 경우와 유사)로 끝내는 것도 일반적인 일이었습니다.또, 같은 이유로, 설명과 시퀀스 사이에 공백 행을 남깁니다.다음으로 몇 가지 샘플시퀀스를 나타냅니다.
;LCBO - Proactin 전구체 - Bovine, FASTA 형식 MDSKGSRLLLVSNLLLCQVSTPNGPQVSLFDYIV의 샘플 시퀀스트헬블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘블렘IAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*>gi 5524211 gb AAD44166.1 시토 크롬 b[아시아코끼리 maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTI.그렇다고LG LILLLLLLL SPDML GDPDNHMPADPLNTHIKPEWYFLFAILRSVPNKLGLFLLSIVIL GLMPFLHTSKHRSLRSL여러 개의 단일 시퀀스 FASTA 파일을 공통 파일(멀티 FASTA 형식이라고도 함)에 연결하면 다중 시퀀스 FASTA 형식을 얻을 수 있습니다.FASTA 파일의 첫 번째 줄만 ";" 또는 ">"로 시작할 수 있으므로 후속 모든 시퀀스는 다른 것으로 간주하기 위해 ">"로 시작할 수 있습니다(그리고 시퀀스 정의 줄에 대해 ">"의 배타적 예약이 필요함).따라서 위의 예를 함께 사용하면 멀티시퀀스(즉, 멀티 FASTA) 파일로 간주할 수 있습니다.
오늘날 FASTA 형식에 의존하는 현대의 바이오 정보 프로그램은 시퀀스 헤더 앞에 ">"가 붙을 것으로 예상하며, 실제 시퀀스는 일반적으로 위의 예시와 같이 여러 줄에서 "인터리브"로 표현되지만, 전체 스트레치가 한 줄에서 발견되면 "시퀀셜"이 될 수도 있습니다.사용자는 다양한 생체정보 프로그램을 실행하기 위해 "시퀀셜"과 "인터리브" FASTA 형식 사이에서 변환을 수행해야 하는 경우가 종종 있습니다.
설명 행
설명 행(defline) 또는 헤더/식별자 행('>'로 시작)은 시퀀스의 이름 및/또는 고유 식별자를 제공하며 추가 정보를 포함할 수도 있습니다.권장되지 않는 관행에서는 헤더 행에 여러 개의 헤더가 포함되어 있는 경우가 있습니다.이 헤더는 ^A(Control-A) 문자로 구분됩니다.원래 Pearson FASTA 형식에서는 줄의 시작 부분에 세미콜론으로 구분되는 하나 이상의 주석이 머리글 뒤에 발생할 수 있습니다.일부 데이터베이스와 생물정보학 애플리케이션은 이러한 의견을 인식하지 못하고 NCBI FASTA 규격을 따른다.다중 시퀀스 FASTA 파일의 예를 다음에 나타냅니다.
>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL.SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVVIAACDSAEVASKSRDLLRQMHNCBI 식별자
NCBI는 시퀀스에 사용되는 고유 식별자에 대한 표준을 정의했다(Seq).헤더 행에 ID)를 참조해 주세요.이를 통해 데이터베이스에서 가져온 시퀀스에 해당 데이터베이스 레코드에 대한 참조로 레이블을 지정할 수 있습니다.데이터베이스 식별자 형식은 다음과 같은 NCBI 도구에 의해 이해됩니다.makeblastdb그리고.table2asn다음 목록에서는 시퀀스 [5]식별자의 NCBI FASTA 정의 형식을 설명합니다.
| 유형 | 포맷 | 예 |
|---|---|---|
| 로컬(데이터베이스 참조 없음) | lcl integer
| lcl 123
|
| GenInfo 백본 seqid | bbs integer | bbs 123 |
| GenInfo 백본몰 타입 | bbm integer | bbm 123 |
| GenInfo Import ID | gim integer | gim 123 |
| GenBank | gb accession locus | gb M73307 AGMA13GT |
| 엠블 | emb accession locus | emb CAM43271.1 |
| PIR | pir accession name | pir G36364 |
| SWISS-PROT | sp accession name | sp P01013 OVAX_CHICK |
| 특허의 | pat country patent sequence-number | pat US RE33188 1 |
| 특허 출원 | pgp country application-number sequence-number | pgp EP 0238993 7 |
| 참조 | ref accession name | ref NM_010450.1 |
| 일반 데이터베이스 참조 (이 목록에 없는 데이터베이스에 대한 참조) | gnl database integer
| gnl taxon 9606
|
| GenInfo 통합 데이터베이스 | gi integer | gi 21434723 |
| DDBJ | dbj accession locus | dbj BAC85684.1 |
| PRF | prf accession name | prf 0806162C |
| PDB | pdb entry chain | pdb 1I4L D |
| 서드파티 GenBank | tpg accession name | tpg BK003456 |
| 서드파티 EMBL | tpe accession name | tpe BN000123 |
| 서드파티제 DDBJ | tpd accession name | tpd FAA00017 |
| 트램블 | tr accession name | tr Q90RT2 Q90RT2_9HIV1 |
위 목록의 세로 막대("")는 Backus-Naur 형식의 구분자가 아니라 형식의 일부입니다.여러 식별자를 연결할 수 있으며 수직 막대로도 구분할 수 있습니다.
시퀀스 표현
헤더 행 뒤에 실제 시퀀스가 표시됩니다.배열은 단백질 배열 또는 핵산 배열일 수 있으며 간격 또는 정렬 문자를 포함할 수 있습니다(배열 정렬 참조).배열은 표준 IUB/IUPAC 아미노산 및 핵산 코드에 표시될 것으로 예상되지만, 예외적으로 소문자가 받아들여지고 대문자로 매핑됩니다. 단일 하이픈 또는 대시로 간격 특성을 나타낼 수 있습니다. 아미노산 배열에서 U 및 *는 허용 가능한 문자입니다(아래 참조).숫자는 사용할 수 없지만 일부 데이터베이스에서는 시퀀스의 위치를 나타내기 위해 사용됩니다.지원되는 핵산 코드는 다음과 같습니다.[6][7][8]
| 핵산 코드 | 의미. | 니모닉 |
|---|---|---|
| A | A | 아데닌 |
| C | C | 시토신 |
| G | G | 구아닌 |
| T | T | 티민 |
| U | U | 우라실 |
| (i) | i | 이노신(비표준) |
| R | A 또는 G(I) | 푸린 |
| Y | C, T 또는 U | 피리미딘류 |
| K | G, T 또는 U | 케톤인 염기 |
| M | A 또는 C | aMino 그룹이 있는 베이스 |
| S | C 또는 G | 강력한 상호 작용 |
| W | A, T 또는 U | 약한 상호작용 |
| B | 비A(C, G, T 또는 U) | B는 A 다음에 온다. |
| D | C가 아님(A, G, T 또는 U) | D는 C 다음에 온다. |
| H | G가 아님(A, C, T 또는 U) | H는 G 다음에 온다. |
| V | T도 U도 아니다(즉, A, C, G) | V는 U 다음에 온다. |
| N | A C G TU | 핵산 |
| - | 부정 길이의 간격 |
지원되는 아미노산 코드(22개의 아미노산 및 3개의 특수 코드)는 다음과 같습니다.
| 아미노산 코드 | 의미. |
|---|---|
| A | 알라닌 |
| B | 아스파라긴산(D) 또는 아스파라긴(N) |
| C | 시스테인 |
| D | 아스파라긴산 |
| E | 글루탐산 |
| F | 페닐알라닌 |
| G | 글리신 |
| H | 히스티딘 |
| I | 이소류신 |
| J | 류신(L) 또는 이소류신(I) |
| K | 리신 |
| L | 류신 |
| M | 메티오닌/시작 코돈 |
| N | 아스파라긴 |
| O | 필로리신(희귀) |
| P | 프롤린 |
| Q | 글루타민 |
| R | 아르기닌 |
| S | 세린 |
| T | 트레오닌 |
| U | 셀레노시스테인(희귀) |
| V | 발린. |
| W | 트립토판 |
| Y | 티로신 |
| Z | 글루탐산(E) 또는 글루타민(Q) |
| X | 조금도 |
| * | 번역 정지 |
| - | 부정 길이의 간격 |
FASTA 파일
파일 이름 확장자
FASTA 형식의 시퀀스를 포함하는 텍스트 파일에는 표준 파일 이름 확장자가 없습니다.다음 표는 각 확장자 및 각 확장자의 의미를 나타냅니다.
| 내선 | 의미. | 메모들 |
|---|---|---|
| fasta, fa[9] | 범용 FASTA | 범용 fasta 파일기타 일반적인 FASTA 파일 확장자는 아래를 참조하십시오. |
| fna | FASTA핵산 | 일반적으로 핵산을 지정하는 데 사용됩니다. |
| ffn | 유전자 영역의 FASTA 뉴클레오티드 | 게놈의 코딩 영역을 포함합니다. |
| faa | FASTA 아미노산 | 아미노산 배열을 포함합니다.다중 단백질 fasta 파일은 보다 구체적인 확장자 mpfa를 가질 수 있습니다. |
| 프런 | FASTA 비부호화 RNA | DNA 알파벳(예: tRNA, rRNA)에 게놈에 대한 비코딩 RNA 영역을 포함합니다. |
압축
FASTA 파일을 압축하려면 식별자와 시퀀스라는 두 정보 채널을 모두 처리하기 위해 특정 압축기가 필요합니다.향상된 압축 결과를 위해 이들은 주로 독립성을 가정하여 압축이 이루어지는 두 개의 스트림으로 나뉩니다.예를 들어 알고리즘 MFCompress는[10] 컨텍스트 모델링 및 산술 부호화를 사용하여 이들 파일의 무손실 압축을 수행합니다.FASTA 파일 압축 알고리즘의 벤치마크는 오세이니 등, 2016년 및 [11]크류코프 등, 2020년을 [12]참조한다.
암호화
FASTA 파일 암호화는 대부분 특정 암호화 도구를 사용하여 해결되었습니다.Cryfa.[13][14] Cryfa는 AES 암호화를 사용하여 암호화 이외의 데이터를 압축할 수 있습니다.FASTQ 파일을 수신처로 지정할 수도 있습니다.
내선번호
FASTQ 형식은 시퀀싱과 관련된 정보를 나타내기 위해 확장된 FASTA 형식입니다.그것은 [3]캠브리지에 있는 생어 센터에 의해 만들어졌다.
A2M/A3M은 시퀀스 정렬에 사용되는 FASTA에서 파생된 형식 패밀리입니다.A2M/A3M 시퀀스에서는 소문자가 삽입된 것으로 간주되며, 다른 시퀀스에서는 점("") 문자로 표시됩니다.이러한 점은 정보의 손실 없이 콤팩트하게 폐기할 수 있습니다.얼라인먼트에 사용되는 일반적인 FASTA와 마찬가지로 간격("-")은 정확히 하나의 [15]위치를 의미합니다.A3M은 A2M과 비슷하며 삽입에 맞춰 정렬된 간격도 [16]폐기할 수 있다는 규칙이 추가되었습니다.
FASTA 파일 사용
FASTA 파일 조작을 수행하기 위해 커뮤니티에서 많은 사용자 친화적인 스크립트를 사용할 수 있습니다.갤럭시[17] [18]서버 내에서 FaBox나 FASTX-Toolkit과 같은 온라인 도구 상자도 사용할 수 있습니다.예를 들어 시퀀스 헤더/식별자를 분리하거나 이름을 변경하거나 원하는 식별자 목록을 기반으로 큰 FASTA 파일에서 관심 시퀀스를 추출하는 데 사용할 수 있습니다(다른 사용 가능한 함수).FigTree 뷰어에서 관심 시퀀스의 색칠 및/또는 주석을 기반으로 다중 FASTA 파일(TREE2FASTA[19])을 정렬하는 트리 기반 접근법도 존재합니다.또한 [20]Bioconductor.org의 Biostrings 패키지를 사용하여 R의 FASTA 파일을 읽고 조작할 수 있습니다.
여러 온라인 형식 변환기가 있어 다중 FASTA 파일을 다른 형식(NEXUS, PHYLIP 등)으로 빠르게 포맷하여 다른 계통 발생 프로그램(phylogeny.fr에서 [21]사용 가능한 변환기 등)에서 사용할 수 있습니다.
「 」를 참조해 주세요.
- FASTQ 형식은 DNA 시퀀서의 판독값과 품질 점수를 나타내기 위해 사용됩니다.
- 게놈 시퀀서의 판독을 나타내기 위해 사용되는 SAM 포맷은 일반적으로 게놈 [22]시퀀스에 정렬된 후 반드시 그렇지는 않습니다.
- GVF 형식(Genome Variation Format)은 GFF3 형식에 기반한 확장입니다.
레퍼런스
- ^ Lipman DJ, Pearson WR (March 1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. Bibcode:1985Sci...227.1435L. doi:10.1126/science.2983426. PMID 2983426.
- ^ Pearson WR, Lipman DJ (April 1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America. 85 (8): 2444–8. Bibcode:1988PNAS...85.2444P. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770.
- ^ a b Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (April 2010). "The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants". Nucleic Acids Research. 38 (6): 1767–71. doi:10.1093/nar/gkp1137. PMC 2847217. PMID 20015970.
- ^ "What is FASTA Format?". zhanglab.ccmb.med.umich.edu. 에 FASTA 포맷을 나타냅니다.
- ^ NCBI C++ Toolkit Book. National Center for Biotechnology Information. Retrieved 2018-12-19.
- ^ Tao Tao (2011-08-24). "Single Letter Codes for Nucleotides". [NCBI Learning Center]. National Center for Biotechnology Information. Retrieved 2012-03-15.
- ^ "IUPAC code table". NIAS DNA Bank. Archived from the original on 2011-08-11.
- ^ "anysymbol". MAFFT - a multiple sequence alignment program.
- ^ "Alignment Fileformats". 22 May 2019. Retrieved 22 May 2019.
- ^ Pinho AJ, Pratas D (January 2014). "MFCompress: a compression tool for FASTA and multi-FASTA data". Bioinformatics. 30 (1): 117–8. doi:10.1093/bioinformatics/btt594. PMC 3866555. PMID 24132931.
- ^ M. 호세이니, D. 프라타스, A.핀호 2016년생물학적 배열에 대한 데이터 압축 방법에 대한 조사.정보 7(4) : (2016) : 56
- ^ Kryukov K, Ueda MT, Nakagawa S, Imanishi T (July 2020). "Sequence Compression Benchmark (SCB) database—A comprehensive evaluation of reference-free compressors for FASTA-formatted sequences". GigaScience. 9 (7): giaa072. doi:10.1093/gigascience/giaa072. PMC 7336184. PMID 32627830.
- ^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: a tool to compact and encrypt FASTA files". 11th International Conference on Practical Applications of Computational Biology & Bioinformatics (PACBB). Advances in Intelligent Systems and Computing. Vol. 616. Springer. pp. 305–312. doi:10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.
- ^ Hosseini M, Pratas D, Pinho A (2018). Cryfa: a secure encryption tool for genomic data. Bioinformatics. Vol. 35. pp. 146–148. doi:10.1093/bioinformatics/bty645. PMC 6298042. PMID 30020420.
- ^ "Description of A2M alignment format". SAMtools.
- ^ "soedinglab/hh-suite: reformat.pl". GitHub.
- ^ Villesen P (April 2007). "FaBox: an online toolbox for fasta sequences". Molecular Ecology Resources. 7 (6): 965–968. doi:10.1111/j.1471-8286.2007.01821.x.
- ^ Blankenberg D, Von Kuster G, Bouvier E, Baker D, Afgan E, Stoler N, Galaxy Team, Taylor J, Nekrutenko A (2014). "Dissemination of scientific software with Galaxy ToolShed". Genome Biology. 15 (2): 403. doi:10.1186/gb4161. PMC 4038738. PMID 25001293.
- ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (March 2018). "TREE2FASTA: a flexible Perl script for batch extraction of FASTA sequences from exploratory phylogenetic trees". BMC Research Notes. 11 (1): 403. doi:10.1186/s13104-018-3268-y. PMC 5838971. PMID 29506565.
- ^ Pagès, H; Aboyoun, P; Gentleman, R; DebRoy, S (2018). "Biostrings: Efficient manipulation of biological strings". Bioconductor.org. R package version 2.48.0. doi:10.18129/B9.bioc.Biostrings.
- ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (July 2008). "Phylogeny.fr: robust phylogenetic analysis for the non-specialist". Nucleic Acids Research. 36 (Web Server issue): W465–9. doi:10.1093/nar/gkn180. PMC 2447785. PMID 18424797.
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf[베어 URL PDF]