스톡홀름 형식

Stockholm format
스톡홀름 형식
파일 이름 확장자
.sto,.stk
인터넷 미디어 유형
text/x-stockholm-alignment
개발자에릭 손함머스
포맷의 종류생물정보학
오픈 포맷?네.
웹 사이트sonnhammer.sbc.su.se/Stockholm.html

스톡홀름 형식은 단백질 및 RNA 배열 [1][2]정렬을 전파하기 위해 Pfam 및 Rfam에서 사용하는 다중 배열 정렬 형식입니다.얼라인먼트 에디터 Ralee,[3] BelvuJalview확률론적 데이터베이스 검색 도구, Infernal HMMER 및 계통발생 분석 도구 Xrate와 마찬가지로 스톡홀름 형식을 지원합니다.스톡홀름 형식 파일에는 파일 확장자가 붙어 있는 경우가 많습니다. .sto또는.stk를 클릭합니다.[4]

구문

올바른 형식의 스톡홀름 파일에는 항상 형식과 버전 식별자를 나타내는 헤더가 포함되어 있습니다(현재 ').# STOCKHOLM 1.0'. 헤더 뒤에 여러 줄, 마크업(#으로 시작) 및 시퀀스가 혼재합니다.마지막으로, "//" line은 정렬의 끝을 나타냅니다.

마크업이 없는 예는 다음과 같습니다.

# 스톡홀름 1.0 #=GF ID 예 <seqname> <aligned sequence> <seqname> <aligned sequence> //

시퀀스는 한 줄에 하나씩 작성됩니다.시퀀스 이름이 먼저 쓰여지고 원하는 수의 공백 뒤에 시퀀스가 쓰여집니다.시퀀스 이름은 일반적으로 "name/start-end" 또는 "name" 형식입니다.시퀀스 문자에는 공백 이외의 문자를 사용할 수 있습니다.공백은 "." 또는 "-"로 나타낼 수 있습니다.

마크업 행은 # 로 시작합니다."파라미터"는 공백으로 구분되므로 열당 1문자 마크업에는 공백 대신 밑줄("_")을 사용해야 합니다.정의된 마크업 유형은 다음과 같습니다.

#=GF <파일별 일반 주석, 자유 텍스트> #=Column별 일반 주석, 열당 정확히 1자씩> #=GS <seqname> <column별 일반 주석, 자유 텍스트> #=GR <seqname> <문자열별 일반 주석, 자유 텍스트> <문자열당 1자> 정확하게 1자씩 주석

권장 기능

이러한 피쳐 이름은 특정 주석 유형에 대해 Pfam과 Rfam에서 사용됩니다.('필드 설명'의 PfamRfam 문서 참조)

#=GF

Pfam 및 Rfam은 다음 태그를 사용할 수 있습니다.

필수 필드: --------------------------- AC 등록 번호:PFxxxx(Pfam) 또는 RFxxxx(Rfam) 형식의 등록 번호.ID 식별:가족을 나타내는 한 단어 이름.DE 정의:가족에 대한 간단한 설명.AU 작성자:엔트리의 작성자.SE 시드 소스:종자 구성원을 암시하는 출처는 한 가족에 속합니다.SS 구조의 소스:Rfam이 사용하는 합의 RNA 2차 구조의 소스(예측 또는 발표).BM 빌드 방법: 모델 SM 검색 방법을 생성하는 데 사용되는 명령줄: 검색 GA 수집 임계값을 수행하는 데 사용되는 명령줄: 검색 임계값: 전체 정렬을 빌드하는 검색 임계값.TC 신뢰할 수 있는 컷오프:완전 정렬 일치의 최저 시퀀스 점수(및 Pfam의 도메인 점수)입니다.NC 노이즈 차단:완전 정렬되지 않은 일치의 최고 시퀀스 점수(및 Pfam의 도메인 점수)입니다.TP 유형:패밀리 유형 - 현재 패밀리, 도메인, 모티브 또는 반복 - 루트 Gene, Intron 또는 Cis-reg for Rfam.SQ 시퀀스:정렬된 시퀀스 수.옵션 필드: ------------------------------------------------------------------------------------------DR 데이터베이스 레퍼런스:외부 데이터베이스에 대한 참조입니다.RC 레퍼런스 코멘트: 문헌 레퍼런스에 대한 코멘트.RN 참조 번호:참조 번호RM 기준 중간선:8자리 중간선 UI 번호입니다.RT 참조 제목: 참조 제목.RA 레퍼런스 작성자: 레퍼런스 작성자 RL 레퍼런스 위치: 저널 위치.PI 이전 식별자:이전의 모든 ID 행의 기록.KW 키워드:키워드CC 코멘트: 코멘트.NE Pfam 가입:네스트된 도메인을 나타냅니다.NL 위치:중첩된 도메인의 위치 - 시퀀스 ID, 삽입 시작 및 끝.WK Wikipedia 링크:위키피디아 페이지 CL 클랜: 클랜 가입 MB 멤버십:클랜 멤버십을 나열하기 위해 사용됩니다.트리를 삽입하기 위해 사용됩니다.NH 뉴햄프셔 A 트리는 뉴햄프셔 eXtended 형식입니다.TN 트리 ID 다음 트리의 고유 식별자입니다.기타: ------- FR False Discovery Rate: 예상된 false positive 대 true positive의 비율에 따라 비트 점수 임계값을 설정하는 방식.0과 1 사이의 부동 소수점 번호. CB 보정 방법: 모델을 보정하는 데 사용되는 명령줄(Ram만 해당, 릴리스 12.0 이상)
  • 참고: 트리는 여러 #=GF NH 라인에 저장할 수 있습니다.
  • 여러 트리가 동일한 파일에 저장되는 경우 각 트리 앞에 고유한 트리 식별자가 있는 #=GF TN 행이 와야 합니다.트리가 하나만 포함된 경우 #=GF TN 행을 생략할 수 있습니다.

#=GS

Rfam 및 Pfam은 다음 기능을 사용할 수 있습니다.

Feature설명--------------------------------교류<>accession>, ACcession 수 DE<>freetext>, DEscription DR<>db><>accession>데이터베이스 참조 OS<>organism>, 생물(종)일정 주기에 따라<>clade&gt을 말한다.               생물 분류(clade 등)LO <룩> 룩 (컬러 등) 

#=GR

기능 설명 마크업 문자 ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------[0-9X] (0=0%-10%;...; 9=90%-100%) TM 막브레인 [Mio] PP 사후 확률 [0-9*] (0=0.00-0.05, 1=0.05-0.15, *=0.95-1.00) 활성 부위 [*] PAS [*] 예측대로 LI 리간드 결합 [*] PAS [*]INtron(내 또는 후) [0-2] RNA 3차 상호작용의 경우: --------------------------------------------------------------------------------------------------------------------------------------------------- 염기쌍의 경우: [<>AaBbbb]Zz] 비쌍의 경우: [. cis cWS WC/SugarEdge의 cWH WC/Hoogsteen, 트랜스노트의 cis tWS WC/SugarEdge의 cWH WC/Hoogsteen: (1) {c,t}{W,H,S}는 일반 포맷 (2)cWW와 동등합니다.

#=카운트

유효한 기능 목록에는 아래에 나와 있는 기능뿐만 아니라 #=GR에 "_cons"가 추가된 것과 동일한 기능(예: "_cons")이 포함됩니다.예: "SS_cons"

특징 설명 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- RF ReF. 또는 -'는 삽입 컬럼을 나타냅니다~'는 정렬되지 않은 삽입을 나타냅니다. 대소문자는 MM 모델 마스크 인디케이터 각각에 대해 강하고 약하게 보존된 잔류물을 식별하기 위해 사용할 수 있습니다.선형에서 어느 열을 마스킹해야 하는지, 해당 열에 해당하는 일치 상태의 방출 확률이 배경 분포가 되도록 합니다. 

메모들

  • #=Label이 동일한 여러 줄을 사용하지 마십시오.
  • 단일 시퀀스의 경우 #=GR 라벨이 동일한 여러 라인을 사용하지 마십시오.각 시퀀스에 대해 하나의 기능 할당만 수행할 수 있습니다.
  • SA 및 SS에서 "X"는 "구조를 알 수 없는 잔류"를 의미합니다.
  • 단백질 SS 문자는 DSSP: H=alpha-helix, G=3/10-helix, I=p-helix, E=holid strand, B=holid in solated b-bridge, T=turn, S=holf, C=loop)에서 가져온다.
  • RNA SS 문자는 WUSS(Washington University Secondary Structure) 표기법에서 가져옵니다.중첩된 괄호 문자 < > , [ ] 또는 {}이(가) 일치하면 기준 쌍을 나타냅니다.'.', '', ';' 기호는 페어링되지 않은 영역을 나타냅니다.영문 알파벳의 대소문자가 일치하면 의사 노 인터랙션을 나타냅니다.매듭 안에 있는 5' 뉴클레오티드는 대문자여야 하고 3' 뉴클레오티드는 소문자여야 합니다.

권장 배치

  • #=GF 정렬 위
  • #=정렬 아래쪽에 표시
  • #=GS 정렬 위 또는 해당 시퀀스 바로 아래
  • #=GR 해당 시퀀스 바로 아래

크기 제한

필드에 명시적인 크기 제한은 없습니다.그러나 고정 필드 크기를 사용하는 단순한 파서는 다음과 같은 제한이 있는 Pfam 및 Rfam 정렬에서 안전하게 작동해야 합니다.

  • 회선 길이: 10000 。
  • <seqname>: 255.
  • <param>: 255.

스톡홀름 형식의 유사 노트를 사용하는 Rfam 정렬(UPSK RNA)의 간단한 예를 [5]아래에 나타냅니다.

# 스톡홀름 1.0 #=GF ID UPSK #=GF SE 예측, 영구 #=GF SS 공개, PMID 9223489 #=GF RN [1] #=GF RM 9223489 #=GF RT 3'의 역할 종료#=GF RA Deiman BA, Kortlever RM, Pleij CW; #=GF RL J Virol 1997; 71:5990-5996.AF035635.1/619-641 UGAUGUCUGUAUAUAUCUM24804.1/82-104 UGUAUGUAUAUAUAUAUCUG J04373.1/62-126UAUGUAAAA....<<aa....>>> //

다음으로 Pfam CBS 도메인을 표시하는 조금 더 복잡한 예를 제시하겠습니다.

# 스톡홀름 1.0 #=GF ID CBS #=GF AC PF00571 #=GF DE CBS 도메인 #=GF AU Bateman A #=GF CC CBS 도메인은 단백질 내 2개 또는 4개 복사본에서 주로 발견되는 작은 세포 내 모듈이다.#=GF SQ 5 #=GS O31698/18-71 AC O31698 #=GS O83071/192-246 AC O83071 #=GS O83071/259-312 AC O83071 #=GS O31698/88-139 AC O31698 ##LIAVPRASSLAEAQKMRVPVYERS #=GR O83071/192-246 SA 99987756452555152536463777 O83071/259-312MQVSAPVYERVF8-139 EVMLTDIPRLINDPIMKGFGMVINN..GFVCVENDE #=GR O31698/88-139 SS CCCCCHHHHHHHHHHHHHHHHH #=CJS_cons CCCHHHHHHHGFVCVENDE #=GR O31699/88-139 AS _________________________________________________________________________________________________________________________________

「 」를 참조해 주세요.

레퍼런스

  1. ^ Gardner PP, Daub J, Tate JG, et al. (January 2009). "Rfam: updates to the RNA families database". Nucleic Acids Res. 37 (Database issue): D136–40. doi:10.1093/nar/gkn766. PMC 2686503. PMID 18953034.
  2. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "The Pfam protein families database". Nucleic Acids Res. 36 (Database issue): D281–8. doi:10.1093/nar/gkm960. PMC 2238907. PMID 18039703.
  3. ^ Griffiths-Jones S (January 2005). "RALEE--RNA ALignment editor in Emacs". Bioinformatics. 21 (2): 257–9. doi:10.1093/bioinformatics/bth489. PMID 15377506.
  4. ^ "Alignment Fileformats". 22 May 2019. Retrieved 22 May 2019.
  5. ^ Deiman BA, Kortlever RM, Pleij CW (August 1997). "The role of the pseudoknot at the 3' end of turnip yellow mosaic virus RNA in minus-strand synthesis by the viral RNA-dependent RNA polymerase". J. Virol. 71 (8): 5990–6. doi:10.1128/JVI.71.8.5990-5996.1997. PMC 191855. PMID 9223489.

외부 링크