시퀀스 모티브

Sequence motif
LexA 결합 모티브의 배열 로고로 표현되는 DNA 배열 모티브.

생물학에서 배열 모티브는 널리 퍼지고 일반적으로 고분자의 생물학적 기능과 관련이 있다고 가정되는 뉴클레오티드 또는 아미노산 배열 패턴이다.예를 들어 N-글리코실화 부위의 모티브는 Asn, Pro를 제외한 모든 것, Ser 또는 Thr 중 하나, Pro 잔기를 제외한 모든 으로 정의할 수 있습니다.

개요

배열 모티브가 유전자의 엑손에 나타날 때, 그것은 단백질의 "구조 모티브"를 부호화할 수 있습니다; 그것은 단백질의 전체 구조의 전형적인 요소입니다.그럼에도 불구하고, 모티브는 구별되는 이차 구조와 연관될 필요가 없다."비코드" 배열은 단백질로 변환되지 않으며, 그러한 모티브를 가진 핵산은 전형적인 형태(예: "B-form" DNA 이중나선)에서 벗어날 필요가 없다.

유전자 엑손 밖에는 위성 DNA와 같은 "정크" 내에 조절 배열 모티브와 모티브가 존재한다.이들 중 일부는 핵산의 형태에 영향을 미치는 것으로 생각되지만(예: RNA 자가 분열 참조), 이것은 단지 가끔 있는 경우입니다.예를 들어, 특정 DNA 결합 부위에 친화력을 가진 많은 DNA 결합 단백질은 DNA를 이중 나선 형태로만 결합한다.이중나선의 주홈 또는 부홈과의 접촉을 통해 모티브를 인식할 수 있습니다.

2차 구조가 결여된 것으로 보이는 짧은 코드 모티브는 세포의 특정 부분에 전달하기 위해 단백질을 라벨링하거나 인산화하기 위해 표시하는 모티브를 포함한다.

시퀀스의 시퀀스 또는 데이터베이스 내에서 연구자들은 BLAST와 같은 시퀀스 분석의 컴퓨터 기반 기술을 사용하여 모티브를 검색하고 찾습니다.그러한 기술은 생물정보학 분야에 속한다.컨센서스 시퀀스」도 참조해 주세요.

모티브 표현

위에서 언급한 N-글리코실화 사이트 모티브를 고려합니다.

Asn, Pro 이외의 것, Ser 또는 Thr의 어느 쪽, Pro 이외의 것

이 패턴은 다음과 같이 표시될 수 있습니다.N= ASN,P= 프로,S= Ser,T= Thr;{X}다음을 제외한 모든 아미노산을 의미한다.X; 및[XY]둘 중 하나를 의미합니다.X또는Y.

표기법[XY]의 가능성을 전혀 나타내지 않는다X또는Y패턴 내에서 발생합니다.관측된 확률은 시퀀스 로고를 사용하여 그래픽으로 나타낼 수 있습니다.때로는 패턴이 숨겨진 마르코프 모델과 같은 확률론적 모델의 관점에서 정의되기도 한다.

모티브와 컨센서스 시퀀스

표기법[XYZ]수단X또는Y또는Z단, 특정 일치 가능성을 나타내는 것은 아닙니다.이러한 이유로 두 개 이상의 패턴이 하나의 모티브(정의 패턴 및 다양한 전형적인 패턴)와 연관되는 경우가 많습니다.

를 들어 IQ 모티브의 정의 시퀀스는 다음과 같습니다.

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

어디에x는 아미노산을 나타내고, 각 괄호는 대안을 나타냅니다(표기에 대한 자세한 내용은 아래 참조).

하지만 보통 첫 번째 글자는I, 및 둘 다[RK]선택지가 해결되다R마지막 선택지가 너무 넓어서 패턴이IQxxxRGxxxR때로는 IQ 모티브 자체와 동일시되기도 하지만, 보다 정확한 설명은 IQ 모티브에 대한 합의된 시퀀스가 될 것입니다.

패턴 설명 표기

모티브를 기술하기 위한 몇 가지 표기법이 사용되고 있지만 대부분은 정규 표현에 대한 표준 표기법의 변형이며 다음 표기법을 사용합니다.

  • 각각 특정 아미노산 또는 아미노산 세트를 나타내는 단일 문자의 알파벳이 있다.
  • 알파벳에서 추출한 일련의 문자는 대응하는 아미노산의 염기서열을 나타낸다.
  • 각 괄호로 둘러싸인 알파벳에서 추출된 문자열은 해당 아미노산 중 하나와 일치한다.[abc]에 의해 대표되는 아미노산 중 하나와 일치한다a또는b또는c.

이 모든 표기 뒤에 있는 기본 개념은 패턴 표기법의 일련의 요소에 의미를 부여하는 일치 원리입니다.

패턴 표기법의 요소 배열은 후자의 배열이 각각의 패턴 요소가 차례로 대응하는 후속 요소와 일치하도록 후속으로 분할될 수 있는 경우에만 아미노산 배열과 일치한다.

그래서 패턴은[AB] [CDE] F대응하는 6개의 아미노산 배열과 일치한다ACF,ADF,AEF,BCF,BDF,그리고.BEF.

패턴 설명 표기는 패턴 요소를 형성하는 다른 방법이 있습니다.이러한 표기법 중 하나가 다음 항에서 설명하는 PROSITE 표기법입니다.

PROSITE 패턴 표기법

PROSITE 표기법은 IUPAC 한 글자 코드를 사용하며 연결 기호인 '를 제외하고 위의 설명에 준거합니다.-'는 패턴 요소 사이에 사용되지만 패턴 알파벳 문자 사이에 자주 드롭됩니다.

PROSITE에서는 앞에서 설명한 것 외에 다음과 같은 패턴 요소를 사용할 수 있습니다.

  • 소문자 ''x'는 아미노산을 나타내기 위한 패턴 요소로서 사용될 수 있다.
  • 알파벳에서 따와 괄호(곡선 괄호)로 둘러싸인 문자열은 문자열 내의 문자열을 제외한 모든 아미노산을 나타냅니다.예를들면,{ST}이외의 아미노산을 나타낸다.S또는T.
  • 패턴이 시퀀스의 N-terminal로 제한될 경우 패턴 앞에 '가 붙습니다.<'.
  • 패턴이 시퀀스의 C-말단으로 제한될 경우 패턴에는 '가 붙습니다.>'.
  • 캐릭터 '>'는 끝 대괄호 패턴 안에서도 발생할 수 있습니다.S[T>]양쪽 모두 일치합니다.ST" 및 "S>".
  • 한다면e패턴 요소입니다.m그리고.n두 개의 소수 정수로,m<=>n그 다음에, 다음과 같이 합니다.
    • e(m)의 반복에 상당합니다.e정확하게m시간
    • e(m,n)의 반복에 상당합니다.e정확하게k임의의 정수의 횟수k만족:m<=>k<=>n.

몇 가지 예:

  • x(3)와 동등하다x-x-x.
  • x(2,4)일치하는 모든 시퀀스와 일치합니다.x-x또는x-x-x또는x-x-x-x.

C2H2 타입의 아연 핑거 도메인의 시그니처는 다음과 같습니다.

  • C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

매트릭스

고정 길이 모티브의 각 위치에서 각 잔류물 또는 뉴클레오티드에 대한 점수를 포함하는 숫자의 매트릭스.무게 행렬에는 두 가지 유형이 있습니다.

  • 위치 주파수 매트릭스(PFM)는 각 잔류물 또는 뉴클레오티드의 위치 의존 빈도를 기록한다.PFM은 SELEX 실험에서 실험적으로 결정되거나 숨겨진 마르코프 모델을 사용하여 MEME과 같은 도구를 통해 계산적으로 발견될 수 있다.
  • Position Weight Matrix(PWM)는 일치 점수를 계산하기 위한 로그 오즈 웨이트를 포함한다.입력 시퀀스가 모티브와 일치하는지 여부를 지정하려면 컷오프가 필요합니다.PWM은 PFM에서 계산됩니다.

트랜스크립션 팩터 AP-1의 TRAPAC 데이터베이스로부터의 PFM의 예를 다음에 나타냅니다.

포스 A C G T IUPAC
01 6 2 8 1 R
02 3 5 9 0 S
03 0 0 0 17 T
04 0 0 17 0 G
05 17 0 0 0 A
06 0 16 0 1 C
07 3 2 3 9 T
08 4 7 2 4 N
09 9 6 1 1 M
10 4 3 7 3 N
11 6 3 1 7 W

첫 번째 열은 위치를 지정하고, 두 번째 열은 해당 위치에서 발생한 A의 수를 나타내고, 세 번째 열은 해당 위치에서 발생한 C의 수를 나타내고, 네 번째 열은 해당 위치에서 발생한 G의 수를 나타내고, 다섯 번째 열은 해당 위치에서 발생한 T의 수를 나타냅니다.마지막 열에는 해당 위치의 IUPAC 표기가 포함됩니다.PFM은 여러 컨센서스 시퀀스를 집약함으로써 도출되므로 각 행의 A, C, G 및 T의 오카렌스 합계는 같아야 합니다.

모티브 검출

개요

염기서열 모티브 발견 과정은 1990년대부터 잘 개발되어 왔다.특히 기존의 모티브 발견 연구는 대부분 DNA 모티브에 초점을 맞추고 있다.높은 처리량 시퀀싱이 발전함에 따라 이러한 모티브 발견 문제는 시퀀스 패턴 퇴화 문제와 데이터 집약적인 계산 확장성 문제 모두에 의해 해결됩니다.

De novo 모티브 발견

여러 입력 시퀀스가 주어지면 하나 이상의 후보 모티브를 식별하려고 시도하는 소프트웨어 프로그램이 있습니다.예를 들어 Multiple EM for Motife(MEMe) 알고리즘이 각 [1]후보 통계 정보를 생성합니다.모티브 발견 알고리즘을 상술한 100개 이상의 출판물이 있다; Weirauch 등.2013년 [2]벤치마크에서 많은 관련 알고리즘을 평가했습니다.심어진 모티브 검색은 조합적 접근법에 기초한 또 다른 모티브 발견 방법입니다.

계통학적 모티브 발견

모티브는 또한 계통발생학적 접근법을 취하고 다른 종에서 유사한 유전자를 연구함으로써 발견되었다.예를 들어 인간, 마우스, D.멜라노가스터에서 GCM(아교세포 결손) 유전자에 의해 특정된 아미노산 배열을 배열함으로써 아키야마 등은 1996년에 [3]GCM 모티브라고 불리는 패턴을 발견했다.아미노산 잔기는 약 150개이며 다음과 같이 시작됩니다.

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

여기 각각.단일 아미노산 또는 간극을 의미하며, 각각*가까운 아미노산 계열의 한 멤버를 나타냅니다.저자들은 모티브가 DNA 결합 활성을 가지고 있다는 것을 보여줄 수 있었다.

유사한 접근방식이 Pfam과 같은 현대 단백질 도메인 데이터베이스에 일반적으로 사용된다. 인간 큐레이터는 관련된 것으로 알려진 배열 풀을 선택하고 그것들을 정렬하기 위해 컴퓨터 프로그램을 사용하고 다른 관련 단백질을 식별하는데 사용될 수 있는 모티브 프로파일을 생성한다.PhyloGibs를 [4]예로 들며 de novo MEM 알고리즘을 강화하기 위해 계통발생적 접근법을 사용할 수도 있다.

De novo 모티브 쌍 검출

2017년 MotifHyades는 짝짓기 [5]시퀀스에 직접 적용할 수 있는 모티브 디스커버리 툴로 개발되었습니다.

단백질에서 De novo 모티브 인식

2018년에는 [6]단백질의 DNA 결합 도메인에서 DNA 모티브를 추론하는 마르코프 랜덤 필드 접근법이 제안되었다.

모티브 케이스

3차원 체인 코드

대장균 유당 오퍼론 억제제 LacI(PDB: 1lcc 사슬 A)와 대장균 이화산 유전자 활성화제(PDB: 3gap 사슬 A)는 모두 나선-나선 모티브를 가지고 있으나 아래 표와 같이 아미노산 배열은 크게 유사하지 않다.1997년 마쓰다은 단백질 구조를 문자열로 나타내기 위해 '3차원 연쇄 코드'라고 불리는 코드를 고안했다.이 부호화 방식은 아미노산 배열보다 단백질 간의 유사성을 훨씬 더 명확하게 드러낸다(기사의 [7]예).코드는 단백질 골격의 알파 탄소 사이의 비틀림 각도를 부호화한다."W"는 항상 알파 나선에 해당합니다.

3D 체인 코드 아미노산순서
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3갭A KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

「 」를 참조해 주세요.

레퍼런스

2차 및 3차 소스

주요 소스

  1. ^ Bailey TL, Williams N, Misleh C, Li WW (July 2006). "MEME: discovering and analyzing DNA and protein sequence motifs". Nucleic Acids Research. 34 (Web Server issue): W369-73. doi:10.1093/nar/gkl198. PMC 1538909. PMID 16845028.
  2. ^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (February 2013). "Evaluation of methods for modeling transcription factor sequence specificity". Nature Biotechnology. 31 (2): 126–34. doi:10.1038/nbt.2486. PMC 3687085. PMID 23354101.
  3. ^ Akiyama Y, Hosoya T, Poole AM, Hotta Y (December 1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proceedings of the National Academy of Sciences of the United States of America. 93 (25): 14912–6. Bibcode:1996PNAS...9314912A. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.
  4. ^ Siddharthan R, Siggia ED, van Nimwegen E (December 2005). "PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny". PLOS Computational Biology. 1 (7): e67. Bibcode:2005PLSCB...1...67S. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.
  5. ^ Wong KC (October 2017). "MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences". Bioinformatics. 33 (19): 3028–3035. doi:10.1093/bioinformatics/btx381. PMID 28633280.
  6. ^ Wong KC (September 2018). "DNA Motif Recognition Modeling from Protein Sequences". iScience. 7: 198–211. Bibcode:2018iSci....7..198W. doi:10.1016/j.isci.2018.09.003. PMC 6153143. PMID 30267681.
  7. ^ Matsuda H, Taniguchi F, Hashimoto A (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 280–91. PMID 9390299.

추가 정보

2차 및 3차 소스

주요 소스