모티프 도출을 위한 다중 전자파

Multiple EM for Motif Elicitation

MEME(Multiple Feederation for Metimet Eachment)는 관련 DNA 또는 단백질 시퀀스 그룹에서 모티브를 발견하기 위한 도구다.[1]

모티브는 관련 단백질이나 DNA 서열의 그룹에서 반복적으로 발생하는 시퀀스 패턴으로, 종종 어떤 생물학적 기능과 관련이 있다.MEME는 패턴의 각 위치에서 각 가능한 문자의 확률을 설명하는 위치 의존적 문자 확률 매트릭스로 모티브를 나타낸다.개별 MEME 모티브에는 공백이 포함되어 있지 않다.길이 간격이 가변적인 패턴은 MEME에 의해 둘 이상의 별도 모티브로 분할된다.

MEME는 DNA 또는 단백질 시퀀스 그룹(훈련 세트)을 입력으로 받아 원하는 만큼의 모티브를 출력한다.통계 모델링 기법을 사용하여 각 모티브에 대한 최적의 너비, 발생 횟수, 설명을 자동으로 선택한다.

MEME는 MEME 제품군이라고 불리는 모티브를 분석하기 위한 도구 모음 중 첫 번째 입니다.

정의

MEME 알고리즘은 두 가지 다른 관점에서 이해할 수 있었다.생물학적 관점에서 MEME는 정렬되지 않은 시퀀스 집합에서 공유된 모티브를 식별하고 특성화한다.컴퓨터 과학 측면에서 MEME는 시작 문자열 집합이 주어진 거의 일치하는 오버랩되지 않는 서브스트링 집합을 찾는다.[citation needed]

사용하다.

MEME는 다른 시퀀스에서 유사한 생물학적 기능과 구조를 찾는 데 사용될 수 있다.시퀀스 변동이 유의할 수 있으며 모티브가 매우 작을 때도 있다는 점을 고려할 필요가 있다.단백질의 결합 부위가 매우 구체적이라는 점도 고려하는 것이 유용하다.이를 통해 습식 실험실 실험(비용과 시간 절약)을 쉽게 줄일 수 있다.실제로 생물학적 관점에서 관련된 모티브를 더 잘 발견하기 위해서는 모티브의 최대 너비, 각 시퀀스의 발생 횟수, 각 모티브의 구성 등 신중하게 선택해야 한다.

알고리즘 구성요소

알고리즘은 잘 알려진 여러 유형의 함수를 사용한다.

  • 기대 최대화(EM)
  • 전자파 시작점 선택을 위한 전자파 기반 휴리스틱스.
  • 모형이 없는 모수의 최적 개수를 결정하기 위한 최대우도비 기반(LRT 기반) 휴리스틱.
  • 가능한 모티브 너비를 검색하기 위한 멀티 스타트.
  • 여러 모티브를 찾는 탐욕스러운 검색.

그러나 출발 위치가 어디인지 모르는 경우가 많다.몇 가지 가능성이 존재한다: 정확히 시퀀스당 하나의 모티프, 시퀀스당 하나 또는 0 모티프, 또는 시퀀스당 임의의 수의 모티프.

참고 항목

참조

  1. ^ 베일리 T.L, 엘칸 C.EM을 이용한 바이오폴리머의 다중 모티브에 대한 무감독 학습마하. 학습. 1995;21:51–80.

외부 링크

  • MEME Suite - 모티브 기반 시퀀스 분석 도구
  • GPU 가속화된 MEME 버전
  • Extreme — 대용량 Chip-Seq 및 DNase-Seq Footprinting 데이터에서 빠른 모티브 검색을 위한 MEME 모델의 온라인 전자파 구현