진마크
GeneMark| 원본 작성자 | 마크 보로도프스키의 생물정보학 그룹 |
|---|---|
| 개발자 | 조지아 공과대학교 |
| 초기 릴리즈 | 1993 |
| 운영 체제 | Linux, Windows 및 Mac OS |
| 면허증 | 학술용, 비영리용 또는 미국 정부용 무료 |
| 웹사이트 | opal.biology.gatech.edu/GeneMark |
진마크는 애틀랜타 조지아공과대학에서 개발한 아비니시오 유전자 예측 프로그램 계열의 총칭이다.1993년에 개발된 오리지널 진마크는 1995년에 헤모필루스 인플루언서의 첫 번째 완전 서열화된 박테리아 게놈의 주석을 위한 1차 유전자 예측 도구로 사용되었고, 1996년에는 메타노코쿠스 잔나스키의 첫 번째 고고학적 게놈에 사용되었다.알고리즘은 유전자 예측에서 표준이 된 단백질 코딩 DNA 서열의 비균형 3주기 마르코프 연쇄 모델과 두 DNA 가닥의 유전자 예측에 대한 베이지안 접근법을 동시에 도입했다.모델의 종별 특정 매개변수는 알려진 유형의 훈련 순서(단백질 코딩 및 비코딩)에서 추정되었다.알고리즘의 주요 단계는 6개의 가능한 판독 프레임 각각(보완적인 DNA Strand에 있는 3개의 프레임을 포함)에서 "단백질 코딩"(유전자 코드를 운반)이 되거나 "비코딩"이 될 수 있는 특정 DNA 조각 후확률을 계산한다.Original GeneMark (생물정보학에서 MHM 시대 이전에 개발된)는 HMM과 유사한 알고리즘으로, 적절히 정의된 HM을 위해 HM 이론 후방 디코딩 알고리즘에서 알려진 근사치로 볼 수 있다.
원핵 유전자 예측
GeneMark.hmm 알고리즘(1998)은 짧은 유전자와 유전자 시작을 찾는 데 있어 유전자 예측 정확도를 향상시키기 위해 설계되었다.그 아이디어는 GeneMark에서 사용되는 Markov 체인 모델을 숨겨진 Markov 모델 프레임워크에 통합하는 것으로, 코딩 영역과 비코딩 영역 간의 전환은 공식적으로 숨겨진 상태 사이의 전환으로 해석된다.또한 유전자 시작 예측의 정확성을 향상시키기 위해 리보솜 결합 부위 모델을 사용하였다.다음 단계는 자가 훈련 유전자 예측 툴 GeneMarkS(2001)의 개발로 이루어졌다.GeneMarkS는 새로운 원핵 유전체 배열에서 유전자 식별을 위해 유전체학계에 의해 활발하게 사용되고 있다.진마르크S+는 친핵 게놈 주석을 위한 NCBI 파이프라인에서 매일 최대 2000개의 게놈 주석을 달 수 있다(www.ncbi.nlm.nih.gov/genome/annotation_prok/process)).null
메타게놈과 메타트랜스시ptom의 휴리스틱 모델과 유전자 예측
GeneMark와 GenMark.hmm 알고리즘의 종별 고유 매개변수의 정확한 식별은 정확한 유전자 예측을 위한 핵심 조건이었다.그러나, 바이러스 게놈에 대한 연구, 큰 게놈 문맥이 없는 다소 짧은 순서로 유전자 예측을 위한 파라미터를 어떻게 정의하느냐는 의문에 의해 제기되었다.1999년에 이 문제는 G+C 순서의 함수로서 매개변수의 "휴리스틱 방법" 계산을 개발하여 다루었다.2004년부터 휴리스틱 접근법에 의해 구축된 모델은 메타게놈 서열에서 유전자를 찾는 데 사용되어 왔다.그 후, 수 백 개의 친핵 게놈을 분석하여 2010년에는 좀 더 발전된 휴리스틱 방식(MetaGeneMark에서 구현)을 개발하게 되었다.null
진핵 유전자 예측
eukaryotic genome modeling에서 eukaryotic genome modeling은 HMHs의 사용에 의해 해결된 주요 난제를 나타낸다. eukaryotic GeneMark.hmm의 HUM 아키텍처는 초기, 내부 및 터미널 exon, intron, intergenic 영역 및 두 DNA Strand에 위치한 단일 exon 유전자에 대한 숨겨진 상태를 포함한다.초기 진핵종 GeneMark.hmm은 알고리즘 매개변수 추정을 위해 훈련 세트가 필요했다.2005년에 자체 훈련 알고리즘의 첫 번째 버전이 개발되었다.2008년에 GeneMark-ES 알고리즘은 특별한 인트론 모델과 더욱 복잡한 자기 훈련 전략을 개발함으로써 곰팡이 유전체로 확장되었다.이어 2014년 유전체 미조립 RNA-Seq 리드에 매핑된 정보로 자체 훈련을 증강하는 알고리즘이 패밀리에 추가됐다.진핵성 대본에서의 유전자 예측은 새로운 알고리즘 GeneMarkS-T(2015)에 의해 이루어질 수 있다.
유전자 예측 프로그램의 진마크 계열
박테리아, 아르케아
- 진마크
- 진마르크스
- 진마르크S+
메타게놈과 메타트랜스크립토놈
- 메타제네마크
에우카리오테스
- 진마크
- 진마크.흠.
- GeneMark-ES: 감독되지 않은 아비 이니시오 모드에서 자동 훈련을 수행하는 진핵 게놈에 대한 유전자 발견 알고리즘.[2]
- GeneMark-ET: RNA-Seq 읽기 정렬을 자가 훈련 절차에 통합하는 새로운 방법으로 GeneMark-ES를 강화한다.[3]
- GeneMark-EX: 다양한 크기, 구조, 품질의 입력 데이터에 걸쳐 강력한 성능을 보여주는 게놈 주석을 위한 완전 자동 통합 도구.알고리즘은 입력 데이터의 볼륨, 품질 및 특징, RNA-seq 데이터 집합의 크기, 종의 유전학적 위치, 조립체 조각화 정도 등에 따라 매개변수 추정에 대한 접근방식을 선택한다.해당 게놈의 특징에 맞게 HMM 아키텍처를 자동으로 수정하고 유전자 예측 과정에 대본과 단백질 정보를 통합할 수 있다.[4]
바이러스, 페이지 및 플라스미드
- 휴리스틱 모델
RNA-Seq read로 조립한 대본
- 진마르크S-T
참고 항목
참조
- 보로도프스키 M.와 맥인치 J. "제네마크: 두 DNA 가닥에 대한 병렬 유전자 인식"컴퓨터 & 화학 (1993) 17(2): 123–133.
- 루카신 A.와 보로도프스키 M. "GeneMark.hmm: 유전자 발견을 위한 새로운 솔루션."핵산 연구 (1998) 26 (4): 1107–1115. doi:10.1093/nar/26.4.1107
- Besemer J.와 Borodovsky M. "유전자 발견 모델 도출에 대한 휴리스틱 접근법"핵산 연구 (1999) 27 (19): 3911–3920. doi:10.1093/nar/27.19.3911
- Besemer J, Lomsadze A, Borodovsky M. "GeneMarkS: 미생물 게놈에서 유전자 예측을 위한 자가 훈련법이 시작된다. 규제 영역에서 시퀀스 모티브를 찾는 데 미치는 영향."핵산 연구(2001) 29 (12): 2607–2618. doi:10.1093/nar/29.12.2677
- 밀스 R, 로자노프 M, 롬사즈 A, 타토바 T, 보로도프스키 M. "완전한 바이러스 게놈에서 유전자 주석 향상"핵산 연구 (2003) 31 (23): 7041–7055. doi:10.1093/nar/gkg878
- Besemer J.와 Borodovsky M. "GeneMark: 원핵생물, 진핵생물 및 바이러스에서 유전자 발견을 위한 웹 소프트웨어."핵산 연구(2005) 33 (웹 서버 문제):W451-454. doi:10.1093/nar/gki487
- 롬사드즈 A, 테르호바니시안 V, 체르노프 Y, 보로도프스키 M. "자체훈련 알고리즘에 의한 새로운 진핵 게놈에서의 유전자 식별"핵산 연구 (2005) 33 (20): 6494–6506. doi:10.1093/nar/gki937
- Ju W, Lomsadze A, Borodovsky M. "메타게노믹 시퀀스에서 Ab initio 유전자 식별"핵산 연구(2010) 38 (12): e132. doi:10.1093/nar/gkq275