빗렉스

Combrex
COMBREX: EXPERATION에 대한 계산 브릿지
Database.png
내용
묘사원핵 게놈의 기능적 주석.
유기체원핵생물
연락
연구소보스턴 대학교
작가들리처드 J 로버츠
주요 인용문PMID 21097892
발매일2010
접근
웹 사이트http://combrex.bu.edu

COMBREX원핵생물 [1]게놈의 수백만 개의 유전자와 관련된 능동적 학습 원리에 기초한 유전자 주석, 기능적 예측 및 권장 사항 데이터베이스를 포함하는 다면 프로젝트입니다.

대해서

COMBREX는 미생물 유전자 기능에 대한 우리의 이해를 향상시키고 미생물 유전자 기능의 주석을 가속화하기 위해 생물학자들의 계산 및 실험 커뮤니티를 통합하는 것을 목표로 하는 다면 프로젝트입니다.COMBREX 프로젝트는 Simon Kasif, Richard Roberts 및 Martin Steffen에 의해 보스턴 대학에 본사가 있고 100명이 넘는 실험 및 컴퓨터 협력자가 있는 국제 컨소시엄으로 공동 설립되었습니다.이 프로젝트는 Richard J. Roberts가 PLoS Biology에 발표한 커뮤니티 액션에 대한 요구에 영감을 받았습니다.

내용

유전자 및 기능 데이터베이스

이 진화하는 데이터베이스는 300만 개 이상의 미생물 유전자에 대해 실험적으로 결정되고 계산적으로 예측된 기능으로 구성됩니다.유전자 또는 관심 있는 유전자를 찾는 것 자체가 목적이거나 COMBREX에 정보를 제공하거나 COMBREX로부터 정보를 얻기 위한 첫 번째 단계일 수 있습니다.데이터베이스는 현재 완전히 배열된 1000개 이상의 박테리아 및 고고학 게놈의 유전자로 구성되어 있으며, 이 유전자에 생화학 기능이 실험적으로 결정되는 다수의 개별 유전자가 보충되어 있다.이 유전자들은 단백질 클러스터라고 불리는 NCBI에 의해 결정되는 배열과 유사하고 아마도 이소소기능성 그룹으로 구성된다.

어떤 유전자가 실험적으로 결정되고, 어떤 유전자가 계산적으로 예측된 기능을 가지며, 어떤 유전자가 이미 알고 있거나 예측된 기능(info)을 가지고 있는지를 식별하기 위해 사용된다.필연적으로 '예측된 기능'은 광범위한 특이성을 포함할 수 있으며, 우리의 장기 목표 중 하나는 이 특이성을 정량화하는 것이다(예를 들어, 예측된 기능인 '발린 탈카르복실화효소'는 '분해효소' 또는 '카르복실화효소'보다 훨씬 구체적이고 더 쉽게 검증할 수 있다).

실험적으로 검증된 유전자의 특정도 간단한 작업이 아니기 때문에 우리는 이러한 유전자의 포괄적이고 수동 큐레이션된 세트를 만드는 프로젝트에 착수했습니다.이것을 골드 스탠다드 유전자 데이터베이스라고 부릅니다.이 큐레이티드 세트는 현재 COMBREX 데이터베이스에 고유한 것으로, 여기에 속하는 유전자는 금색 기호로 색 부호화되어 있다.

유전자 기능 예측

COMBREX 데이터베이스는 컴퓨터 생물학자들이 가장 유용한 유전자 기능 예측을 공표하는 장소이다.생물정보학 분야에서의 주요 노력은 유전자 기능의 계산 예측이었다.지난 10여 년 동안 이 분야에서 상당한 발전이 있었지만, 이러한 노력의 대부분은 예측이 거의 실험적으로 테스트되지 않고, 경쟁하는 방법에 의해 만들어진 개별 유전자에 대한 예측 기능이 거의 직접적으로 비교되지 않기 때문에 생물학적 지식을 발전시킬 수 있는 잠재력을 충분히 실현하지 못했다.

COMBREX 데이터베이스는 NCBI 및 UniProtKB와 같은 친숙한 출처로부터 정보를 얻는 것 외에도 개별 실험실에서 제출한 유전자 기능 예측도 보여준다.이러한 예측은 계산 알고리즘을 사용하여 대규모로 생성될 수 있으며, 특정 단백질 패밀리 또는 생화학 경로에 정통한 실험 또는 계산 생물학자에 의해 개별 유전자에 대해 이루어질 수 있다.따라서, 다른 방법에 의한 예측은 실험 생물학자들에 의해 쉽게 비교, 대조 및 검토될 수 있다.많은 소스로부터의 기능 예측을 나란히 표시하는 것은 COMBREX가 촉진하고자 하는 계산 커뮤니티와 실험 커뮤니티 간의 상호작용의 핵심이다.

능동적 학습 원칙에 기초한 실험의 권장 및 우선순위 부여

COMBREX는 가장 유용한 실험을 추천하기 위해 보다 정교한 액티브 러닝 방법론뿐만 아니라 간단한 원리를 사용합니다.이것들은 데이터베이스에서 가장 많은 수의 단백질에 대해 가장 유용한 (정보 게인을 최대화하는 수학적 의미에서) 예측을 생성할 가능성이 가장 높은 실험이다.가장 기본적인 권장사항은 유전자 클러스터 내의 모든 단백질의 다른 단백질과의 거리에 대한 순위를 제공한다.가장 간단한 경우, 클러스터 내 다른 단백질과의 거리가 상대적으로 작기 때문에 클러스터의 중심 근처에 있는 단백질은 가장 유용한 것으로 판단된다.그 결과, 클러스터의 "중앙"에 대한 기능적 주석은 클러스터 내의 다른 단백질에 대한 가장 정확한 예측을 도출할 수 있다.진화적 측면에서 이러한 "클러스터 중심"은 클러스터 내 모든 단백질의 진화적 조상에 가장 가깝습니다.능동적 학습은 정확한 예측을 생성하거나 정확하게 주석을 달지 않은 단백질을 식별할 가능성이 있는 추가 실험에 대한 권장 사항을 생성하기 위해 이 직관 원리를 일반화한다.

진화 분석과 능동 학습 COMBREX 외에도 실험을 고려할 때 고려될 수 있는 다른 기준도 지적한다.그러한 기준에는 이용 가능한 구조가 있는지 여부, 인간 게놈에 박테리아 유전자의 보존(예: 도메인 공유), 유전자 기능의 계산 또는 실험 증거의 가용성, 표현형 고려사항(병원체 내 존재 또는 항생제 내성, 병원성 또는 독성과의 관계 등) 및 기타가 포함된다..

유전자의 생화학적 특성 부여

COMBREX의 임무 중 하나는 특정 유전자 예측의 실험적인 검증을 위해 약간의 금전적 보조금을 발행하는 것이다.특정 유전자 생성물에 대한 생화학 기능의 실험적인 결정은 선험적 컴퓨터 예측을 검증(또는 무효화)하는 역할을 한다.따라서, 이 실험적인 노력은 세 가지 목표를 제공한다: (1) 유전자 기능 예측을 하는 과학자들과 그것들을 테스트하는 과학자들을 직접 결합하고, (2) 그들이 개선될 수 있도록 그들의 예측이 얼마나 정확한지에 근거해 계산 방법을 평가한다, 그리고 (3) 그것은 실험적으로 검증된 유전자들의 지형을 넓히고, 우리의 능력을 향상시킨다.생물학과 배열-기능 관계에 대한 전반적인 이해.

단일 유전자 또는 소수의 유전자의 생화학적 기능에 대한 실험적인 조사는 종종 대규모 자금 지원 기관의 권한 아래에 있다.COMBREX는 정확히 이러한 유형의 작업에 대해 소액 보조금을 발행하도록 설정되었으며, 그러한 보조금은 의도된 실험에 필요한 분석 유형을 이미 알고 있는 실험실에 특히 적합하다.

목표들

개선된 유전자 주석

유전자와 게놈 주석의 현재 문제점 중 하나는 소스에 대한 투명성의 부족이다.어떤 기능이 실험적으로 결정되고 어떤 기능이 계산적으로 예측되는지 결정하는 것은 종종 어렵다.또한, 계산적으로 예측된 함수의 경우, 예측에 사용되는 방법과 증거의 강도는 거의 언급되지 않는다.COMBREX는 (1) 예측된 기능과 구별하기 위해, 그리고 (2) 예측이 기초가 된 실험적으로 검증된 "소스 유전자"를 식별하면서, 순서 유사성에 의해 예측된 많은 기능에 의해 보다 투명한 주석 시스템을 향한 첫 걸음을 내디뎠다.

COMBREX는 모든 명시된 기능적 주석이 실험적으로 결정되거나 증거 사슬을 통해 궁극적인 정보 소스에 명시적으로 연결된 예측인 보다 완벽하게 추적 가능한 주석 시스템을 위해 노력하고 있다.이러한 선원은 많은 경우에 실험적으로 검증된 유전자이지만, 어떤 경우에는 선원 자체가 즉시 명확하지 않은 기존 데이터베이스의 주석이 될 것이다.

COMBREX는 호몰로지를 사용하여 주석의 실험 소스에 대한 링크를 "계산적으로" 식별하려는 첫 번째 데이터베이스입니다.다른 데이터베이스는 두 가지 유형의 증거를 제공한다. 예를 들어, 실험에서 직접 추론하거나 계산적으로 추론한다.그러나 추론은 일반적으로 주석의 실험적인 소스로 추적할 수 없다.COMBREX는 이 시점에서 제공하는 "추적"이 정확하다고 보장할 수 없지만, 생물학자들이 링크를 조사함으로써 이러한 결정을 직접 내릴 수 있게 한다.

원천 유전자와 기능을 식별하는 이 시스템과 증거 연계는 새로운 유전자에 대한 실험적인 증거가 결정되고 새로운 예측 방법이 개발됨에 따라 자동으로 갱신되는 주석의 동적 시스템을 가능하게 할 것이다.이러한 유전자 기능적 주석의 동적 시스템은 많은 공공 데이터베이스에서 사용되는 정적 시스템에서 발생하는 비주석 및 오주석 유전자의 비교적 높은 빈도를 극복하는 데 도움이 될 수 있다.게다가, 단순히 주석이 불충분한 유전자와는 달리, 생화학적 기능이 정말로 알려지지 않은 유전자들을 밝힐 것이다.

예측 정확도 향상

유전자 기능 예측을 투명하게 하는 것도 중요하지만, 똑같이 중요한 것은 가능한 한 정확하게 하는 것이다.예측은 증거가 허용하는 한 구체적이도록 증거의 강도에 비례해야 한다.충분히 구체적이지 않은 것은 실험 테스트에 도움이 되지 않으며, 기초적인 증거에 대해 너무 구체적이지 않은 것은 부정확할 위험이 높다.COMBREX는 새로운 기능이나 흥미로운 기능을 가진 유전자를 식별할 수 있고, 그 결과가 컴퓨터 공동 그룹으로부터 받은 고품질 예측의 옆에 위치할 수 있는 기능 예측을 위한 알고리즘 개발에 적극적으로 임하고 있다.COMBREX의 비교적 보수적인 BLOAST 기반 유전자 기능 전파는 이 목표를 향한 단순한 첫걸음을 나타낸다.

대상 실험 검증

자금 지원을 통해, 콤렉스는 특정 유전자에 대한 실험적인 조사를 장려함으로써 생화학적 유전자 기능에 대한 우리의 이해를 넓히는데 도움을 줄 수 있다.어떤 유전자를 검증할지는 중요한 선택이다: 이소기능성 유전자의 유사한 친척을 검증함으로써 얻는 전반적인 새로운 지식은 거의 없고, 특정한 예측 기능이 없는 유전자에 대한 실험을 검증하는 것은 성공할 것 같지 않다.또한, 이미 알려진 것의 풍경은 일부 기능의 검증된 예시와 일부 기능의 예시가 거의 또는 전혀 없는 등 고르지 않습니다.

COMBREX는 유전자 기능에 대한 우리의 전반적인 예측 이해에서 가장 큰 격차를 좁히기 위해 실험이 우선되는 새로운 통합 연구 모델을 개발하기를 희망합니다.그러한 모델은 상대적으로 지식의 큰 증가를 제공하는 유전자의 검증을 선호한다. 예를 들어, 그들의 검증된 기능이 다른 유전자에 대한 많은 새로운 예측을 낳기 때문이다.초기 단계에서 COMBREX는 "높은 우선순위" 유전자의 목록을 도입할 것이며, 이는 상당한 예측 또는 생물의학적 가치가 있는 것으로 확인될 수 있으며, COMBREX 구성원들이 후보를 지명할 수 있다.장기적인 목표로서 COMBREX는 그러한 유전자 선택을 최적화하기 위해 능동적 학습과 같은 기계 학습 기술을 사용하는 것을 목표로 하고 있다.

새로운 테크놀로지

COMBREX는 유전자 기능 결정을 위한 새로운 기술과 비용 효율적인 분석의 개발을 장려합니다.위에서 설명한 실험 검증 작업은 많은 소규모 보조금을 통해 저 스루풋 실험을 대규모로 병렬 적용하는 것과 같습니다.많은 유전자 생성물을 동시에 분석할 수 있는 높은 처리량 분석은 많은 유전자의 기능을 동시에 결정하는 결과를 가져올 수 있으며 유전자 [2]기능에 대한 전반적인 이해에 큰 진전을 가져올 수 있습니다.

레퍼런스

  1. ^ Roberts, Richard J; Chang Yi-Chien; Hu Zhenjun; Rachlin John N; Anton Brian P; Pokrzywa Revonda M; Choi Han-Pil; Faller Lina L; Guleria Jyotsna; Housman Genevieve; Klitgord Niels; Mazumdar Varun; McGettrick Mark G; Osmani Lais; Swaminathan Rajeswari; Tao Kevin R; Letovsky Stan; Vitkup Dennis; Segrè Daniel; Salzberg Steven L; Delisi Charles; Steffen Martin; Kasif Simon (Jan 2011). "COMBREX: a project to accelerate the functional annotation of prokaryotic genomes". Nucleic Acids Res. England. 39 (Database issue): D11–4. doi:10.1093/nar/gkq1168. PMC 3013729. PMID 21097892.
  2. ^ Anton, B.; et al. (2013). "The COMBREX project: design, methodology, and initial results". PLOS Biol. 11 (8): e1001638. doi:10.1371/journal.pbio.1001638. PMC 3754883. PMID 24013487.

[1]

외부 링크