웜 베이스

WormBase
웜 베이스
Database.png
콘텐츠
묘사WormBase: 선충 연구를 위한 포괄적인 리소스입니다.
유기체케노하브디시스엘레건스
연락
주요 인용문PMID 19910365
접근
웹 사이트http://www.wormbase.org/

WormBase선충 모델 생물인 Caenorhabditis elegans의 생물학과 게놈에 대한 온라인 생물학적 데이터베이스로 다른 관련 [1][2]선충에 대한 정보를 포함하고 있습니다.WormBase는 C. elegans 연구 커뮤니티에서 정보 리소스와 그 결과를 공개하고 배포하는 장소로 사용됩니다.데이터베이스는 2개월마다 새로운 버전이 출시되어 정기적으로 업데이트됩니다.WormBase는 GMOD(Generic Model Organism Database) 프로젝트에 참여하고 있는 조직 중 하나입니다.

내용물

WormBase는 다음과 같은 주요 데이터 세트로 구성됩니다.

또한 WormBase는 C. elegans 연구의 최신 검색 가능 참고문헌을 포함하고 있으며 WormBook 프로젝트와 연계되어 있습니다.

도구들

WormBase는 데이터베이스에서 데이터를 검색하고 검색하는 다양한 방법을 제공합니다.

  • 웜마트, 위키 - 많은[3] 유전자(또는 그 유전자 배열)에 대한 다양한 정보를 검색하기 위한 도구였다.이것이 바이오마트의 [4]웜베이스 구현이었습니다.
  • WormMine, Wiki - 2016년 [3]현재 주요 데이터 마이닝 시설입니다.이것은 InterMine의 [5]WormBase 구현입니다.
  • Genome Browser - 게놈 컨텍스트에서 C. elegans(및 다른 종)의 유전자를 참조합니다.
  • 텍스트프레소 - 출판된 C. elegans 문헌(회의 요약 포함)과 선충 문헌의 하위 집합을 쿼리하는 검색 도구입니다.

시퀀스 큐레이션

WormBase에서의 배열 큐레이션은 1차 게놈 배열과 합의 유전자 세트의 유지와 주석을 참조한다.

게놈 배열

C. elegans 게놈 배열이 가장 정확하고 완전한 진핵생물 게놈 배열임에도 불구하고, 새로운 증거가 만들어짐에 따라 지속적으로 정교함이 필요했다.이러한 변화의 대부분은 단일 뉴클레오티드의 삽입 또는 결실이었지만, 몇몇 큰 오조립체가 발견되었다.예를 들어 2005년에는 39kb cosmid를 반전해야 했습니다.게놈 DNA와 cDNA 염기서열을 비교하고 RNASeq의 높은 처리량 데이터를 분석함으로써 다른 개선이 이루어졌다.게놈 배열과 전사물 사이의 차이가 확인되면, 원래 게놈 데이터의 재분석은 종종 게놈 배열의 수정으로 이어진다.유전자 배열의 변화는 WormBase의 다른 릴리스에서 파생된 데이터의 염색체 좌표를 비교할 때 어려움을 야기한다.이러한 비교를 지원하기 위해 조정된 재평가 프로그램 및 데이터는 http://wiki.wormbase.org/index.php/Converting_Coordinates_between_releases에서 구할 수 있습니다.

유전자 구조 모형

웜베이스 종의 모든 유전자 세트는 처음에 유전자 예측 프로그램에 의해 생성되었다.유전자 예측 프로그램은 합리적인 유전자 구조를 제공하지만, 그들 중 가장 좋은 것은 전체 유전자 구조의 약 80%만 정확하게 예측합니다.이들은 특이한 구조를 가진 유전자뿐만 아니라 번역 시작 신호가 약하거나 스플라이스 부위가 약하거나 단일 엑손 유전자를 가진 유전자를 예측하는 데 어려움을 겪는다.그들은 유전자가 의사 유전자인 코드화 유전자 모델을 잘못 예측할 수 있고 유전자의 동질 형태를 잘못 예측할 수도 있다.

C. elegans, C. brigsae, C. remaneiC. brenneri 유전자의 유전자 모델은 수동으로 큐레이션됩니다.유전자 구조 변화의 대부분은 유지 코하라의 EST 라이브러리, 마크 비달의 오르페오메 프로젝트(worfdb.dfci.harvard.edu/) Waterston and Hillier's Illlumina 데이터, Makedonka Mitreva의 454 데이터)와 같은 대규모 프로젝트의 기록 데이터에 기초하고 있다.그러나 다른 데이터 유형(예: 단백질 정렬, ab initio 예측 프로그램, 트랜스 스플라이스 리더 사이트, 폴리 A 신호 및 부가 사이트, SAGE 및 TEC-RED 전사 태그, 질량 분광 펩타이드 및 보존된 단백질 도메인)은 특히 발현량이 낮고 전사량이 충분하지 않은 구조를 정제하는 데 유용하다.현재 이용 가능합니다.사용 가능한 선충 종들 사이에 유전자가 보존될 때, 비교 분석은 또한 매우 유익할 수 있다.

웜베이스는 연구자들이 잘못된 유전자 구조에 대한 증거를 가지고 있다면 헬프 데스크를 통해 그들에게 알리도록 장려한다.변경에 대한 모든 cDNA 또는 mRNA 배열 증거는 EMBL/GenBank/DDBJ에 제출해야 한다. 이는 WormBase가 이러한 공개 데이터베이스에서 배열 데이터를 정기적으로 검색하기 때문에 유전자 모델에 대한 확인과 증거에 도움이 된다.이는 또한 데이터를 공개하여 연구자에게 적절한 참조와 확인을 가능하게 한다.

CDS(또는 유사 유전자)에 어떠한 변화가 있을 때, 오래된 유전자 모델은 '역사' 물체로 보존된다.여기에는 "AC3.5:wp119"와 같은 접미사가 붙습니다. 여기서 'AC3.5'는 CDS의 이름이고 '119'는 변경된 데이터베이스 릴리스를 나타냅니다.변경의 이유와 변경에 대한 증거가 CDS의 주석에 추가됩니다. 이러한 변경은 WormBase 웹 사이트의 CDS 'Tree Display' 섹션의 Visible/Remark 섹션에서 확인할 수 있습니다.

유전자 명명법

유전자

WormBase에서 Gene은 발현된 영역 또는 발현된 영역이며 현재 의사 유전자가 됩니다.유전자는 'WBGene00006415'와 같은 독특한 식별자를 가지고 있다.모든 C. elegans WormBase 유전자는 또한 그들이 상주하는 cosmid, fosmid 또는 YAC 클론에서 파생된 Sequence Name을 가지고 있으며, 이는 cosmid 'F38H4'에 있음을 나타내며, 그 cosmid에는 적어도 6개의 다른 유전자가 있음을 나타냅니다.유전자가 패밀리 멤버로 분류할 수 있는 단백질을 생성하면 해당 유전자는 태그 유전자 패밀리 중 30번째 멤버임을 나타내는 태그-30과 같은 CGC 이름을 할당할 수도 있다.유전자 패밀리 이름의 할당은 WormBase에 의해 제어되며, 이름 요청은 발표 전에 http://tazendra.caltech.edu/~azurebrd/cgi-bin/forms/forms_name.cgi 형식으로 해야 합니다.

이 형식에는 인간 유전자 CLN3와 동일하게 유사한 cln-3.1, cln-3.2cln-3.3과 같은 몇 가지 예외가 있습니다.WormBase의 비-elegans 종에 대한 GCG 이름에는 Cre-acl-5, Cbr-acl-5, Cbn-acl-5와 같은 3글자 종 코드가 부가되어 있습니다.

유전자는 유사유전자일 수도 있고 하나 이상의 비코드 RNA 유전자(ncRNA) 또는 단백질 코드 배열(CDS)을 발현할 수도 있다.

유사 유전자

의사 유전자는 합리적이고 기능적인 전사를 생성하지 않는 유전자이다.코드화 유전자 또는 코드화되지 않은 RNA의 유사 유전자일 수 있으며, 유전자의 전체 또는 단편일 수 있으며 전사체를 발현하거나 발현하지 않을 수 있다.다른 증거가 없는 경우 약한 스플라이스 사이트나 짧은 엑손의 사용은 종종 CDS의 추정 모델을 생성할 수 있기 때문에 합리적인 코드 전사 사이의 경계가 때로는 주관적이다. 문제가 있는 구조를 가진 유사 유전자와 유전자는 웜베이스와 새로운 증명에서 지속적으로 검토되고 있다.ence를 사용하여 상태를 해결합니다.

CDS

코딩 시퀀스(CDS)는 WormBase에서 수동으로 큐레이션되는 Gene 구조의 유일한 부분입니다.유전자의 구조와 그 기록물은 CDS의 구조에서 파생되었다.

CDS는 모체인 Gene 객체와 동일한 Sequence Name에서 파생된 Sequence Name을 가지고 있으므로 유전자 'F38H4.7'은 'F38H4.7'이라는 CDS를 가지고 있다.CDS는 START(메티오닌) 코돈에서 STOP 코돈까지(그리고 포함) 유전자의 코드 엑손(exon)을 명시한다.

모든 유전자는 대체 접합의 결과로 여러 단백질을 코드화할 수 있다.이 등소형식들은 유전자의 배열명으로부터 고유한 문자가 부가된 이름을 가지고 있다.bli-4 유전자의 경우 K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e 및 K04F10.4f라고 하는 6개의 CDS 동질 형태가 알려져 있다.

예를 들어 pha-4a와 같이 CGC 유전자 패밀리를 사용하여 문헌에서 isoforms를 참조하는 것이 일반적이지만, 이는 WormBase 데이터베이스 내에서 의미가 없으며 WormBase에서 pha-4a를 검색해도 아무것도 반환되지 않습니다.이 Isoform의 올바른 이름은 CDS/Transcript 이름입니다.F38A6.1a 또는 그보다 더 나은 단백질 이름: WP:CE15998.

유전자 전사물

WormBase의 유전자 전사는 사용 가능한 cDNA 또는 mRNA 정렬을 CDS 모델에 매핑하여 자동으로 도출됩니다.따라서 이러한 유전자 전사는 CDS를 둘러싼 UTR 엑손들을 포함할 것이다.만약 이용 가능한 cDNA 또는 mRNA 전사물이 없다면, 유전자 전사물은 그들이 모델링된 CDS와 정확히 같은 구조를 가질 것이다.

유전자 전사물은 생성에 사용된 CDS의 시퀀스 이름(예: F38H4.7 또는 K04F10.4a)을 따서 명명됩니다.

단, 단백질 배열을 바꾸지 않는 대체 스플라이싱이 UTRs에 존재하는 경우 대체 스플라이싱된 전사체에는 K04F10.4a.1K04F10.4a.2와 같은 숫자가 부가되어 이름이 붙는다. 부호화 유전자의 isoform, 예를 들어 AC3.5가 없는 경우 UTRs에 대체 스플라이싱이 있다.AC3.5.1AC3.5.2 등의 이름의 nscripts.대체 UTR 스크립트가 없는 경우 단일 coding_transcript는 CDS와 동일한 이름이 지정되며 K04F10.4f와 같이 .1이 부가되지 않습니다.

오퍼론

오퍼론으로서 공역되는 유전자군은 오퍼론 오브젝트로서 큐레이션된다.CEOP5460과 같은 이름을 가지며 SL2 트랜스스플라이스 리더 시퀀스사이트의 증거를 사용하여 수동으로 큐레이션됩니다.

비부호화 RNA 유전자

WormBase에는 코드화되지 않은 RNA 유전자 클래스가 몇 가지 있습니다.

  • tRNA 유전자는 'tRNAscan-SE' 프로그램에 의해 예측된다.
  • rRNA 유전자는 다른 종과의 동질성을 통해 예측된다.
  • snRNA 유전자는 주로 Rfam에서 수입된다.
  • piRNA 유전자는 이들 유전자의 특징적인 모티브의 분석에서 비롯된다.
  • miRNA 유전자는 주로 miRBase에서 수입되어 왔다.그들은 주요 성적 증명서와 성숙한 성적 증명서를 가지고 있다.프라이머리 트랜스크립트에는 W09G3.10과 같은 시퀀스 이름이 붙고 성숙 트랜스크립트에는 W09G3.10a와 같은 문자가 추가됩니다(또한 성숙 트랜스크립트가 있는 경우에는 W09G3.10b 등).
  • snoRNA 유전자는 주로 Rfam 또는 논문으로부터 수입된다.
  • 명확한 다른 기능은 없지만 분명히 단백질 코드화되지 않고 의사유전자가 아닌 ncRNA 유전자는 큐레이션된다.이들 중 다수는 다른 종의 유전자와 상동성을 보존해 왔다.이들 중 몇 가지는 단백질 코드화 유전자의 역의 의미로 발현된다.

또한 하나의 scRNA 유전자가 있다.

트랜스포존

트랜스포존은 유전자로 분류되지 않기 때문에 부모 유전자가 없다.그들의 구조는 트랜스포존으로 큐레이션된다.C29E6.6과 같은 이름의 CDS 객체.

기타종

WormBase의 비-legans 종들은 염기서열 기술에서 조립된 게놈을 가지고 있는데, 염기서열 기술에는 우주체나 YAC가 포함되지 않습니다.따라서 이 종들은 cosmid 이름에 기초한 CDS 및 유전자 전달에 대한 배열 이름을 가지고 있지 않다.대신 아래 표의 이름처럼 구성된 고유한 영숫자 식별자가 있습니다.

유전자명
종. 유전자 이름의 예
브릭새 CBG00001
레마네이 CRE00001
브렌네리 CBN00001
자포니카 CJA00001
프리스티온쿠스파시피쿠스 PPA00001

단백질

유전자의 단백질 산물은 CDS 염기서열을 번역함으로써 만들어진다.각각의 고유한 단백질 배열에는 WP와 같은 고유한 식별 이름이 부여된다.CE40440.아래 표에 WormBase의 각 종에 대한 단백질 식별자 이름의 예를 나타냅니다.

유전자명
종. 단백질 이름 예시
엘레강스 WP: CE00001
브릭새 BP: CBP00001
레마네이 RP: RP00001
브렌네리 CN00001
자포니카 JA: JA00001
프리스티온쿠스파시피쿠스 PP:PP00001
박테리오포라균병 HB: HB00001
브루기아말레이 BM:BM00001
멜로이도인하플라 MH: MH00001
신분을 알 수 없는 Meloidogyne MI:MI00001
해몽쿠스콘토르투스 HC: HC00001

하나의 종 내에서 분리된 유전자의 두 CDS 배열이 동일할 수 있으며, 따라서 동일한 단백질을 별도의 유전자에 의해 코드화할 수 있다.이런 일이 일어날 때, 비록 두 개의 유전자에 의해 생산되더라도 단백질에 하나의 독특한 식별 이름이 사용됩니다.

Para

WormBase ParaSite는 유럽생물정보학연구소 Wellcome Trust Sanger [7]Institute에서 개발한 기생충 헬민트(선충평판 헬민트)의 약 100개의 초안 게놈의 서브포털이다.모든 게놈은 조립되고 주석을 달았다.단백질 도메인과 유전자 온톨로지 용어 등의 추가 정보도 이용할 수 있습니다.유전자 나무는 기생 벌레, 다른 선충 및 비선충 대조군 종 사이의 정렬을 가능하게 한다.BioMart 데이터 마이닝 툴이 제공되어 대규모 데이터 액세스가 가능합니다.

웜베이스 관리

WormBase는 유럽생물정보학연구소, 웰컴 트러스트 생어연구소, 온타리오 암연구소, 워싱턴 대학교 세인트루이스의 공동 연구기관입니다. 루이스캘리포니아 공과대학입니다그것은 보조금 P41-HG002223 국립 보건원과 G0701197 영국 의학 연구 협의회에서 .[8]캘리포니아 내부 ontologies 개발하는 생물학적 큐레이션을 통해 뒷받침되면 EBI 순서 큐레이션과 컴퓨팅뿐만 아니라 데이터베이스 빌드 등은 생거 주로 포함됩니다를 실시한다.in 기생 선충 게놈과 유전자의 큐레이션과 표시, OICR은 웹사이트와 주요 데이터 마이닝 도구를 개발한다.

주 및 참고 자료

  1. ^ Harris, TW; et al. (12 November 2009). "WormBase: a comprehensive resource for nematode research". Nucleic Acids Res. 38 (Database issue): D463–7. doi:10.1093/nar/gkp952. PMC 2808986. PMID 19910365.
  2. ^ Williams, G. W.; Davis, P. A.; Rogers, A. S.; Bieri, T.; Ozersky, P.; Spieth, J. (2011). "Methods and strategies for gene structure curation in WormBase". Database. 2011: baq039. doi:10.1093/database/baq039. PMC 3092607. PMID 21543339.
  3. ^ a b "WormMart Sunset Period: to be retired 01 Jan 2016". Blog. WormBase. 13 November 2015.
  4. ^ "WormMart". Data mining. WormBase.
  5. ^ "WormMine". Data mining. WormBase.
  6. ^ "WormBase Gene Nomenclature". Wormbase.
  7. ^ http://parasite.wormbase.org
  8. ^ "WormBaseWiki:Copyrights - WormBaseWiki". www.wormbase.org. Archived from the original on 27 September 2006.

외부 링크

「 」를 참조해 주세요.