앙상블 게놈 데이터베이스 프로젝트
Ensembl genome database project내용 | |
---|---|
묘사 | 앙상블 |
연락 | |
연구소 | |
주요 인용문 | 예이츠 외 (2020)[1] |
접근 | |
웹 사이트 | www |
앙상블 게놈 데이터베이스 프로젝트는 유럽생물정보학연구소의 과학 프로젝트로 유전학자, 분자생물학자 및 우리 종과 다른 척추동물 및 모델 [2][3][4]유기체의 게놈을 연구하는 다른 연구원들에게 중앙 집중화된 자원을 제공합니다.앙상블은 게놈 정보를 검색하기 위해 잘 알려진 몇 가지 게놈 브라우저 중 하나입니다.
비슷한 데이터베이스와 브라우저는 NCBI와 캘리포니아 대학 산타크루즈(UCSC)에 있습니다.
역사
인간 게놈은 약 20,000-25,000개의 유전자를 코드하는 30억 개의 염기쌍으로 구성되어 있다.그러나 게놈만으로는 개별 유전자의 위치와 관계를 확인할 수 없는 한 거의 쓸모가 없다.한 가지 방법은 수동 주석으로, 과학자 팀은 과학 저널과 공공 데이터베이스의 실험 데이터를 사용하여 유전자를 찾으려 한다.그러나 이것은 느리고 힘든 작업입니다.자동 주석으로 알려진 대안은 컴퓨터의 힘을 [5][6]이용하여 단백질과 DNA의 복잡한 패턴 매칭을 하는 것이다.Ensembl 프로젝트는 인간 게놈 프로젝트의 임박한 완료에 대한 대응으로 1999년에 시작되었습니다. 초기 목표는 인간 게놈에 자동으로 주석을 달아 이 주석을 이용 가능한 생물학적 데이터와 통합하고 이 모든 지식을 공개적으로 [2]제공하는 것입니다.
Ensembl 프로젝트에서 시퀀스 데이터는 유전자 주석 시스템(Perl로 작성된 소프트웨어 "파이프라인" 집합)에 공급되며, 이 시스템은 예측된 유전자 위치 세트를 생성하고 후속 분석 및 표시를 위해 MySQL 데이터베이스에 저장합니다.앙상블은 이러한 데이터를 세계 연구 커뮤니티에서 자유롭게 이용할 수 있도록 합니다.Ensembl 프로젝트에서 생성된 모든 데이터와 코드를 다운로드할 [7]수 있으며, 원격 액세스를 허용하는 공용 데이터베이스 서버도 있습니다.또한 Ensembl 웹사이트는 많은 데이터를 컴퓨터로 만들어 시각적으로 표시합니다.
시간이 지남에 따라 프로젝트는 추가적인 종(쥐, 초파리, 제브라피쉬 등 주요 모델 생물 포함)과 유전자 변형 및 규제 특징 등 광범위한 게놈 데이터를 포함하도록 확장되었습니다.2009년 4월부터 자매 프로젝트인 앙상블 게놈은 앙상블의 범위를 무척추동물 [8][9]메타조아, 식물, 곰팡이, 박테리아, 그리고 원생동물로 확장하여 유전자에 분류학적, 진화적 맥락을 제공하는 데 초점을 맞추고 있으며, 원래의 프로젝트는 척추동물에 초점을 맞추고 있다.
2020년 현재, Ensembl은 Ensembl과 Ensembl Genemes 데이터베이스 모두에서 50,000개 이상의 게놈을 지원하며, 사용자가 게놈 주석 데이터를 보다 빠르게 이용할 수 있도록 설계된 새로운 웹사이트인 Rapid Release와 SARS-CoV-2 참조 게놈에 액세스하는 새로운 웹사이트인 COVID-19와 같은 몇 가지 혁신적인 기능을 추가했다.
게놈 데이터 표시
Ensembl 개념의 중심은 참조 게놈에 대한 유전자 및 기타 게놈 데이터의 정렬에 대한 그래픽 뷰를 자동으로 생성하는 능력입니다.이것들은 데이터 트랙으로 표시되며, 개별 트랙을 켜고 끌 수 있어 사용자는 자신의 연구 관심사에 맞게 디스플레이를 맞춤화할 수 있습니다.또한 이 인터페이스를 통해 사용자는 영역을 확대하거나 게놈을 따라 어느 방향으로든 이동할 수 있습니다.
다른 디스플레이는 전체 핵형에서 DNA 및 아미노산 배열의 텍스트 기반 표현에 이르기까지 다양한 분해능 수준의 데이터를 보여주거나 다양한 종에 걸쳐 유사한 유전자(호몰로지)의 나무와 같은 다른 유형의 디스플레이를 보여준다.그래픽스는 표 형식의 디스플레이로 보완되며 많은 경우 FASTA 등의 다양한 표준 파일 형식으로 페이지에서 직접 데이터를 내보낼 수 있습니다.
BAM, BED, PSL 등 지원되는 형식의 적절한 파일을 업로드하여 외부에서 생성된 데이터를 디스플레이에 추가할 수도 있습니다.
그래픽스는 표준 Perl 그래픽스 디스플레이 라이브러리인 GD에 기반한 커스텀 Perl 모듈 스위트를 사용하여 생성됩니다.
대체 접근 방식
Ensembl은 웹사이트 외에도 유전자, 단백질 등 생물학적 객체를 모델링하는 REST API와 Perl[10] API(애플리케이션 프로그래밍 인터페이스)를 제공하여 간단한 스크립트를 작성하여 관심 데이터를 검색할 수 있도록 하고 있다.웹 인터페이스에서 데이터를 표시하기 위해 내부적으로 동일한 API가 사용됩니다.코어 API, 컴파라 API(비교 유전체 데이터용), 바리에이션 API(SNP, SNV, CNV 등에 액세스하기 위한), 기능 유전체 API(규제 데이터에 액세스하기 위한) 등의 섹션으로 나뉩니다.Ensembl 웹사이트는 API 설치 및 사용 방법에 대한 광범위한 정보를 제공합니다.
이 소프트웨어를 사용하여 공용 MySQL 데이터베이스에 액세스할 수 있으므로 대량의 데이터 세트를 다운로드할 필요가 없습니다.사용자는 직접 SQL 쿼리를 사용하여 MySQL에서 데이터를 가져오도록 선택할 수도 있지만, 이를 위해서는 현재 데이터베이스 스키마에 대한 광범위한 지식이 필요합니다.
대규모 데이터셋은 BioMart 데이터 마이닝 툴을 사용하여 검색할 수 있습니다.복잡한 쿼리를 사용하여 데이터셋을 다운로드하기 위한 웹 인터페이스를 제공합니다.
마지막으로, 전체 MySQL 데이터베이스와 일부 선택된 데이터 세트를 다른 형식으로 다운로드하는 데 사용할 수 있는 FTP 서버가 있습니다.
현종
주석이 달린 게놈은 가장 완전하게 배열된 척추동물과 선택된 모델 유기체를 포함한다.모두 진핵생물이지만 원핵생물은 없다.2022년 현재 등록된 종은 271종이며,[11] 다음을 포함한다.
- 챠다타
- 젖꼭지
- 우아르콘토글리에스
- 영장류:앙골라콜로부스, 검은코다람쥐원숭이, 검은코원숭이, 보노보, 부시베이비, 카푸친, 침팬지, 흔한마모셋, 코크렐시파카, 게먹이마카크, 드릴, 인간마카크, 쥐여우원숭이, 젤라다, 황금코원숭이, 녹색, 오랑우탄원숭이, 올리브원숭이아케, 지저분한 망가베이, 타르시에, 우간다의 붉은 콜로부스,
- 스칸덴티아: Tree Shrew;
- 글리레스(= 설치류 + 라그모퍼스): 알제리쥐, 알파인마못, 아메리카비버, 북극땅다람쥐, 브라질산 기니피그, 중국햄스터, 다마랜드두더지쥐, 다우리안땅다람쥐, 데구, 유라시아붉은햄스터, 황금햄스터, 그라운드다람쥐, 기니피그, 캥거루쥐, 소이집트저보아, 긴꼬리친치, 몽고사리, 몽고사리, 쥐, 쥐아카드두더지쥐, 북미사슴쥐, 쥐, 피카, 프레리밭쥐, 토끼, 류큐쥐, 랫드쥐, 스텝쥐, 13줄무늬땅다람쥐, 갈릴리산맥상블라인드두더지쥐
- 로라시아테리아:알파카, 아메리카 흑곰, 아메리카 밍크, 아라비아 낙타, 아시아 흑곰, 벨루가 고래, 청고래, 차코안 페커리, 캘리포니아 바다사자, 캐나다 링스, 고양이, 소, 딩고, 개, 돌고래, 국내 야크, 당나귀, 염소, 페레트, 자이언트 팬더, 대관박쥐, 고슴도치, 말, 표범, 표범, 레저 고슴도치, 레저 고슴도, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타, 메카타icrobat, narwhal, 북극곰, 돼지, 붉은 여우, 양, 랫드류, 시베리아 사향노루, 향유고래, 시베리아 호랑이, 바키타, 야생 야크, 야크, 사슴
- 아프로테리아: 코끼리, 히락스, 텐렉;
- Xenarthra: 아르마딜로, 나무늘보;
- 마수피아: 일반적인 웜뱃, 코알라, 주머니쥐, 태즈메이니아 데빌, 왈라비.
- 단조류: 오리너구리;
- 우아르콘토글리에스
- 파충류:아르헨티나산 흑백테구, 푸른고리바다거북, 중앙수염드래곤, 중국산 연각거북, 일반거북, 사막거북, 동부갈색뱀, 소금물악어, 구드의 가시거북, 녹색아놀레, 인도코브라, 코모도드래곤, 도장거북, 핀타섬거북, 세발톱d박스거북, 투아타라, 서아프리카 진흙거북
- 조류: 아프리카 타조, 벵갈핀치, 청관오징어, 청관오징어, 부엉이, 굴부엉이, 닭, 닭, 닭(붉은 정글폴), 닭(모성 브로일러), 닭(흰 레그혼층), 칠레 티나무, 목도리, 일반 카나리아, 검은 눈꼬치, 오리부엉이, 동부부엉이 독수리부엉이, 유라시아참새매, 금수리, 황금꿩, 황금칼라마나킨, 굴디안핀치, 큰물고기, 헬멧기니폴, 인도공작, 메추리, 카카포, 작은물고기, 청둥오리, 중땅핀치, 뉴칼레도니안까마귀, 북방물부엉이, 오리엔탈부엉이, 오리엔탈부엉이, 오리엔탈부엉이, 핑크-발거위, 고리목꿩, 러프, 적갈색 뚜껑 개코원숭이, 은눈박이, 작은 나무 핀치, 숟가락부리 개코원숭이, 뛰어난 요정새, 스웨인슨 개코원숭이, 백조거위, 칠면조, 흰목참새, 노란부리 아마존, 제부, 얼룩말 핀치;
- 리셈피비아:리산 가시 두꺼비, Xenopus tropicalis;
- 텔레오스트 피쉬: 아마존 몰리, 아시아 아로와나, 대서양 대구, 대서양 청어, 대서양 연어, 발란브라세, 바라문디 농어, 바이콜라 댐셀피시, 블라인드 바벨, 블루 틸라피아, 뭉툭한 코딱지, 갈색 송어, 버튼의 입중개, 채널 블레니, 채널 메기, 중국산 메기, 치누크, 치누크, 코딱지, 코딱지, 코딱지, 코딱지, 코딱지, 코딱지, 코딱지 등반th, coho 연어, 일반 잉어, 상아, 상아, 유럽산 배스, gilthead bream, 황금줄 바벨, 금붕어, 대호박, 구피, 먹장어, 뿔줄 바벨, 후첸, 인도 유리어, 인도 메다카, 일본 메다카, 자바 쌀고기, 주얼레니, 대형 황어, 생상어, 생상어, 혹붕어, 백합어, 마코베 섬 치클리드, 맹그로브 리불루스, 멕시코 테트라, 미다스 치클리드, 몬테레이 플래티피쉬, 뭄미초그, 나일 틸라피아, 북방 파이크, 바다 개복치, 오렌지 크라운피쉬, 오비클라틴피쉬, 파라모르미롭 파인슬레피쉬, 페리오프탈마그누스피쉬, 파이크피쉬, 파이크피쉬 피라냐, 갈대어, 동그란 고비, 돛새치, 양머리 민어, 숏핀 몰리, 샴싸움 물고기, 스피니 크로미스, 점박이 가어, 늪장어, 스틱백, 테트라오돈, 호랑이 꼬리 해마, 혀 밑창, 터보트, 터키석 킬피시, 서부 모스키토피시, 노랑꼬리 호박, 타키푸리프, 타키푸그립(테트라푸), 다니오 레리오(제브라피시), 오리시아스 라티페스(메다카), 가스테우스 아큘라투스(스틸백), 얼룩말 음부나, 지그재그 뱀장어,
- 사이클로스토마타:페트로미존 마리누스(바다 칠성장어)
- 조정:Ciona internalis, Ciona savignyi;
- 젖꼭지
- 비거대동물
- 곤충 : 초필라 멜라노가스터(초파리), 아노펠레스 감비아(모기), 이집트 이데스(모기)
- 지렁이 : 케노하브디티스 엘레강스
- 효모 : 사카로미세스 세레비시아에 (베이커 효모)
오픈 소스/미러
Ensembl 프로젝트의 모든 데이터 부분은 오픈 액세스이며 모든 소프트웨어는 오픈 소스이며 CC BY 4.0 라이선스로 과학 커뮤니티에서 자유롭게 사용할 수 있습니다.현재 Ensembl 데이터베이스 웹 사이트 4개의 다른 위치 전 세계적으론 서비스의 개선을 위해 그대로 나타난다.
공식 미러 사이트 |
---|
영국(상어 연구소) ----- 메인 웹사이트 |
US West(Amazon AWS) ----미국 서부 해안의 클라우드 기반 거울 |
US East(Amazon AWS) ----미국 동부 해안의 클라우드 기반 거울 |
아시아(Amazon AWS) ----싱가포르 클라우드 기반 거울 |
「 」를 참조해 주세요.
레퍼런스
- ^ Yates A. D.; et al. (January 2020). "Ensembl 2020". Nucleic Acids Res. 48 (D1): D682–D688. doi:10.1093/nar/gkz966. PMC 7145704. PMID 31691826.
- ^ a b Hubbard, T. (1 January 2002). "The Ensembl genome database project". Nucleic Acids Research. 30 (1): 38–41. doi:10.1093/nar/30.1.38. PMC 99161. PMID 11752248.
- ^ Flicek P, Amode MR, Barrell D, et al. (November 2010). "Ensembl 2011". Nucleic Acids Res. 39 (Database issue): D800–D806. doi:10.1093/nar/gkq1064. PMC 3013672. PMID 21045057.
- ^ Flicek P, Aken BL, Ballester B, et al. (January 2010). "Ensembl's 10th year". Nucleic Acids Res. 38 (Database issue): D557–62. doi:10.1093/nar/gkp972. PMC 2808936. PMID 19906699.
- ^ Davis, Charles Patrick (29 March 2021). "Medical definition of Genome Annotation". Archived from the original on 14 June 2021. Retrieved 7 August 2022.
- ^ Curwen, Val; Eyras, Eduardo; Andrews, T. Daniel; Clarke, Laura; Mongin, Emmanuel; Searle, Steven M. J.; Clamp, Michele (May 2004). "The Ensembl automatic gene annotation system". Genome Research. 14 (5): 942–950. doi:10.1101/gr.1858004. ISSN 1088-9051. PMID 15123590.
- ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (January 2017). "Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation". Database. 2017 (1): bax020. doi:10.1093/database/bax020. PMC 5467575. PMID 28365736.
- ^ Hubbard, T. J. P.; Aken, B. L.; Ayling, S.; Ballester, B.; Beal, K.; Bragin, E.; Brent, S.; Chen, Y.; Clapham, P.; Clarke, L.; Coates, G. (January 2009). "Ensembl 2009". Nucleic Acids Research. 37 (Database issue): D690–697. doi:10.1093/nar/gkn828. ISSN 1362-4962. PMC 2686571. PMID 19033362.
- ^ Howe, Kevin L.; Contreras-Moreira, Bruno; De Silva, Nishadi; Maslen, Gareth; Akanni, Wasiu; Allen, James; Alvarez-Jarreta, Jorge; Barba, Matthieu; Bolser, Dan M.; Cambell, Lahcen; Carbajo, Manuel (8 January 2020). "Ensembl Genomes 2020-enabling non-vertebrate genomic research". Nucleic Acids Research. 48 (D1): D689–D695. doi:10.1093/nar/gkz890. ISSN 1362-4962. PMC 6943047. PMID 31598706.
- ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (February 2004). "The Ensembl Core Software Libraries". Genome Research. 14 (5): 929–933. doi:10.1101/gr.1857204. PMC 479122. PMID 15123588.
- ^ "Species List". uswest.ensembl.org. Retrieved 5 August 2022.