바이오페를

BioPerl
바이오페를
BioPerlLogo.png
초기 릴리즈2002년 6월 11일 (2002-06-11)
안정된 릴리스
1.7.7[1] / 2019년 12월 7일, 2년 전(2019년 12월 7일)
저장소
기입처
유형생물정보학
면허증.아티스틱 라이선스 및 GPL
웹 사이트bioperl.org

BioPerl[2][3] 생물정보학 애플리케이션용 Perl 스크립트 개발을 용이하게 하는 Perl 모듈 모음입니다.그것은 인간 게놈 [4]프로젝트에서 필수적인 역할을 해왔다.

배경

BioPerl은 Open BioInformatics Foundation이 지원하는 액티브 오픈 소스 소프트웨어 프로젝트입니다.BioPerl의 첫 번째 Perl 코드 세트는 MRC Center Cambridge에서 Tim Hubbard와 Jong[citation needed] Bhak에 의해 개발되었으며, Fred Sanger에 의해 첫 번째 게놈 배열 분석이 수행되었다.MRC 센터는 다량의 DNA 배열과 3D 단백질 구조를 가지고 있었기 때문에 현대 생물 정보학의 중심지이자 탄생지 중 하나였다.Hubbard는 th_lib.pl Perl 라이브러리를 사용하고 있었습니다.이 라이브러리는 생물 정보학을 위한 많은 유용한 Perl 서브루틴을 포함하고 있습니다.Hubbard의 첫 박사과정 학생인 Bhak은 jong_lib.pl을 만들었다.Bhak은 2개의 Perl 서브루틴 라이브러리를 Bio.pl에 통합했습니다.BioPerl이라는 이름은 CPE(Protein Engineering Center for Protein Engineering)의 Bhak과 Steven Brenner가 공동으로 만들었습니다.1995년 브렌너는 케임브리지에서 열린 분자생물학 인텔리전트 시스템 컨퍼런스에서 바이오펄 세션을 조직했습니다.BioPerl은 독일에서 트레이닝 코스를 조직한 Georg Fuelen을 포함한 향후 몇 개월 동안 사용자를 확보했습니다.Fuelen의 동료와 학생들은 BioPerl을 크게 확장했습니다.이는 Steve Chervitz를 포함한 다른 사람들에 의해 더욱 확장되었습니다.Steve Chervitz는 효모 게놈 데이터베이스용 Perl 코드를 적극적으로 개발하고 있었습니다.캠브리지의 학생인 이완 버니가 [citation needed]개발팀에 합류하면서 큰 확장이 이루어졌다.

첫 번째 안정 릴리스는 2002년 6월 11일이었고, 가장 최근의 안정 릴리스는 2017년 9월 7일부터 1.7.2입니다.정기적으로 생성되는 개발자 릴리즈도 있습니다.Version series 1.7.x는 BioPerl의 가장 안정적인 버전(버그 측면에서)으로 간주되며 일상 사용에 권장됩니다.

BioPerl을 이용하기 위해서는 Perl의 레퍼런스, 모듈, 오브젝트 및 메서드를 사용하는 방법을 포함한 Perl 프로그래밍 언어에 대한 기본적인 지식이 필요합니다.

인간 게놈 프로젝트에 미치는 영향

인간 게놈 프로젝트는 생전에 몇 가지 도전에 직면했다.이러한 문제들 중 몇 가지는 많은 유전체 연구소가 Perl을 사용하기 시작하면서 해결되었습니다.모든 DNA 서열을 분석하는 과정이 그러한 문제 중 하나였다.일부 연구소는 복잡한 관계형 데이터베이스를 갖춘 대규모 모노리식 시스템을 구축하여 디버깅 및 구현에 오랜 시간이 걸렸고 새로운 기술에 의해 능가되었습니다.다른 연구실에서는 신기술이 등장할 때 부품을 교환할 수 있는 느슨하게 연결된 모듈식 시스템을 구축하는 방법을 배웠습니다.모든 실험의 초기 결과 중 많은 부분이 뒤섞여 있었다.결국 많은 단계가 Perl 쉘 스크립트로 실행되는 느슨하게 결합된 프로그램으로 구현될 수 있다는 것이 밝혀졌습니다.해결된 또 다른 문제는 데이터 교환이었다.각 랩에서는 보통 스크립트로 실행하는 프로그램이 다르기 때문에 결과를 비교할 때 몇 가지 변환이 이루어졌습니다.이 문제를 해결하기 위해 연구실에서는 집합적으로 슈퍼 데이터 세트를 사용하기 시작했습니다.1개의 스크립트는 슈퍼셋에서 각 랩셋으로 변환하기 위해 사용되었으며, 1개의 스크립트는 다시 변환하기 위해 사용되었습니다.이것에 의해, 필요한 스크립트의 수가 최소한으로 억제되어 Perl에 의한 데이터 교환이 심플하게 되었습니다.

특징과 예시

BioPerl은 생물정보학 프로그래밍의 많은 전형적인 작업을 위한 소프트웨어 모듈을 제공합니다.여기에는 다음이 포함됩니다.

시퀀스를 취득하기 위해 GenBank에 액세스하는 예:

사용 이력::DB::GenBank;$db_obj=바이오:DB::GenBank->new; $seq_obj= $db_obj->get_Seq_by_acc(# 등록번호 삽입);
  • 데이터베이스/파일 레코드의 형식 변환

형식 변환 예제 코드

사용 약관::SeqIO; my $seqio = "all2y.pl informat outfile outformat", my $seqat = shift or die outfile format, my $outfile = shift or die, my $seqin = bio:: SeqIO -> new ( -fh = > *STDIN, -format = > $seqout, ); my $seqout = Bio:: SeqIO -> new ( - file = > " > $outfile", -format = > $outformat , ) ; 반면 (나의 $inseq = $seqin-> next_seq) { $seqout-> write_seqinseq} ; }
  • 개별 시퀀스 조작

특정 시퀀스에 대한 통계 수집 예제

사용 이력::도구::SeqStats; $seq_seq= Bio:도구:SeqStats->new($seqobj), $weight = $seq_disples->get_wt(), $monomer_ref = $seq_disples->count_monomers(), #핵산 시퀀스 $seq_disples->count_codons();

사용.

BioPerl은 최종 [5]사용자에 의해 직접 사용될 뿐만 아니라 다음과 같은 다양한 바이오 정보 도구의 기반도 제공하고 있습니다.

  • SynBrowse[6]
  • 진컴버[7]
  • TFBS[8]
  • MIMOX[9]
  • 바이오[10] 파서
  • 퇴화 프라이머[11] 설계
  • 공용[12] 데이터베이스 쿼리
  • 현재 비교표[13]

외부 개발자가 제공하는 새로운 툴과 알고리즘은 종종 BioPerl 자체에 직접 통합됩니다.

  • 계통수 및 네스트 분류법[14] 처리
  • FPC 웹 툴[15]

이점

바이오펄은 사용성을 높인 최초의 생물학적 모듈 저장소 중 하나였다.모듈 설치가 매우 간단하며 유연한 글로벌 저장소가 있습니다.바이오펄은 다양한 공정에서 우수한 테스트 모듈을 사용합니다.

단점들

BioPerl을 사용하는 방법은 간단한 스크립팅부터 매우 복잡한 객체 프로그래밍까지 여러 가지가 있습니다.이것은 언어를 명확하지 않게 만들고 때로는 이해하기 어렵게 만든다.BioPerl에 탑재되어 있는 모듈의 수만큼,[citation needed] 반드시 의도한 대로 동작하지 않는 모듈도 있습니다.

다른 프로그래밍 언어의 관련 라이브러리

다른 프로그래밍 언어로 구현된 몇 가지 관련 생물정보학 라이브러리는 오픈 생물정보학 재단의 일부로 존재한다.

레퍼런스

  1. ^ https://github.com/bioperl/bioperl-live/releases/tag/BioPerl-v1.7.7 를 참조해 주세요.
  2. ^ Stajich, J. E.; Block, D.; Boulez, K.; Brenner, S.; Chervitz, S.; Dagdigian, C.; Fuellen, G.; Gilbert, J.; Korf, I.; Lapp, H.; Lehväslaiho, H.; Matsalla, C.; Mungall, C. J.; Osborne, B. I.; Pocock, M. R.; Schattner, P.; Senger, M.; Stein, L. D.; Stupka, E.; Wilkinson, M. D.; Birney, E. (2002). "The BioPerl Toolkit: Perl Modules for the Life Sciences". Genome Research. 12 (10): 1611–1618. doi:10.1101/gr.361602. PMC 187536. PMID 12368254.
  3. ^ "Archived copy". Archived from the original on 2007-02-02. Retrieved 2007-01-21.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사 (링크) BioPerl 참조의 완전한 최신 목록
  4. ^ Lincoln Stein (1996). "How Perl saved the human genome project". The Perl Journal. 1 (2). Archived from the original on 2007-02-02. Retrieved 2009-02-25.
  5. ^ Khaja R, MacDonald J, Zhang J, Scherer S (2006). "Methods for identifying and mapping recent segmental and gene duplications in eukaryotic genomes". Gene Mapping, Discovery, and Expression. Methods Mol Biol. Vol. 338. Totowa, N.J. : Humana Press. pp. 9–20. doi:10.1385/1-59745-097-9:9. ISBN 978-1-59745-097-3. PMID 16888347.
  6. ^ Pan, X.; Stein, L.; Brendel, V. (2005). "SynBrowse: A synteny browser for comparative sequence analysis". Bioinformatics. 21 (17): 3461–3468. doi:10.1093/bioinformatics/bti555. PMID 15994196.
  7. ^ Shah, S. P.; McVicker, G. P.; MacKworth, A. K.; Rogic, S.; Ouellette, B. F. F. (2003). "GeneComber: Combining outputs of gene prediction programs for improved results". Bioinformatics. 19 (10): 1296–1297. doi:10.1093/bioinformatics/btg139. PMID 12835277.
  8. ^ Lenhard, B.; Wasserman, W. W. (2002). "TFBS: Computational framework for transcription factor binding site analysis". Bioinformatics. 18 (8): 1135–1136. doi:10.1093/bioinformatics/18.8.1135. PMID 12176838.
  9. ^ Huang, J.; Gutteridge, A.; Honda, W.; Kanehisa, M. (2006). "MIMOX: A web tool for phage display based epitope mapping". BMC Bioinformatics. 7: 451. doi:10.1186/1471-2105-7-451. PMC 1618411. PMID 17038191.
  10. ^ Catanho, M.; Mascarenhas, D.; Degrave, W.; De Miranda, A. B. ?L. (2006). "BioParser". Applied Bioinformatics. 5 (1): 49–53. doi:10.2165/00822942-200605010-00007. PMID 16539538.
  11. ^ Wei, X.; Kuhn, D. N.; Narasimhan, G. (2003). "Degenerate primer design via clustering". Proceedings. IEEE Computer Society Bioinformatics Conference. 2: 75–83. PMID 16452781.
  12. ^ Croce, O.; Lamarre, M. L.; Christen, R. (2006). "Querying the public databases for sequences using complex keywords contained in the feature lines". BMC Bioinformatics. 7: 45. doi:10.1186/1471-2105-7-45. PMC 1403806. PMID 16441875.
  13. ^ Landsteiner, B. R.; Olson, M. R.; Rutherford, R. (2005). "Current Comparative Table (CCT) automates customized searches of dynamic biological databases". Nucleic Acids Research. 33 (Web Server issue): W770–W773. doi:10.1093/nar/gki432. PMC 1160193. PMID 15980582.
  14. ^ Llabrés, M.; Rocha, J.; Rosselló, F.; Valiente, G. (2006). "On the Ancestral Compatibility of Two Phylogenetic Trees with Nested Taxa". Journal of Mathematical Biology. 53 (3): 340–364. arXiv:cs/0505086. doi:10.1007/s00285-006-0011-4. PMID 16823581. S2CID 1704494.
  15. ^ Pampanwar, V.; Engler, F.; Hatfield, J.; Blundy, S.; Gupta, G.; Soderlund, C. (2005). "FPC Web Tools for Rice, Maize, and Distribution". Plant Physiology. 138 (1): 116–126. doi:10.1104/pp.104.056291. PMC 1104167. PMID 15888684.