Listen to this article

생물정보학

Bioinformatics
초기 생물정보학—관련 단백질 클래스의 실험적으로 결정된 배열의 컴퓨터 정렬. 자세한 내용은 § 배열 분석을 참조한다.

바이오 인포매틱스(/baɪ).oʊnfərˈmétksks/(listen)는 특히 데이터 세트가 크고 복잡한 경우 생물학적 데이터를 이해하기 위한 방법과 소프트웨어 도구를 개발하는 학문 간 분야이다.생물정보학은 학문 간 과학 분야로서 생물학, 화학, 물리학, 컴퓨터 공학, 정보 공학, 수학, 통계결합하여 생물학적 데이터를 분석하고 해석합니다.생물정보학은 계산 및 통계 기법을 사용한 생물학적 질의의 실리코 분석에 사용되어 왔다.

생물정보학에는 방법론의 일부로서 컴퓨터 프로그래밍을 사용하는 생물학적 연구와 특히 유전체학 분야에서 반복적으로 사용되는 특정 분석 "파이프라인"이 포함된다.생물정보학의 일반적인 용도는 후보 유전자와 단일 뉴클레오티드 다형(SNPs)의 식별을 포함한다.종종 이러한 식별은 질병의 유전적 기반, 고유한 적응, 바람직한 특성(특히 농업 종) 또는 개체군 간의 차이를 더 잘 이해하기 위한 목적으로 이루어진다.덜 형식적인 방법으로, 생물 정보학은 [1]또한 단백질학이라고 불리는 핵산과 단백질 배열 의 조직 원리를 이해하려고 노력합니다.

이미지 및 신호 처리를 통해 대량의 원시 데이터에서 유용한 결과를 추출할 수 있습니다.유전학 분야에서는 게놈과 그 관찰된 돌연변이의 배열과 주석을 부여하는데 도움을 준다.그것은 생물학 문헌의 텍스트 마이닝과 생물학 및 유전자 온톨로지의 개발에 있어 생물학적 데이터를 정리하고 조회하는 역할을 한다.또한 유전자 및 단백질 발현 분석 및 조절에도 역할을 합니다.생물정보학 도구는 유전자 및 게놈 데이터를 비교, 분석 및 해석하는 데 도움이 되며, 보다 일반적으로 분자생물학의 진화적 측면을 이해하는 데 도움이 됩니다.보다 통합적인 수준에서 시스템 생물학에서 중요한 부분을 차지하는 생물학적 경로와 네트워크를 분석하고 분류하는 데 도움이 됩니다.구조생물학에서,[2] 그것은 DNA,[2][3] RNA[4], 단백질, 그리고 [5][6][7][8]생체 분자 상호작용의 시뮬레이션과 모델링에 도움을 줍니다.

역사

역사적으로, 생물정보학이라는 용어는 오늘날 그것이 의미하는 바가 아니었다.Paulien Hogeweg와 Ben Hesper는 1970년에 생물 시스템의 [9][10][11][12]정보 처리 연구를 언급하기 위해 이것을 만들었다.이 정의는 생물 정보학을 생화학(생물 시스템의 화학 [9]작용 연구)과 평행한 분야로 배치했다.

시퀀스

유전자 물질의 배열은 생물 정보학에서 자주 사용되며 컴퓨터를 사용하여 수동으로 관리하는 것보다 더 쉽다.

인간 게놈 프로젝트가 완료된 이후 속도와 비용 절감에 있어 엄청난 발전이 있었습니다. 어떤 실험실은 매년 1억개 이상의 염기서열을 지정할 수 있고, 전체 게놈의 염기서열을 천 달러 [13]이하로 배열할 수 있습니다.컴퓨터는 1950년대 초 프레드릭 생어가 인슐린의 염기서열을 결정한 후 단백질 염기서열을 사용할 수 있게 되면서 분자생물학에서 필수적이 되었다.여러 시퀀스를 수동으로 비교하는 것은 비현실적인 것으로 나타났습니다.그 분야의 선구자는 마가렛 오클리 데이호프였다.[14]그녀는 처음에 책으로 출판된 최초의 단백질 배열 데이터베이스 중 하나를 편집했고[15] 배열 정렬과 분자 [16]진화의 방법을 개척했습니다.생물정보학의 또 다른 초기 기여자는 Elvin A. Kabat으로, 그는 1980년부터 [17]1991년 사이 Tai Te Wu와 함께 발표한 방대한 양의 항체 배열로 1970년에 생물학적 배열 분석을 개척했다.1970년대에, 박테리오파지 MS2와 öX174에 DNA 염기서열 분석을 위한 새로운 기술이 적용되었고, 확장된 뉴클레오티드 염기서열은 정보 및 통계 알고리즘으로 구문 분석되었다.이러한 연구는 코딩 세그먼트와 트리플렛 코드와 같은 잘 알려진 특징이 간단한 통계 분석에서 드러나고, 따라서 생물 정보학이 [18][19]통찰력이 있다는 개념의 증거라는 것을 보여주었다.

MUSCLE Multiple Sequence Alignment(MSA; 다중 시퀀스 정렬)에서 비교되는 시퀀스입니다.각 시퀀스 이름(맨 왼쪽 열)은 다양한 이(louse) 종에서 가져온 것이며 시퀀스 자체는 두 번째 열에 있습니다.

목표들

다른 질병 상태에서 정상적인 세포 활동이 어떻게 변화하는지 연구하려면 생물학적 데이터를 결합하여 이러한 활동에 대한 포괄적인 그림을 형성해야 합니다.따라서 생물정보학 분야는 현재 가장 시급한 과제가 다양한 유형의 데이터 분석과 해석을 수반하도록 진화했다.이것은 또한 뉴클레오티드와 아미노산 배열, 단백질 도메인, 단백질 [20]구조를 포함한다.데이터를 분석하고 해석하는 실제 과정을 계산 생물학이라고 합니다.생물정보학 및 계산생물학의 중요한 하위분야는 다음과 같다.

  • 다양한 유형의 정보에 대한 효율적인 접근, 관리 및 사용을 가능하게 하는 컴퓨터 프로그램 개발 및 구현.
  • 대규모 데이터 집합 구성원 간의 관계를 평가하는 새로운 알고리즘(수학 공식) 및 통계적 측정의 개발.예를 들어 배열 내의 유전자를 특정하고 단백질 구조 및/또는 기능을 예측하며 단백질 배열을 관련 배열의 패밀리로 클러스터하는 방법이 있다.

생물정보학의 주된 목표는 생물학적 과정에 대한 이해를 높이는 것이다.그러나 다른 접근법과 다른 점은 이 목표를 달성하기 위해 계산 집약적인 기술을 개발하고 적용하는 데 초점을 맞추고 있다는 점입니다.예를 들어 패턴 인식, 데이터 마이닝, 머신 러닝 알고리즘, 시각화 등이 있습니다.이 분야의 주요 연구에는 배열 정렬, 유전자 발견, 게놈 조립, 약물 설계, 약물 발견, 단백질 구조 정렬, 단백질 구조 예측, 유전자 발현 단백질-단백질 상호작용의 예측, 게놈 전체 연관 연구, 진화 및 세포 분열/유도증의 모델링포함됩니다.

생물정보학은 이제 데이터베이스, 알고리즘, 계산 및 통계 기술, 그리고 생물학적 데이터의 관리와 분석에서 발생하는 형식적이고 실용적인 문제를 해결하기 위한 이론의 생성과 발전을 수반한다.

지난 수십 년 동안, 게놈과 다른 분자 연구 기술의 빠른 발전과 정보 기술의 발전은 분자 생물학과 관련된 엄청난 양의 정보를 생산하기 위해 결합되어 왔다.생물정보학은 생물학적 과정을 이해하는 데 사용되는 이러한 수학적 및 컴퓨팅 접근법에 붙여진 이름입니다.

생물정보학에서 일반적인 활동은 DNA와 단백질 서열을 매핑하고 분석하고, 그것들을 비교하기 위해 DNA와 단백질 서열을 정렬하고, 단백질 구조의 3D 모델을 만들고 보는 것을 포함한다.

다른 분야와의 관계

생물정보학은 종종 컴퓨터 생물학과 동의어로 여겨지는 반면 생물학적 계산과 비슷하지만 구별되는 과학 분야이다.생물학적 계산은 생물학적 컴퓨터를 만들기 위해 생물 공학과 생물학을 사용하는 반면, 생물 정보학은 생물학을 더 잘 이해하기 위해 계산을 사용합니다.생물정보학 및 계산생물학은 생물학적 데이터, 특히 DNA, RNA, 단백질 염기서열의 분석을 포함한다.생물정보학 분야는 1990년대 중반부터 인간 게놈 프로젝트와 DNA 염기서열 분석 기술의 급속한 진보로 폭발적인 성장을 경험했다.

의미 있는 정보를 만들기 위해 생물학적 데이터를 분석하는 것은 그래프 이론, 인공지능, 소프트 컴퓨팅, 데이터 마이닝, 이미지 처리, 컴퓨터 시뮬레이션알고리즘을 사용하는 소프트웨어 프로그램을 작성하고 실행하는 것을 포함한다.알고리즘은 이산 수학, 제어 이론, 시스템 이론, 정보 이론 및 통계같은 이론적 기초에 따라 달라집니다.

시퀀스 분석

1977년 [21]파이지 δ-X174가 염기서열 분석된 이후 수천 개의 유기체의 DNA 염기서열이 해독되어 데이터베이스에 저장되었다.이 염기서열 정보는 단백질, RNA 유전자, 조절 염기서열, 구조적 모티브 및 반복 염기서열을 코드하는 유전자를 결정하기 위해 분석됩니다. 내 또는 다른 종 간의 유전자 비교는 단백질 기능 또는 종 간의 관계 사이의 유사성을 보여줄 수 있다.데이터의 양이 증가함에 따라, DNA 염기서열을 수동으로 분석하는 것은 오래 전에 실용적이지 않게 되었다.BLAST같은 컴퓨터 프로그램은 시퀀스를 검색하는 데 일상적으로 사용됩니다. 2008년 현재 1,900억 [22]이상의 뉴클레오티드를 포함하는 260,000개 이상의 생물에서 추출되었습니다.

Image: 450 pixels Sequencing analysis steps

DNA순서결정

시퀀스를 분석하려면 먼저 데이터 스토리지 뱅크의 예제 Genbank에서 시퀀스를 가져와야 합니다.원시 데이터에 노이즈가 있거나 약한 신호의 영향을 받을 수 있기 때문에 DNA 배열은 여전히 사소한 문제가 아닙니다.알고리즘은 DNA 염기서열에 대한 다양한 실험적인 접근을 요구하는 베이스용으로 개발되었습니다.

시퀀스 어셈블리

대부분의 DNA 염기서열 분석 기술은 완전한 유전자 또는 게놈 염기서열을 얻기 위해 조립될 필요가 있는 짧은 염기서열 조각들을 생산한다.소위 산탄총 배열 기술(예를 들어, 유전체 연구 연구소(TIGR)[23]가 최초의 박테리아 게놈인 헤모필러스 인플루엔자를 배열하기 위해 사용)은 수천 개의 작은 DNA 조각의 배열을 생성합니다(배열 기술에 따라 35에서 900개의 뉴클레오티드 길이).이 조각들의 끝부분은 겹치고 게놈 조립 프로그램에 의해 적절히 정렬되면 전체 게놈을 재구성하는 데 사용될 수 있습니다.샷건 시퀀싱은 시퀀스 데이터를 빠르게 생성하지만, 더 큰 게놈의 경우 단편들을 조립하는 작업이 매우 복잡할 수 있습니다.인간 게놈만큼 큰 게놈을 만들기 위해서는 대용량 메모리, 멀티프로세서 컴퓨터에서 조각들을 조립하는 데 며칠의 CPU 시간이 걸릴 수 있으며, 그 결과 만들어진 조립체에는 보통 나중에 채워져야 할 수많은 공백이 포함됩니다.산탄총 배열은 오늘날 배열된[when?] 거의 모든 게놈에 대해 선택되는 방법이며, 게놈 조립 알고리즘은 생물 정보학 연구의 중요한 영역입니다.

게놈 주석

유전체학에서 주석은 DNA 배열에서 유전자와 다른 생물학적 특징을 표시하는 과정이다.대부분의 게놈이 손으로 주석을 달기에는 너무 크기 때문에 염기서열 분석 속도가 병목 현상을 일으키지 않게 되면서 가능한 한 많은 게놈에 주석을 달려는 욕구는 말할 것도 없고, 이 과정은 자동화될 필요가 있다.주석은 유전자가 인식 가능한 시작 및 정지 영역을 가지고 있다는 사실에 의해 가능하지만, 이러한 영역에서 발견된 정확한 배열은 유전자마다 다를 수 있다.

게놈 주석은 뉴클레오티드, 단백질, 프로세스 레벨의 3가지 레벨로 분류할 수 있습니다.

유전자 발견은 뉴클레오티드 수준 주석의 주요 측면이다.복잡한 게놈의 경우 가장 성공적인 방법은 ab initio 유전자 예측과 발현 배열 데이터베이스 및 다른 유기체와의 배열 비교의 조합을 사용한다.또한 뉴클레오티드 수준의 주석은 게놈의 다른 유전자 및 물리적 지도와 게놈 시퀀스의 통합을 가능하게 한다.

단백질 수준 주석의 주요 목적은 게놈의 산물에 기능을 할당하는 것이다.단백질 배열과 기능 영역 및 모티브의 데이터베이스는 이러한 유형의 주석을 위한 강력한 자원이다.그럼에도 불구하고, 새로운 게놈 배열에서 예측된 단백질의 절반은 뚜렷한 기능이 없는 경향이 있다.

세포 및 생물 생리의 맥락에서 유전자와 그 생산물의 기능을 이해하는 것이 프로세스 수준의 주석 달기의 목표이다.이러한 수준의 주석 달성에 걸림돌 중 하나는 다른 모델 시스템에서 사용되는 용어의 불일치입니다.Gene Ontology Consortium은 이 [24]문제를 해결하는 것을 돕고 있다.

게놈 주석 시스템에 대한 최초의 설명은 1995년 게놈[23] 연구소의 팀에 의해 발표되었는데, 이 연구팀은 자유 생물인 해모필러스 [23]인플루엔자의 게놈의 완전한 배열과 분석을 최초로 수행했다.오웬 화이트는 모든 단백질, 전달 RNA, 리보솜 RNA(및 기타 부위)를 코드하는 유전자를 식별하고 초기 기능 할당을 하는 소프트웨어 시스템을 설계 및 구축했습니다.대부분의 현재 게놈 주석 시스템은 비슷하게 작동하지만, 헤모필러스 인플루엔자에서 단백질 코드 유전자를 찾기 위해 훈련되고 사용되는 GeneMark 프로그램과 같은 게놈 DNA 분석에 사용할 수 있는 프로그램은 끊임없이 변화하고 개선되고 있다.

인간 게놈 프로젝트가 2003년 폐쇄된 후 달성하려고 남겨진 목표에 따라 미국 국립 게놈 연구소가 개발한 새로운 프로젝트가 등장했다.이른바 ENCODE 프로젝트는 차세대 DNA 염기서열 기술 및 게놈 타일 배열을 사용하는 인간 게놈 기능 요소의 협업 데이터 수집으로, 베이스당 비용을 대폭 절감하면서도 동일한 정확도(베이스 콜 오류)와 fi로 대량의 데이터를 자동으로 생성할 수 있는 기술입니다.delity(어셈블리 오류).

유전자 기능 예측

게놈 주석은 주로 배열 유사성(따라서 호몰로지)에 기초하는 반면, 배열의 다른 특성은 유전자의 기능을 예측하는데 사용될 수 있다.사실, 대부분의 유전자 기능 예측 방법은 단백질 배열이 더 유익하고 특징이 풍부하기 때문에 단백질 배열에 초점을 맞춘다.예를 들어 소수성 아미노산의 분포는 단백질의 막 통과 세그먼트를 예측한다.그러나 단백질 기능 예측은 유전자(또는 단백질) 발현 데이터, 단백질 구조 또는 단백질-단백질 [25]상호작용과 같은 외부 정보를 사용할 수도 있다.

계산진화생물학

진화생물학의 기원과 혈통, 그리고 시간의 경과에 따른 변화에 대한 연구이다.정보학은 연구자들이 다음을 할 수 있게 함으로써 진화생물학자들을 도와왔습니다.

  • 물리적 분류법이나 생리학적 관찰만을 통한 것이 아니라 그들의 DNA의 변화를 측정함으로써 많은 유기체의 진화를 추적한다.
  • 유전자 복제, 수평 유전자 전달, 박테리아 분화에 중요한 요인 예측과 같은 더 복잡한 진화적 사건의 연구를 가능하게 하는 전체 게놈을 비교한다.
  • 시간이 지남에 따라 시스템의[26] 결과를 예측하기 위해 복잡한 계산 집단 유전학 모델을 구축한다.
  • 점점 더 많은 종과 유기체에 대한 정보를 추적하고 공유한다.

미래의 연구는 지금보다 더 복잡한 생명[according to whom?]나무를 재건하기 위해 노력한다.

유전자 알고리즘을 사용하는 컴퓨터 과학 내의 연구 영역은 때때로 컴퓨터 진화 생물학과 혼동되지만, 두 분야가 반드시 관련이 있는 것은 아니다.

비교 유전체학

비교 게놈 분석의 핵심은 다른 유기체의 유전자(정통학 분석) 또는 다른 게놈 특징 사이의 대응 관계를 확립하는 것이다.이러한 게놈 간 지도는 두 게놈의 분리에 책임이 있는 진화 과정을 추적하는 것을 가능하게 한다.다양한 조직 수준에서 작용하는 많은 진화적 사건들이 게놈 진화를 형성합니다.가장 낮은 수준에서 점 돌연변이는 개별 뉴클레오티드에 영향을 미친다.더 높은 수준에서, 큰 염색체 세그먼트는 복제, 가로 이동, 반전, 전위, 결실 및 [27]삽입을 겪는다.궁극적으로, 전체 게놈은 교배, 다배체화 및 내분비 과정에 관여하며, 종종 빠른 분화를 이끈다.게놈 진화의 복잡성은 수학 모델과 알고리즘 개발자들에게 많은 흥미로운 도전을 제기하며, 수학 모델 및 알고리즘 개발자들은 편협 모델에 기초한 문제에 대해 정확하고, 휴리스틱하고, 고정된 파라미터와 근사 알고리즘에서 마르코프 연쇄 몬테카에 이르기까지 다양한 알고리즘, 통계 및 수학적 기술에 의지한다.확률론적 모델에 기초한 문제의 베이지안 분석을 위한 lo 알고리즘.

이러한 연구의 대부분은 단백질 [28]패밀리에 염기서열을 할당하기 위한 염기서열 호몰로지의 검출에 기초하고 있다.

범게노믹스

범게노믹스는 테틀린과 메디니가 2005년 도입한 개념으로, 결국 생물정보학에서 뿌리를 내렸다.범 게놈은 특정 분류학 그룹의 완전한 유전자 레퍼토리로, 처음에는 종의 밀접하게 연관된 변종에 적용되었지만, 속, 문 등과 같은 더 큰 맥락에 적용될 수 있습니다.핵심 게놈은 두 부분으로 나뉩니다.연구 중인 모든 게놈에 공통되는 유전자 세트(종종 생존에 필수적인 하우스키핑 유전자)와 디스펜서블/플렉서블 게놈:연구 중인 하나 또는 일부 게놈을 제외한 모든 유전자에 존재하지 않는 유전자 세트.생물정보학 도구 BPGA는 박테리아 [29]종의 Pan Genome을 특징짓기 위해 사용될 수 있다.

질병의 유전학

차세대 염기서열 분석의 등장으로 우리는 불임,[30] 유방암[31] 또는 알츠하이머병[32]포함한 복잡한 질병의 유전자 지도를 만들 수 있는 충분한 염기서열 데이터를 얻고 있다.게놈 전체에 걸친 연관성 연구는 [33]이러한 복잡한 질병의 원인이 되는 돌연변이를 특정하는 데 유용한 접근법이다.이러한 연구를 통해, 유사한 질병과 [34]특징과 관련된 수천 개의 DNA 변형이 확인되었다.또한 유전자가 예후, 진단 또는 치료에 사용될 가능성은 가장 필수적인 응용 프로그램 중 하나이다.많은 연구들이 사용될 유전자를 선택하는 유망한 방법들과 질병의 존재나 [35]예후를 예측하기 위해 유전자를 사용하는 것의 문제와 함정에 대해 논의하고 있다.

암 돌연변이 분석

의 경우, 영향을 받는 세포의 게놈은 복잡하고 심지어 예측할 수 없는 방식으로 재배열된다.암의 다양한 유전자에서 이전에는 알려지지 않았던 돌연변이를 식별하기 위해 대규모 염기서열 분석 노력이 사용된다.바이오 인포메이터는 생성되는 배열 데이터의 양을 관리하기 위해 전문화된 자동 시스템을 계속 생산하고 있으며, 그들은 배열 결과를 인간 게놈 배열과 생식선 다형성의 증가하는 수집과 비교하기 위한 새로운 알고리즘과 소프트웨어를 개발합니다.염색체 득실을 식별하기 위한 올리고뉴클레오티드 마이크로어레이(비교 유전체 혼성이라고 함)와 알려진 점 돌연변이를 검출하기 위한 단일 뉴클레오티드 다형성 어레이와 같은 새로운 물리적 검출 기술이 사용된다.이러한 검출 방법은 게놈 전체에서 수십만 개의 사이트를 동시에 측정하며, 수천 개의 샘플을 측정하기 위한 높은 처리량으로 사용될 경우 실험당 테라바이트의 데이터를 생성합니다.엄청난 양의 데이터와 새로운 유형의 데이터는 생물 정보 제공자들에게 새로운 기회를 만들어냅니다.데이터는 종종 상당한 변동성 또는 노이즈를 포함하고 있는 것으로 발견되며, 따라서 숨겨진 마르코프 모델과 변화점 분석 방법이 실제 복사 번호의 변화를 추론하기 위해 개발되고 있다.

게놈 분석에는 두 가지 중요한 원리가 사용될 수 있다. 암 게놈은 엑소시움에서 돌연변이의 식별과 관련된다.첫째, 암은 유전자에 체세포 돌연변이가 축적되는 질병이다.두 번째 암은 [36]승객과 구별되어야 하는 운전자 돌연변이를 포함한다.

이 차세대 염기서열 분석 기술이 바이오 정보학 분야에 제공하는 획기적인 발전으로, 암 유전체학은 급격히 변화할 수 있다.이러한 새로운 방법과 소프트웨어는 생물 정보 제공자들이 많은 암 게놈을 빠르고 저렴하게 배열할 수 있게 해준다.이것은 게놈에서 암으로 인한 돌연변이를 분석함으로써 암의 종류를 분류하는 보다 유연한 과정을 만들어 낼 수 있다.또한 암 [37]샘플의 시퀀스를 통해 질병이 진행되는 동안 환자를 추적하는 것이 미래에 가능할 수 있다.

새로운 정보학 개발을 필요로 하는 또 다른 유형의 데이터는 많은 종양들 사이에서 재발하는 것으로 밝혀진 병변의 분석이다.

유전자 및 단백질 발현

유전자 발현 분석

많은 유전자의 발현마이크로어레이, 발현 cDNA 시퀀스 태그(EST) 배열, 유전자 발현 태그 배열(SAGE) 직렬 분석, 대량 병렬 시그니처 배열(MPSS), RNA-Seq, "전체 트랜스크립트옴 샷건 배열" 또는 "TS"를 포함한 여러 기술로 mRNA 수준을 측정함으로써 결정될 수 있다.멀티플렉스 인 멀티플렉스 하이브리드화의 응용 프로그램.이러한 모든 기술은 매우 노이즈를 일으키기 쉬우며/또는 생물학적 측정에서 편향되기 쉬우며, 컴퓨터 생물학의 주요 연구 분야는 높은 처리량 유전자 발현 연구에서 [38]노이즈로부터 신호분리하는 통계 도구의 개발을 포함한다.그러한 연구는 종종 장애에 관련된 유전자를 결정하기 위해 사용된다: 사람들은 암 상피 세포의 미세 배열 데이터와 암 세포의 특정 집단에서 상향 조절되고 하향 조절되는 전달물을 결정하기 위해 비암 세포의 데이터를 비교할 수 있다.

마이크로어레이 대 RNA-Seq

단백질 발현 분석

단백질 마이크로어레이와 높은 스루풋(HT) 질량분석(MS)은 생물학적 샘플에 존재하는 단백질의 스냅샷을 제공할 수 있다.생물정보학은 단백질 마이크로어레이와 HT MS 데이터를 이해하는 데 매우 많이 관여한다; 전자의 접근법은 mRNA를 목표로 하는 마이크로어레이와 유사한 문제에 직면한다; 후자는 단백질 배열 데이터베이스의 예측 질량에 대한 대량의 질량 데이터를 일치시키는 문제와 samp의 복잡한 통계 분석을 포함한다.les 각 단백질에서 불완전하지만 여러 개의 펩타이드가 검출되는 경우.면역조직화학 조직마이크로어레이[39]기초한 공간데이터로 표시되는 친화단백질체학을 통해 조직 컨텍스트에서의 세포단백질 국재화를 달성할 수 있다.

규제의 분석

유전자 조절은 호르몬과 같은 잠재적으로 세포외 신호인 신호가 결국 하나 이상의 단백질의 활성을 증가 또는 감소시키는 사건의 복잡한 조정이다.이 과정의 다양한 단계를 탐색하기 위해 생물 정보학 기법이 적용되었다.

예를 들어, 유전자 발현은 게놈의 가까운 요소들에 의해 조절될 수 있다.프로모터 분석은 유전자의 부호화 영역을 둘러싼 DNA의 배열 모티브의 식별과 연구를 포함한다.이러한 모티브는 해당 영역이 mRNA로 변환되는 정도에 영향을 미칩니다. 프로모터로부터 멀리 떨어진 인핸서 요소도 3차원 루프 상호작용을 통해 유전자 발현을 조절할 수 있습니다.이러한 상호작용은 염색체 형태 포착 실험의 생체 정보 분석에 의해 결정될 수 있다.

발현 데이터는 유전자 조절을 추론하기 위해 사용될 수 있다: 사람들은 각 상태에 관련된 유전자에 대한 가설을 형성하기 위해 유기체의 다양한 상태의 미세 배열 데이터를 비교할 수 있다.단세포 유기체에서는 다양한 스트레스 조건(열충격, 기아 등)과 함께 세포 주기의 단계를 비교할 수 있다.그런 다음 어떤 유전자가 함께 발현되는지를 결정하기 위해 그 발현 데이터에 클러스터링 알고리즘을 적용할 수 있다.예를 들어, 공동 발현 유전자의 상류 영역(촉진제)에서 과잉 표현된 조절 요소를 검색할 수 있다.유전자 클러스터링에 적용되는 클러스터링 알고리즘의 예로는 k-평균 클러스터링, 자기조직지도(SOM), 계층적 클러스터링, 합의 클러스터링 방법이 있다.

세포조직 분석

세포 내 세포, 유전자, 단백질, 그리고 다른 성분들의 위치를 분석하기 위해 몇 가지 접근법이 개발되었습니다.이것은 이러한 구성요소의 위치가 세포 내의 사건에 영향을 미치고, 따라서 우리가 생물학적 시스템의 행동을 예측하는 데 도움을 주기 때문에 관련이 있습니다.유전자 온톨로지 범주인 세포 구성요소는 많은 생물학적 데이터베이스에서 세포 내 위치 파악을 위해 고안되었다.

현미경 검사 및 이미지 분석

현미경 사진을 통해 분자뿐만 아니라 두 소기관도 찾을 수 있습니다.그것은 또한 과 같은 정상 세포와 비정상 세포를 구별하는 데 도움을 줄 수 있다.

단백질의 국재화

단백질의 국부화는 단백질의 역할을 평가하는 데 도움을 준다.를 들어, 핵에서 단백질이 발견되면 유전자 조절이나 접합관여할 수 있다.반대로 미토콘드리아에서 단백질이 발견되면 호흡이나 다른 대사 과정에 관여할 수 있다.따라서 단백질 국부화는 단백질 기능 예측의 중요한 구성요소이다.단백질 아세포 위치 데이터베이스 및 예측 [40][41]도구를 포함하여 잘 개발된 단백질 아세포 위치 예측 리소스가 있다.

염색질의 핵조직

Hi-C(실험)ChIA-PET와 같은 높은 처리량 염색체 배치 포착 실험의 데이터는 DNA 궤적의 공간적 근접성에 대한 정보를 제공할 수 있다.이 실험들의 분석은 염색질의 3차원 구조와 핵구조를 결정할 수 있다.이 분야의 생물정보학적 과제에는 게놈을 3차원 [42]공간에서 함께 조직된 토폴로지적으로 연관된 도메인(TAD)과 같은 도메인으로 분할하는 것이 포함된다.

구조생물정보학

이와 같은 3차원 단백질 구조는 생체정보 분석에서 공통적인 주제이다.

단백질 구조 예측은 생물 정보학의 또 다른 중요한 응용 분야이다.단백질의 아미노산 배열, 이른바 1차 구조는 그것을 코드하는 유전자의 배열로부터 쉽게 결정될 수 있다.대부분의 경우 이 1차 구조는 고유하게 고유하게 고유하게 자연환경의 구조를 결정한다.(물론 광우병 프리온과 같은 예외는 있다.)이 구조에 대한 지식은 단백질의 기능을 이해하는 데 필수적이다.구조 정보는 보통 2차, 3차4차 구조 중 하나로 분류됩니다.이러한 예측에 대한 실행 가능한 일반적인 해결책은 여전히 미해결 문제로 남아 있다.지금까지 대부분의 노력은 대부분 [citation needed]효과가 있는 휴리스틱스에 집중되어 왔다.

생물정보학의 핵심 아이디어 중 하나는 호몰로지의 개념이다.유전정보학에서 호몰로지는 유전자의 기능을 예측하기 위해 사용된다: 만약 기능이 알려진 유전자 A의 배열이 기능이 알려지지 않은 유전자 B의 배열과 상동한다면, B가 A의 기능을 공유할 수 있다고 추론할 수 있다.생체정보학의 구조분야에서 호몰로지는 단백질의 어떤 부분이 구조형성과 다른 단백질과의 상호작용에 중요한지를 결정하기 위해 사용된다.호몰로지 모델링이라고 불리는 기술에서, 이 정보는 일단 호몰로지 단백질의 구조가 알려지면 단백질의 구조를 예측하는데 사용된다.이것은 현재 단백질 구조를 신뢰성 있게 예측할 수 있는 유일한 방법이다.

이것의 한 예는 인간의 헤모글로빈과 같은 단백질 슈퍼패밀리의 먼 친척인 콩류의 헤모글로빈입니다.둘 다 유기체 내에서 산소를 운반하는 같은 목적을 가지고 있다.비록 이 두 단백질이 완전히 다른 아미노산 서열을 가지고 있지만, 그들의 단백질 구조는 거의 동일한 목적과 공통된 [43]조상을 반영하는 사실상 동일하다.

단백질 구조를 예측하는 다른 기술로는 단백질 스레딩과 de novo(처음부터) 물리학 기반 모델링이 있습니다.

구조생물정보학의 또 다른 측면에는 정량구조-활성관계모델 및 프로테오메트릭모델(PCM)과 같은 가상스크리닝모델에 단백질구조를 사용하는 것이 포함된다.또한 단백질의 결정구조는 예를 들어 리간드 결합연구 및 실리코 돌연변이 유발연구의 시뮬레이션에 사용될 수 있다.

네트워크 및 시스템 생물학

네트워크 분석은 대사 또는 단백질-단백질 상호작용 네트워크와 같은 생물학적 네트워크 내의 관계를 이해하려고 한다.생물학적 네트워크는 단일 유형의 분자 또는 개체(유전자 등)로 구성될 수 있지만, 네트워크 생물학은 종종 단백질, 작은 분자, 유전자 발현 데이터 및 기타 모든 물리적, 기능적 또는 둘 다와 같은 많은 다른 데이터 유형을 통합하려고 시도합니다.

시스템 생물학은 세포 서브시스템(대사물 신진대사를 구성하는 효소의 네트워크, 신호 전달 경로 및 유전자 조절 네트워크 등)의 컴퓨터 시뮬레이션을 사용하여 이러한 세포 프로세스의 복잡한 연결을 분석하고 시각화합니다.인공생명체 또는 가상진화는 단순한 (인공적인) 생명체의 컴퓨터 시뮬레이션을 통해 진화 과정을 이해하려고 시도합니다.

분자 상호 작용망

단백질 간의 상호작용은 네트워크를 사용하여 자주 시각화되고 분석됩니다.이 네트워크는 매독과 다른 [44]질병의 원인 물질인 Treponema pallidum의 단백질-단백질 상호작용으로 구성되어 있다.

수만 개의 3차원 단백질 구조가 X선 결정학단백질 핵자기공명분광학(단백질 NMR)에 의해 결정되었으며 구조 생물정보학에서 중요한 질문은 pr을 수행하지 않고 이러한 3D 형태만을 기반으로 가능한 단백질-단백질 상호작용을 예측하는 것이 실용적인가 하는 것이다.오테인-유전자 상호 작용 실험.단백질-단백질 도킹 문제를 해결하기 위해 다양한 방법이 개발되었지만, 이 분야에서는 아직 해야 할 일이 많아 보입니다.

현장에서 접하는 다른 상호작용으로는 단백질-리간드(약물 포함)와 단백질-펩타이드가 있다.회전 가능한 결합에 대한 원자의 움직임에 대한 분자 동적 시뮬레이션은 분자 상호작용을 연구하기 위한 도킹 알고리즘이라고 불리는 계산 알고리즘의 기본 원리입니다.

다른이들

문헌 분석

출판된 문헌의 수가 증가함에 따라 모든 논문을 읽는 것이 사실상 불가능해지고, 그 결과 연구의 하위 분야가 분열되었다.문학 분석은 컴퓨터 및 통계 언어학을 사용하여 이 증가하는 텍스트 리소스 라이브러리를 채굴하는 것을 목표로 합니다.예를 들어 다음과 같습니다.

  • 약어 인식 – 생물학적 용어의 긴 형식과 약어를 식별합니다.
  • 명명된 엔티티 인식 – 유전자 이름과 같은 생물학적 용어 인식
  • 단백질-단백질 상호작용 – 어떤 단백질이 텍스트에서 어떤 단백질과 상호작용하는지 확인

연구 분야는 통계학과 컴퓨터 언어학에서 도출된다.

높은 스루풋 이미지 분석

계산 기술은 대량의 고정보 콘텐츠 바이오메디컬 이미지의 처리, 정량화 및 분석을 가속화하거나 완전히 자동화하기 위해 사용됩니다.최신 이미지 분석 시스템은 정확도, 객관성 또는 속도를 향상시킴으로써 관찰자의 대규모 또는 복잡한 이미지 세트 측정 능력을 강화합니다.완전히 개발된 분석 시스템은 관찰자를 완전히 대체할 수 있다.이러한 시스템은 생물의학 이미지에 고유한 것은 아니지만, 생물의학 이미징은 진단과 연구 모두에서 더욱 중요해지고 있습니다.예를 들어 다음과 같습니다.

  • 높은 스루풋과 높은 충실도의 정량화와 세포내 국재화(고함량 스크리닝, 세포조직병리학, 생체영상정보학)
  • 형태 측정학
  • 임상 이미지 분석 및 시각화
  • 살아있는 동물의 호흡 폐에서 실시간 공기 흐름 패턴을 결정하는 것
  • 동맥 손상 중 발생 및 회복에 따른 실시간 영상의 폐색 크기 정량화
  • 실험동물의 확장된 비디오 녹화에서 행동을 관찰하는 것
  • 대사 활성 측정을 위한 적외선 측정
  • DNA 매핑에서 클론이 중복되는 것을 추론하는 것, 예를 들어 설스턴 점수

높은 처리량 단일 셀 데이터 분석

연산 기법은 흐름 세포 측정에서 얻은 것과 같은 높은 처리량, 낮은 측정의 단일 셀 데이터를 분석하기 위해 사용된다.이러한 방법에는 일반적으로 특정 질병 상태 또는 실험 조건과 관련된 세포 집단을 찾는 것이 포함된다.

생물다양성정보학

생물다양성 정보학은 분류학적 데이터베이스 또는 마이크로바이옴 데이터와 같은 생물다양성 데이터의 수집과 분석을 다룬다.그러한 분석의 예로는 계통학, 틈새 모델링, 종 풍부도 매핑, DNA 바코드 또는 종 식별 도구가 있다.

온톨로지 및 데이터 통합

생물학적 온톨로지는 통제된 어휘지시 비순환 그래프이다.그것들은 컴퓨터로 쉽게 분류하고 분석할 수 있는 방식으로 생물학적 개념과 기술을 포착하도록 설계되었다.이런 식으로 분류하면 전체론 및 통합 분석에서 부가가치를 얻을 수 있습니다.

OBO Foundry는 특정 온톨로지를 표준화하려는 노력이었습니다.가장 널리 퍼진 것 중 하나는 유전자 기능을 설명하는 유전자 온톨로지이다.표현형을 설명하는 존재론도 있다.

데이터베이스

데이터베이스는 생물정보학 연구와 응용에 필수적이다.DNA와 단백질 배열, 분자 구조, 표현형, 생물 다양성 등 다양한 정보 유형을 포함하는 많은 데이터베이스가 존재합니다.데이터베이스에는 경험적 데이터(실험에서 직접 얻은 데이터), 예측 데이터(분석에서 얻은 데이터) 또는 가장 일반적으로 두 데이터가 모두 포함될 수 있습니다.특정 유기체, 경로 또는 관심 분자에 특정될 수 있습니다.또는 다른 여러 데이터베이스에서 컴파일된 데이터를 통합할 수 있습니다.이러한 데이터베이스는 형식, 액세스 메커니즘 및 공용 여부에 따라 달라집니다.

가장 일반적으로 사용되는 데이터베이스 중 일부는 다음과 같습니다.보다 포괄적인 리스트에 대해서는, 서브 섹션의 선두에 있는 링크를 확인해 보십시오.

  • 생물학적 배열 분석에 사용됩니다.Genbank, UniProt
  • 구조 해석에 사용:단백질 데이터 뱅크(PDB)
  • 단백질 패밀리 모티브 발견에 사용:InterPro, Pfam
  • 차세대 시퀀싱: 시퀀스 읽기 아카이브에 사용
  • 네트워크 분석에 사용:대사 경로 데이터베이스(KEGG, BioCyc), 상호작용 분석 데이터베이스, 기능 네트워크
  • 합성 유전 회로 설계에 사용:GenoCAD

소프트웨어 및 도구

바이오 정보학을 위한 소프트웨어 도구는 간단한 명령줄 도구에서 다양한 바이오 정보학 회사 또는 공공기관에서 제공하는 보다 복잡한 그래픽 프로그램 및 독립형 웹 서비스에 이르기까지 다양하다.

오픈 소스 바이오 인포매틱스 소프트웨어

많은 자유 [45]오픈 소스 소프트웨어 도구가 1980년대 이후 존재하며 계속 성장해 왔습니다.새로운 유형의 생물학적 판독치 분석을 위한 새로운 알고리즘의 지속적인 필요성, 실리코 실험의 혁신 가능성, 그리고 자유롭게 이용할 수 있는 오픈 코드 베이스의 조합은 모든 연구 그룹이 생물 정보학 및 이용 가능한 오픈 소스 소프트웨어의 범위에 기여할 수 있는 기회를 창출하는 데 도움이 되었다.그들의 자금조달과 상관없이 말이죠오픈 소스 툴은 아이디어의 인큐베이터 또는 상용 어플리케이션의 커뮤니티 지원 플러그인 역할을 하는 경우가 많습니다.또한 생물 정보 통합의 과제를 지원하기 위한 사실상의 표준과 공유 객체 모델을 제공할 수도 있다.

오픈 소스 소프트웨어 패키지에는 바이오컨덕터, 바이오페를, 바이오자바, 바이오JS, 바이오루비, 바이오클립스, EMBOSS, .NET 바이오, 오렌지, Apache Taverna, UGeneGenoCAD 등의 타이틀이 포함되어 있습니다.이러한 전통을 유지하고 더 많은 기회를 창출하기 위해 비영리단체인 오픈 바이오정보학 재단[45] [46]2000년부터 연례 바이오정보학 오픈소스 컨퍼런스(BOSC)를 지원하고 있다.

공용 바이오 정보 데이터베이스를 구축하는 다른 방법은 WikiOpener 확장 기능을 가진 MediaWiki 엔진을 사용하는 것입니다.이 시스템을 통해 [47]해당 분야의 모든 전문가가 데이터베이스에 액세스하고 업데이트할 수 있습니다.

생물정보학 웹서비스

SOAP 기반 및 REST 기반 인터페이스는 다양한 생물 정보학 애플리케이션을 위해 개발되었으며, 세계 한 지역의 한 컴퓨터에서 실행되는 애플리케이션이 세계 다른 지역의 서버에서 알고리즘, 데이터 및 컴퓨팅 리소스를 사용할 수 있습니다.주요 장점은 최종 사용자가 소프트웨어 및 데이터베이스 유지 보수 오버헤드를 처리할 필요가 없다는 사실에서 비롯됩니다.

EBI는 기본적인 생물정보학 서비스를 SSS(시퀀스 서치 서비스), MSA(다중 시퀀스 얼라인먼트), BSA(생물 시퀀스 분석)[48]의 3가지 범주로 분류한다.이러한 서비스 지향 바이오 인포매틱스 자원의 가용성은 웹 기반 바이오 인포매틱스 솔루션의 적용 가능성을 입증하며, 단일 독립형 또는 웹 기반 인터페이스에서 공통 데이터 형식을 가진 독립형 도구 집합에서 통합적이고 분산적이며 확장 가능한 바이오 인포매틱스 워크플로우 관리 시스템에 이르기까지 다양하다.

생물정보학 워크플로우 관리 시스템

생물정보학 워크플로우 관리 시스템은 생물정보학 애플리케이션에서 일련의 계산 또는 데이터 조작 단계 또는 워크플로우를 구성 및 실행하도록 특별히 설계된 워크플로우 관리 시스템의 특수한 형태이다.이러한 시스템은 다음과 같이 설계되어 있습니다.

  • 개별 애플리케이션 과학자가 직접 워크플로우를 만들 수 있는 사용하기 쉬운 환경을 제공합니다.
  • 과학자들이 워크플로우를 실행하고 결과를 실시간으로 볼 수 있도록 하는 대화형 도구를 제공합니다.
  • 과학자 간의 워크플로우 공유 및 재사용 프로세스를 단순화합니다.
  • 과학자가 워크플로우 실행 결과 및 워크플로우 생성 단계의 타당성을 추적할 수 있습니다.

Galaxy, Kepler, Taverna, UGENE, Anduril, HIVE 등의 서비스를 제공하는 플랫폼입니다.

BioCompute 및 BioCompute 객체

2014년 미국 식품의약국은 생물 정보학의 [49]재현성을 논의하기 위해 국립 보건원 베데스다 캠퍼스에서 열린 컨퍼런스를 후원했다.향후 3년간 이해관계자 컨소시엄은 Bio Compute [50]패러다임을 논의하기 위해 정기적으로 모임을 가졌다.이러한 이해관계자에는 정부, 산업 및 학술 단체의 대표자가 포함되어 있습니다.세션 리더는 FDA 및 NIH Institutes and Centers, Human Variome ProjectEuropean Federation for Medical Informatics, Stanford, New York Genome Center 및 George Washington University 의 비영리 단체 및 연구 기관의 수많은 지부를 대표했습니다.

BioCompute 패러다임은 바이오 정보학 프로토콜의 재현성, 복제, 검토 및 재사용을 허용하는 디지털 '랩 노트북'의 형태로 결정되었다.이는 그룹 간 아이디어 교환을 촉진하면서 정상적인 인력 흐름의 과정에 걸쳐 연구 그룹 내에서 더 큰 연속성을 가능하게 하기 위해 제안되었다.미국 FDA는 파이프라인에 대한 정보가 보다 투명하고 규제 [51]직원이 접근할 수 있도록 이 작업에 자금을 지원했다.

2016년, 이 그룹은 베데스다의 NIH에서 재소집하여 BioCompute 패러다임의 한 예인 BioCompute Object의 가능성에 대해 논의했다.이 작업은 "표준 시험 사용" 문서와 bioRxiv에 업로드된 인쇄 전 용지로 복사되었습니다.BioCompute 객체를 사용하면 직원, 공동작업자 및 [52][53]규제당국 간에 JSON이 설정된 레코드를 공유할 수 있습니다.

교육 플랫폼

생물정보학의 개념과 방법을 가르치기 위해 설계된 소프트웨어 플랫폼에는 스위스 생물정보학 연구소를 통해 제공되는 로잘린드 및 온라인 강좌가 있습니다.Canadian Bio Informatics Workshops는 Creative Commons 라이선스로 웹 사이트에서 교육 워크숍의 비디오와 슬라이드를 제공합니다.4273인치 프로젝트 또는 4273pi[54] 프로젝트에서는 오픈 소스 교육 교재도 무료로 제공하고 있습니다.이 과정은 저렴한 라즈베리 파이 컴퓨터로 실행되며 성인 및 학교 [55][56]학생들을 가르치는 데 사용되어 왔다.라즈베리 파이 컴퓨터와 4273 operating [57][58]system을 사용하여 연구 수준의 생물 정보학을 실행한 학계와 연구진의 컨소시엄에 의해 활발하게 개발되고 있다.

MOOC 플랫폼은 또한 Coursera의 생물정보학 전문화(UC San Diego) 및 Genomic Data Science Specialization(Johns Hopkins) 및 EdX의 생명과학 X Series(Harvard)를 포함한 생물정보학 및 관련 분야의 온라인 인증을 제공합니다.Southern California 대학은 생물의학 응용 분야에 초점을 맞춘 번역 생물 정보학 석사 과정을 제공하고 있습니다.

회의

생물정보학에 관한 몇 개의 큰 컨퍼런스가 있다.가장 주목할 만한 예로는 ISMB(Intelligent Systems for Molecular Biology), ECCB(European Conference on Computational Biology), RECOMB(Research in Computational Molecular Biology) 등이 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Lesk AM (26 July 2013). "Bioinformatics". Encyclopaedia Britannica.
  2. ^ a b Sim AY, Minary P, Levitt M (June 2012). "Modeling nucleic acids". Current Opinion in Structural Biology. 22 (3): 273–8. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125.
  3. ^ Dawson WK, Maciejczyk M, Jankowska EJ, Bujnicki JM (July 2016). "Coarse-grained modeling of RNA 3D structure". Methods. 103: 138–56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734.
  4. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (July 2016). "Coarse-Grained Protein Models and Their Applications". Chemical Reviews. 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.
  5. ^ Wong KC (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975.
  6. ^ Joyce AP, Zhang C, Bradley P, Havranek JJ (January 2015). "Structure-based modeling of protein: DNA specificity". Briefings in Functional Genomics. 14 (1): 39–49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269.
  7. ^ Spiga E, Degiacomi MT, Dal Peraro M (2014). "New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly". In Karabencheva-Christova T (ed.). Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. Vol. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955.
  8. ^ Ciemny M, Kurcinski M, Kamel K, Kolinski A, Alam N, Schueler-Furman O, Kmiecik S (August 2018). "Protein-peptide docking: opportunities and challenges". Drug Discovery Today. 23 (8): 1530–1537. doi:10.1016/j.drudis.2018.05.006. PMID 29733895.
  9. ^ a b Hogeweg P (March 2011). Searls DB (ed.). "The roots of bioinformatics in theoretical biology". PLOS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479.
  10. ^ Hesper B, Hogeweg P (1970). "Bio-informatica: een werkconcept". Kameleon. 1 (6): 28–29.
  11. ^ Hesper B, Hogeweg P (2021). "Bio-informatics: a working concept. A translation of "Bio-informatica: een werkconcept" by B. Hesper and P. Hogeweg". arXiv:2111.11832v1 [q-bio.OT].
  12. ^ Hogeweg P (1978). "Simulating the growth of cellular forms". Simulation. 31 (3): 90–96. doi:10.1177/003754977803100305. S2CID 61206099.
  13. ^ Colby B (2022). "Whole Genome Sequencing Cost". Sequencing.com.
  14. ^ Moody G (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2.
  15. ^ Dayhoff, M.O.(1966) 단백질 배열 및 구조 지도.국립생물의학연구재단, 215쪽.
  16. ^ Eck RV, Dayhoff MO (April 1966). "Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences". Science. 152 (3720): 363–6. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169. S2CID 23208558.
  17. ^ Johnson G, Wu TT (January 2000). "Kabat database and its applications: 30 years after the first variability plot". Nucleic Acids Research. 28 (1): 214–8. doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229.
  18. ^ Erickson JW, Altman GG (1979). "A Search for Patterns in the Nucleotide Sequence of the MS2 Genome". Journal of Mathematical Biology. 7 (3): 219–230. doi:10.1007/BF00275725. S2CID 85199492.
  19. ^ Shulman MJ, Steinberg CM, Westmoreland N (February 1981). "The coding function of nucleotide sequences can be discerned by statistical analysis". Journal of Theoretical Biology. 88 (3): 409–20. Bibcode:1981JThBi..88..409S. doi:10.1016/0022-5193(81)90274-5. PMID 6456380.
  20. ^ Xiong J (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4 – via Internet Archive.
  21. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, et al. (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828. S2CID 4206886.
  22. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). "GenBank". Nucleic Acids Research. 36 (Database issue): D25-30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
  23. ^ a b c Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, et al. (July 1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
  24. ^ Stein, Lincoln (2001). "Genome annotation: from sequence to biology". Nature. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356. S2CID 12044602.
  25. ^ Erdin S, Lisewski AM, Lichtarge O (April 2011). "Protein function prediction: towards integration of similarity metrics". Current Opinion in Structural Biology. 21 (2): 180–8. doi:10.1016/j.sbi.2011.02.001. PMC 3120633. PMID 21353529.
  26. ^ Carvajal-Rodríguez A (March 2010). "Simulation of genes and genomes forward in time". Current Genomics. 11 (1): 58–61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525.
  27. ^ Brown TA (2002). "Mutation, Repair and Recombination". Genomes (2nd ed.). Manchester (UK): Oxford.
  28. ^ Carter NP, Fiegler H, Piper J (October 2002). "Comparative analysis of comparative genomic hybridization microarray technologies: report of a workshop sponsored by the Wellcome Trust". Cytometry. 49 (2): 43–8. doi:10.1002/cyto.10153. PMID 12357458.
  29. ^ Chaudhari NM, Gupta VK, Dutta C (April 2016). "BPGA- an ultra-fast pan-genome analysis pipeline". Scientific Reports. 6: 24373. Bibcode:2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527.
  30. ^ Aston KI (May 2014). "Genetic susceptibility to male infertility: news from genome-wide association studies". Andrology. 2 (3): 315–21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159. S2CID 206007180.
  31. ^ Véron A, Blein S, Cox DG (2014). "Genome-wide association studies and the clinic: a focus on breast cancer". Biomarkers in Medicine. 8 (2): 287–96. doi:10.2217/bmm.13.121. PMID 24521025.
  32. ^ Tosto G, Reitz C (October 2013). "Genome-wide association studies in Alzheimer's disease: a review". Current Neurology and Neuroscience Reports. 13 (10): 381. doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969.
  33. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). "Use of linkage analysis, genome-wide association studies, and next-generation sequencing in the identification of disease-causing mutations". Pharmacogenomics. Methods in Molecular Biology. Vol. 1015. pp. 127–46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853.
  34. ^ Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, Manolio TA (June 2009). "Potential etiologic and functional implications of genome-wide association loci for human diseases and traits". Proceedings of the National Academy of Sciences of the United States of America. 106 (23): 9362–7. Bibcode:2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294.
  35. ^ Hall LO (2010). "Finding the right genes for disease and prognosis prediction". 2010 International Conference on System Science and Engineering. System Science and Engineering (ICSSE),2010 International Conference. pp. 1–2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2. S2CID 21622726.
  36. ^ Vazquez M, de la Torre V, Valencia A (27 December 2012). "Chapter 14: Cancer genome analysis". PLOS Computational Biology. 8 (12): e1002824. Bibcode:2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. PMC 3531315. PMID 23300415.
  37. ^ Hye-Jung EC, Jaswinder K, Martin K, Samuel AA, Marco AM (2014). "Second-Generation Sequencing for Cancer Genome Analysis". In Dellaire G, Berman JN, Arceci RJ (eds.). Cancer Genomics. Boston (US): Academic Press. pp. 13–30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675.
  38. ^ Grau J, Ben-Gal I, Posch S, Grosse I (July 2006). "VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees". Nucleic Acids Research. 34 (Web Server issue): W529-33. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064.
  39. ^ "The Human Protein Atlas". www.proteinatlas.org. Retrieved 2 October 2017.
  40. ^ "The human cell". www.proteinatlas.org. Retrieved 2 October 2017.
  41. ^ Thul PJ, Åkesson L, Wiking M, Mahdessian D, Geladaki A, Ait Blal H, et al. (May 2017). "A subcellular map of the human proteome". Science. 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876. S2CID 10744558.
  42. ^ Ay F, Noble WS (September 2015). "Analysis methods for studying the 3D architecture of the genome". Genome Biology. 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929.
  43. ^ Hoy JA, Robinson H, Trent JT, Kakar S, Smagghe BJ, Hargrove MS (August 2007). "Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport". Journal of Molecular Biology. 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.
  44. ^ Titz B, Rajagopala SV, Goll J, Häuser R, McKevitt MT, Palzkill T, Uetz P (May 2008). Hall N (ed.). "The binary protein interactome of Treponema pallidum--the syphilis spirochete". PLOS ONE. 3 (5): e2292. Bibcode:2008PLoSO...3.2292T. doi:10.1371/journal.pone.0002292. PMC 2386257. PMID 18509523.
  45. ^ a b "Open Bioinformatics Foundation: About us". Official website. Open Bioinformatics Foundation. Retrieved 10 May 2011.
  46. ^ "Open Bioinformatics Foundation: BOSC". Official website. Open Bioinformatics Foundation. Retrieved 10 May 2011.
  47. ^ Brohée S, Barriot R, Moreau Y (September 2010). "Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases". Bioinformatics. 26 (17): 2210–1. doi:10.1093/bioinformatics/btq348. PMID 20591906.
  48. ^ Nisbet R, Elder IV J, Miner G (2009). "Bioinformatics". Handbook of Statistical Analysis and Data Mining Applications. Academic Press. p. 328. ISBN 978-0080912035.
  49. ^ Office of the Commissioner. "Advancing Regulatory Science – Sept. 24–25, 2014 Public Workshop: Next Generation Sequencing Standards". www.fda.gov. Retrieved 30 November 2017.
  50. ^ Simonyan V, Goecks J, Mazumder R (2017). "Biocompute Objects-A Step towards Evaluation and Validation of Biomedical Scientific Computations". PDA Journal of Pharmaceutical Science and Technology. 71 (2): 136–146. doi:10.5731/pdajpst.2016.006734. PMC 5510742. PMID 27974626.
  51. ^ Office of the Commissioner. "Advancing Regulatory Science – Community-based development of HTS standards for validating data and computation and encouraging interoperability". www.fda.gov. Retrieved 30 November 2017.
  52. ^ Alterovitz G, Dean D, Goble C, Crusoe MR, Soiland-Reyes S, Bell A, et al. (December 2018). "Enabling precision medicine via standard communication of HTS provenance, analysis, and results". PLOS Biology. 16 (12): e3000099. doi:10.1371/journal.pbio.3000099. PMC 6338479. PMID 30596645.
  53. ^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, 3 September 2017
  54. ^ Barker D, Ferrier DE, Holland PW, Mitchell JB, Plaisier H, Ritchie MG, Smart SD (August 2013). "4273π: bioinformatics education on low cost ARM hardware". BMC Bioinformatics. 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194.
  55. ^ Barker D, Alderson RG, McDonagh JL, Plaisier H, Comrie MM, Duncan L, et al. (2015). "University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school". International Journal of STEM Education. 2 (17). doi:10.1186/s40594-015-0030-z.
  56. ^ McDonagh JL, Barker D, Alderson RG (2016). "Bringing computational science to the public". SpringerPlus. 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868.
  57. ^ Robson JF, Barker D (October 2015). "Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer". BMC Research Notes. 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790.
  58. ^ Wreggelsworth KM, Barker D (October 2015). "A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1". BMC Research Notes. 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441.

추가 정보

외부 링크

기사 듣기(37분)
Spoken Wikipedia icon
이 오디오 파일은 2013년 9월 20일(2013-09-20) 본 문서의 개정판에서 작성되었으며 이후 편집 내용은 반영되지 않습니다.