This article has been published in the peer-reviewed journal WikiJournal of Science (2021). Click to view the published version.

RNA-Seq

RNA-Seq
RNA-Seq의 요약.생물 내에서 유전자는 전사되고 (진핵생물에서) 결합되어 성숙한 mRNA 전사물(빨간색)을 생성한다.mRNA는 유기체에서 추출되어 파편화되어 안정적인 ds-cDNA(파란색)로 복사된다.ds-cDNA는 높은 throughput의 짧은 읽기 시퀀싱 방법을 사용하여 시퀀싱됩니다.그런 다음 이러한 염기서열을 참조 게놈 염기서열과 정렬하여 전사된 게놈 영역을 재구성할 수 있습니다.이 데이터는 발현된 유전자의 위치, 상대적 발현 수준 및 대체 스플라이스 [1]변형에 주석을 달기 위해 사용될 수 있다.

RNA-Seq(RNA-Seq)는 차세대 염기서열결정(NGS)을 이용해 생체시료에서 RNA의 존재와 양을 특정 순간에 밝혀 지속적으로 변화하는 세포전사체[2][3]분석하는 염기서열결정 기술이다.

특히 RNA-Seq는 대체 유전자 스플라이스 전사, 전사수정, 유전자 융합, 돌연변이/SNP 및 시간에 따른 유전자 발현 변화 또는 다른 그룹 또는 [4]치료법에서의 유전자 발현 차이를 볼 수 있는 능력을 촉진한다.mRNA 전사 외에도 RNA-Seq는 총 RNA, miRNA, tRNA 리보솜 [5]프로파일링과 같은 작은 RNA를 포함하기 위해 다양한 RNA 집단을 볼 수 있습니다.RNA-Seq는 또한 exon/intron 경계를 결정하고 이전에 주석이 달린 5'3' 유전자 경계를 확인 또는 수정하는 데 사용될 수 있다.최근 RNA-Seq의 발전에는 단일 세포 배열, 고정 조직의 위치 배열, 단일 분자 실시간 [6]배열에 의한 자연 RNA 분자 배열 배열이 포함됩니다.생체정보학 알고리즘의 발전으로 인해 새롭게 등장한 RNA-Seq 응용의 다른 예로는 복사 번호 변경, 미생물 오염, 전이성 요소, 세포 유형(디콘볼루션), 네오안티겐의 [7]존재 등이 있다.

RNA-Seq 이전에 유전자 발현 연구는 하이브리드화 기반 마이크로어레이로 수행되었다.마이크로어레이의 문제에는 교잡 교잡 아티팩트, 저발현 및 고발현 유전자의 저량화, 그리고 [8]서열을 사전에 알 필요가 있다.이러한 기술적 문제로 인해, 문자 변환학은 시퀀싱 기반 방식으로 전환되었습니다.는 발현 배열 태그 라이브러리생어 배열 배열에서 화학적 태그 기반 방법(예: 유전자 발현 직렬 분석), 그리고 마지막으로 현재 기술, 특히 RNA-Seq의 차세대 배열 배열로 발전했다.

방법들

라이브러리 준비

일반적인 RNA-Seq 실험 워크플로우.RNA는 여러 검체로부터 격리되어 cDNA 라이브러리로 변환되고, 컴퓨터가 읽을 수 있는 형식으로 시퀀싱되고, 참조에 맞춰 정렬되며, 미분 표현 및 대체 스플라이싱과 같은 다운스트림 분석을 위해 정량화됩니다.일반적인 RNA-Seq 실험 [9]워크플로우의 개요.

시퀀싱을 위해 cDNA 라이브러리를 준비하는 일반적인 절차는 다음과 같습니다.단,[9][3][10] 플랫폼마다 다릅니다.

  1. RNA 분리: RNA는 조직에서 분리되고 디옥시리보핵산가수분해효소(DNase)와 혼합됩니다.DNase는 게놈 DNA의 양을 감소시킨다.RNA 분해량은 겔 및 모세관 전기영동으로 확인하고 샘플에 RNA 무결성 번호를 할당하는 데 사용됩니다.이 RNA 품질과 시작 RNA의 총량은 이후 라이브러리 준비, 시퀀스 지정 및 분석 단계에서 고려됩니다.
  2. RNA 선택/부족:관심 신호를 분석하기 위해, 분리된 RNA를 그대로 유지할 수 있으며, mRNA만을 포함하도록 3' 폴리아데닐화(poly(A) 꼬리가 있는 RNA에 대해서는 여과되고, 리보솜 RNA(RNA)가 고갈되며, 특정 염기서열을 결합하는 RNA에 대해서는 여과된다(아래의 RNA 선택고갈 방법 표).3' 폴리(A) 꼬리를 가진 RNA는 주로 성숙하고 가공된 코드 배열로 구성됩니다.폴리(A) 선택은 RNA와 기판(일반적으로 자기 비즈)[11][12]에 공유 결합되어 있는 폴리(T) 올리고머를 혼합함으로써 이루어진다.폴리(A) 선택에는 RNA 생체형 검출에 중요한 한계가 있습니다.많은 비코드 RNA 및 히스톤 코어 단백질 전사체를 포함한 많은 RNA 생물형은 폴리아데닐화되지 않거나 폴리(A) 꼬리 길이(예를 들어 사이토카인)를 통해 조절되므로 폴리(A) 선택 [13]후 검출되지 않을 수 있다.또한 폴리(A) 선택은 특히 저품질 [14][15]RNA에서 3' 바이어스를 증가시킬 수 있다.이러한 제한은 세포 내 RNA의 90% 이상을 차지하는 rRNA를 제거함으로써 리보솜 고갈로 피할 수 있다.폴리(A) 농축 및 리보솜 고갈 단계는 모두 노동 집약적이고 편견을 유발할 수 있으므로 이러한 [16]단계를 생략하기 위해 보다 간단한 접근법이 개발되었습니다.miRNA와 같은 작은 RNA 표적은 제외 젤, 마그네틱 비즈 또는 상용 키트를 사용하여 크기 선택을 통해 더욱 분리될 수 있습니다.
  3. cDNA 합성: RNA는 DNA가 더 안정적이고 (DNA 중합효소를 사용하여) 증폭을 허용하고 더 성숙한 DNA 배열 기술을 활용하기 때문에 cDNA로 역전사됩니다.역전사 후의 증폭은 고립성의 상실을 초래하며, 이는 화학적 라벨링 또는 단일 분자 시퀀싱으로 피할 수 있다.시퀀스 기계에 적합한 길이의 시퀀스를 정화하기 위해 단편화 및 크기 선택이 수행됩니다.RNA, cDNA 또는 둘 다 효소, 초음파 처리 또는 분무기로 조각화됩니다.RNA의 단편화는 무작위 프라이밍 역전사의 5' 편향과 프라이머 결합 [12]부위의 영향을 감소시키며, 단점은 5' 및 3' 말단이 DNA로 덜 효율적으로 변환된다는 것이다.플래그멘테이션 후 크기 선택이 이루어집니다.여기서 작은 시퀀스는 삭제되거나 시퀀스 길이의 엄격한 범위가 선택됩니다.miRNA와 같은 작은 RNA는 손실되기 때문에 독립적으로 분석됩니다.각 실험에 대한 cDNA는 헥사머 또는 옥타머 바코드를 사용하여 인덱싱할 수 있으므로 이러한 실험은 다중 시퀀싱을 위해 단일 레인으로 풀링될 수 있다.
RNA 선택 및 고갈 방법:[9]
전략. 우세한 유형의 RNA 리보솜RNA함유량 미처리 RNA 함량 격리법
총 RNA 모든. 높은 높은 없음.
PolyA 선택 코딩 낮다 낮다 폴리(dT) 올리고머와의 교배
rRNA 고갈 코딩, 비코딩 낮다 높은 rRNA에 상보적인 올리고머 제거
RNA포착 대상 낮다 적당한. 원하는 스크립트를 보완하는 프로브를 사용한 하이브리드화

상보적 DNA배열결정(cDNA-Seq)

그런 다음 RNA 생체형에서 파생된 cDNA 라이브러리는 컴퓨터가 읽을 수 있는 형식으로 시퀀싱됩니다.cDNA 시퀀싱에는 Illumina, Thermo Fisher, BGI/MGI, PacBio,[17] Oxford Nanopore Technologies가 개발한 플랫폼을 비롯한 많은 하이 스루풋 시퀀싱 기술이 있습니다.cDNA 배열의 공통 기술인 Illumina 단독 배열은 cDNA에 어댑터를 결합하고 플로우 셀에 DNA를 부착하고 브리지 증폭 및 변성 사이클을 통해 클러스터를 생성하고 가역성 스트랜드 합성 및 레이저 들뜸 베이스의 상보적 스트랜드 합성 및 레이저 들뜸 사이클에 따라 시퀀스 바이 합성을 실시한다.터미네이터.플랫폼 선택과 파라미터의 시퀀싱은 실험 설계와 비용에 따라 결정됩니다.일반적인 실험 설계 고려 사항으로는 시퀀스 길이, 시퀀스 깊이, 단일 엔드 시퀀싱과 쌍단 엔드 시퀀싱의 사용, 반복실험 횟수, 다중화, 랜덤화 [18]및 스파이크인이 포함됩니다.

소형 RNA/비부호화 RNA 시퀀스 처리

mRNA 이외의 RNA를 시퀀싱할 때 라이브러리 준비가 수정됩니다.원하는 크기 범위에 따라 세포 RNA가 선택됩니다.miRNA와 같은 작은 RNA 표적의 경우 크기 선택을 통해 RNA가 분리됩니다.이 작업은 크기 제외 젤, 크기 선택 마그네틱 비즈 또는 상업적으로 개발된 키트를 사용하여 수행할 수 있습니다.분리한 링커는 3'와 5' 끝에 첨가한 후 정제한다.마지막 단계는 역전사를 통한 cDNA 생성입니다.

직접 RNA순서결정

RNASeqPics1.jpg

왜냐하면 cDNA, 결찰, 증폭, 및 기타 표본 조작에 RNA변환하는 transcripts,[19]단일 분자 직접 RNA 염기 서열을 모두 적절한 특성화하고 계량 Helicos(파산), 옥스퍼드 Nanopore을 포함한 삼성에 의해서 탐구되어 왔다에 방해가 될지도 편견과 유물을 소개하는 것으로 나타났다.여타hnologies [20]이 기술은 RNA 분자를 대규모 병렬 방식으로 직접 배열합니다.

단일 분자 실시간 RNA 시퀀스 처리

대규모 병렬 단일 분자 직접 RNA-Seq는 기존 RNA-Seq의 대안으로 연구되었으며, RNA-to-cDNA 변환, 결찰, 증폭 및 기타 샘플 조작 단계가 편향과 [21]아티팩트를 도입할 수 있습니다.단일분자 실시간 RNA-Seq를 실행하는 기술 플랫폼은 옥스퍼드 나노포어 테크놀로지스(ONT) 나노포어 시퀀싱,[20] 팩바이오 IsoSeq, 헬리코스(파손) 이다.RNA를 고유 형태로 배열하면 메틸화와 같은 변형을 보존하여 직접 그리고 [20]동시에 조사할 수 있습니다.단분자 RNA-Seq의 또 다른 장점은 전사물이 전체 길이로 커버될 수 있어 짧은 판독 시퀀싱에 비해 높은 신뢰도의 Isoform 검출 및 정량화를 가능하게 한다는 것이다.전통적으로 단분자 RNA-Seq 방법은 단독 시퀀싱에 비해 오류율이 높지만, ONT와 같은 새로운 방법은 단편화 및 cDNA 변환을 방지하여 오류를 제한한다.인간 세포 집단에서 분화 발현을 위해 최근 ONT 직접 RNA-Seq의 사용은 이 기술이 짧고 긴 cDNA [22]배열의 많은 한계를 극복할 수 있다는 것을 보여주었다.

단세포 RNA순서결정(scRNA-Seq)

마이크로어레이 및 표준 벌크 RNA-Seq 분석과 같은 표준 방법은 많은 세포 집단에서 RNA의 발현을 분석합니다.혼합 세포 집단에서 이러한 측정은 이러한 집단 [23][24]내 개별 세포 간의 중요한 차이를 모호하게 할 수 있다.

단세포 RNA 배열 분석(scRNA-Seq)은 개별 세포의 발현 프로파일을 제공합니다.각 세포에서 발현되는 모든 RNA에 대한 완전한 정보를 얻는 것은 불가능하지만, 이용 가능한 물질의 양이 적기 때문에 유전자 클러스터링 분석을 통해 유전자 발현 패턴을 파악할 수 있다.이것은 이전에는 볼 수 없었던 세포 집단 내 희귀 세포 유형의 존재를 밝혀낼 수 있다.예를 들어, 2018년 폐 기도 [25][26]상피에서 scRNA-Seq를 수행하는 두 그룹에 의해 낭포성 섬유화 경막 전도도 조절기를 발현하는 폐이온구라는 희귀 전문 세포가 확인되었다.

실험 절차

일반적인 단세포 RNA-Seq 워크플로우.단일 세포는 샘플에서 웰 또는 물방울로 분리되고 cDNA 라이브러리가 생성 및 증폭되며 라이브러리가 배열되며 세포 유형 식별과 같은 다운스트림 분석을 위해 발현 행렬이 생성됩니다.

현재 scRNA-Seq 프로토콜은 단일 세포와 RNA의 분리, 역전사(RT), 증폭, 라이브러리 생성 및 시퀀싱과 같은 단계를 포함합니다.단일 셀은 기계적으로 마이크로웰(예: BD Rhapsody, Takara ICELL8, Vycap Puncher Platform 또는 Cell Microsystems CellWraft)로 분리되거나 물방울(예: 10x Genomics Chromium, Illlllumina Bio-Rad DdSEQ, 1Cell)에 캡슐화된다.단일 세포는 바코드가 있는 올리고뉴클레오티드를 첨가하여 라벨링됩니다; 세포와 구슬 모두 제한된 양으로 공급되어 여러 세포와 구슬과의 공존은 매우 드문 일입니다.일단 역전사가 완료되면, 많은 세포들의 cDNA를 함께 섞어서 시퀀싱할 수 있습니다. 특정 세포들의 전사는 각 세포들의 고유한 [28][29]바코드에 의해 식별됩니다.라이브러리 [30]준비 중에 아티팩트를 식별하기 위해 고유 분자 식별자(UMI)를 mRNA/cDNA 표적 시퀀스에 부착할 수 있습니다.

scRNA-Seq의 과제에는 세포 내 mRNA의 초기 상대적 풍부성 보존과 희귀 [31]전사체 식별이 포함된다.역전사 단계는 RT 반응의 효율성에 따라 세포 RNA 집단의 얼마가 시퀀서에 의해 최종적으로 분석될지가 결정되기 때문에 매우 중요합니다.역전사효소의 처리성과 사용된 프라이밍 전략은 유전자의 3' 또는 5' 말단에 치우친 전장 cDNA 생산과 라이브러리 생성에 영향을 미칠 수 있다.

증폭 단계에서는 현재 cDNA를 증폭하기 위해 PCR 또는 시험관내 전사(IVT) 중 하나를 사용한다.PCR 기반의 방법의 장점 중 하나는 풀렝스 cDNA를 생성할 수 있다는 것입니다.그러나 특정 시퀀스(예를 들어 GC 콘텐츠 및 스냅백 구조)의 다른 PCR 효율도 기하급수적으로 증폭되어 커버리지가 고르지 않은 라이브러리를 생성할 수 있습니다.한편 IVT에 의해 생성된 라이브러리는 PCR에 의해 유도되는 배열편향을 회피할 수 있지만 특정 배열은 비효율적으로 전사되어 배열 드롭아웃 또는 불완전한 배열이 [32][23]생성될 수 있다.몇 가지 scRNA-Seq 프로토콜이 공개되었습니다.Tang 등,[33] STRT,[34] SMART-seq,[35] CEL-seq,[36] RAGE-seq,[37] Quartz-seq[38] 및 C1-CAGE.[39]이러한 프로토콜은 역전사, cDNA 합성 및 증폭을 위한 전략, 시퀀스별 바코드(예: UMI) 수용 가능성 또는 풀링 [40]샘플 처리 능력 측면에서 다르다.

2017년에는 REAP-seq와 [41][42]CITE-seq로 알려진 올리고뉴클레오티드 표지 항체를 통해 단세포 mRNA와 단백질 발현을 동시에 측정하는 두 가지 접근법이 도입되었다.

적용들

scRNA-Seq는 발달, 신경학,[43] 종양학,[44][45][46] 자가면역질환,[47][48] 감염질환을 포함한 생물학적 분야에서 널리 사용되고 있습니다.

scRNA-Seq는 지렁이 Caenorhabditis [49]Elegans와 재생성 평탄동물 Schmittea mediteranea를 포함한 [50][51]배아와 유기체의 발달에 대한 상당한 통찰력을 제공했습니다.이런 방식으로 지도를 만든 최초의 척추동물은 제브라피쉬[52][53] 제노푸스 [54]라에비스였다.각각의 경우에 배아의 여러 단계를 연구하여 전체 발달 과정을 세포별로 [9]매핑할 수 있게 했다.과학계는 이러한 진보를 2018년 올해[55]돌파구로 인정했습니다.

실험상의 고려 사항

RNA-Seq 실험을 설계 및 수행할 때는 다음과 같은 다양한 매개변수가 고려됩니다.

  • 조직 특이성:유전자 발현은 조직 내 및 조직 간에 다양하며 RNA-Seq는 이러한 세포 유형의 혼합을 측정합니다.이것은 관심 있는 생물학적 메커니즘을 분리하는 것을 어렵게 할 수 있다.단일시퀀싱을 사용하여 각 셀을 개별적으로 조사할 수 있으므로 이 문제를 줄일 수 있습니다.
  • 시간 의존:유전자 발현은 시간이 지남에 따라 변화하고 RNA-Seq는 스냅샷만 찍습니다.시간 과정 실험을 수행하여 트랜스크립텀의 변화를 관찰할 수 있습니다.
  • 적용 범위(깊이라고도 함):RNA는 DNA에서 관찰된 것과 동일한 돌연변이를 가지고 있으며, 검출에는 더 깊은 커버리지가 필요하다.충분히 높은 커버리지로 RNA-Seq를 사용하여 각 대립 유전자의 발현을 추정할 수 있습니다.이것은 각인 또는 시스 조절 효과와 같은 현상에 대한 통찰력을 제공할 수 있다.특정 애플리케이션에 필요한 시퀀스의 깊이는 파일럿 실험을 [56]통해 추정할 수 있습니다.
  • 데이터 생성 아티팩트(기술 분산이라고도 함):시약(예: 라이브러리 준비 키트), 관련 직원 및 시퀀서 유형(예: Illumina, Pacific Biosciences)은 의미 있는 결과로 잘못 해석될 수 있는 기술적 아티팩트를 초래할 수 있습니다.모든 과학 실험과 마찬가지로 RNA-Seq는 잘 제어된 환경에서 수행하는 것이 현명합니다.이것이 불가능하거나 연구가 메타 분석인 경우, 또 다른 해결책은 잠재 변수(일반적으로 주성분 분석 또는 인자 분석)를 추론하고 이러한 [57]변수를 나중에 수정하여 기술적 아티팩트를 탐지하는 것입니다.
  • 데이터 관리: 인간을 대상으로 한 단일 RNA-Seq 실험은 보통 1~5Gb(압축) 또는 중간 파일을 [58]포함할 경우 그 이상입니다.이렇게 많은 양의 데이터는 스토리지 문제를 일으킬 수 있습니다.하나의 솔루션은 다목적 계산 스키마(gzip 등) 또는 게놈 고유의 스키마를 사용하여 데이터를 압축하는 입니다.후자는 참조 시퀀스 또는 de novo에 기초할 수 있다.또 다른 솔루션은 마이크로 어레이 실험을 수행하는 것입니다.이러한 실험은 (탐구적 연구와 달리) 가설 주도 작업이나 복제 연구에 충분할 수 있습니다.

분석.

표준 RNA-Seq 분석 워크플로우입니다.배열된 판독은 기준 게놈 및/또는 트랜스크립트롬에 정렬되고 다양한 품질관리, 발견 및 가설에 기초한 분석을 위해 처리된다.

전사체 어셈블리

원시 시퀀스 판독을 게놈 형상에 할당하기 위해 두 가지 방법이 사용된다(즉, 전사체 조립).

  • 신규 개발:이 접근법은 트랜스크립텀을 재구성하기 위해 참조 게놈을 필요로 하지 않으며,[59] 일반적으로 게놈이 알려지지 않았거나 불완전하거나 참조에 비해 상당히 변경된 경우에 사용됩니다.de novo 어셈블리에 짧은 판독치를 사용할 때의 과제에는 1) 연속된 시퀀스(콘티그)에 결합해야 할 판독치를 결정하는 것, 2) 오류 및 기타 아티팩트에 대한 견고성, 3) 계산 효율이 포함됩니다.de novo 어셈블리에 사용되는 주요 알고리즘은 읽기 간의 모든 쌍 중첩을 식별하는 오버랩 그래프에서 읽기를 길이 k의 시퀀스로 분할하고 모든 k-mer를 해시 [60]테이블로 축소하는 de Bruijn 그래프로 전환됩니다.중첩 그래프는 Sanger 시퀀싱에 사용되었지만 RNA-Seq에서 생성된 수백만 개의 판독치에는 잘 확장되지 않습니다.de Bruijn 그래프를 사용하는 어셈블러의 예로는 [59]Trinity[61], Oases([64]게놈 어셈블러[62] 벨벳에서 파생됨),[63] Bridger 및 rnaSPades가 있습니다.동일한 샘플의 페어링 엔드 및 롱 리드 시퀀스는 템플릿 또는 스켈레톤 역할을 함으로써 짧은 리드 시퀀싱의 결손을 완화할 수 있습니다.de novo 어셈블리의 품질을 평가하기 위한 지표에는 중위수 콘티그 길이, 콘티그 수 및 [65]N50이 포함됩니다.
RNA-Seq 정렬과 인트론 분할 짧은 판독.mRNA 배열과 참조 게놈에 대한 짧은 판독의 정렬.정렬 소프트웨어는 exon-exon 접합부(빨간색)와 겹치는 짧은 판독치를 고려해야 하며, 따라서 사전 mRNA 및 참조 게놈의 전자 섹션을 건너뜁니다.
  • 게놈 가이드:이 접근법은 DNA 정렬에 사용되는 방법과 동일한 방법에 의존하며, 참조 [66]게놈의 비연속적인 부분을 포함하는 정렬 판독의 복잡성이 더해진다.이러한 비연속 판독은 스플라이스된 스크립트의 시퀀스의 결과입니다(그림 참조).일반적으로 정렬 알고리즘에는 두 가지 단계가 있습니다. 1) 판독치의 짧은 부분(즉, 게놈 시드)을 정렬하는 것과 2) 동적 프로그래밍을 사용하여 최적의 정렬을 찾는 것, 때로는 알려진 주석과 조합하는 것입니다.게놈 가이드 얼라인먼트를 사용하는 소프트웨어 툴에는 Bowtie,[67] TopHat(스플라이스 [68][69]접합을 정렬하기 위해 BowTie 결과를 기반으로 구축됨), [70]Subread,[66] STAR, HISAT2,[71] GMAP [72]등이 있습니다.게놈 유도 정렬(매핑) 도구의 출력은 커프링크[69] 또는[73] StringTie와 같은 도구를 사용하여 연속된 전사 시퀀스(예: FASTA 파일)를 재구성할 수 있습니다.게놈 유도 어셈블리의 품질은 1) de novo 어셈블리 메트릭(예: N50)과 2) 정밀도, 회수 또는 이들의 조합(예: F1 점수)[65]을 사용하여 알려진 전사물, 스플라이스 접합부, 게놈 및 단백질 염기서열에 대한 비교로 측정할 수 있다.또한 in silico 평가는 시뮬레이션된 [74][75]판독치를 사용하여 수행할 수 있습니다.

조립품질에 관한 주의사항:현재의 합의는 1) 어떤 측정 기준을 사용하느냐에 따라 조립 품질이 달라질 수 있고 2) 한 종에서 좋은 점수를 받은 조립 도구가 다른 종에서 반드시 잘 수행되지는 않으며 3) 다른 접근 방식을 조합하는 것이 가장 신뢰할 [76][77][78]수 있다는 것이다.

유전자 발현 정량

발현은 외부 자극에 대한 반응으로 세포 변화, 건강 상태와 질병 상태 간의 차이 및 기타 연구 질문을 연구하기 위해 정량화된다.전사 수준은 종종 단백질 풍부성의 대용물로 사용되지만 RNA 간섭 및 난센스 매개 [79]붕괴와 같은 전사 후 사건으로 인해 동일하지 않은 경우가 많다.

표현은 트랜스크립트롬 조립공정에서 각 궤적에 매핑된 읽기 수를 카운트함으로써 정량화된다.콘티그 또는 참조 전사 [9]주석을 사용하여 엑손 또는 유전자에 대해 발현을 정량화할 수 있습니다.관찰된 RNA-Seq 판독 카운트는 발현 마이크로어레이 및 [56][80]qPCR을 포함한 이전 기술에 대해 강력하게 검증되었습니다.카운트를 정량화하는 도구는 HTSeq,[81] FeatureCounts,[82] Rcounts,[83] maxcounts,[84] FIXSEQ [85]및 커프퀀트입니다.이러한 도구는 정렬된 RNA-Seq 데이터에서 읽기 카운트를 결정하지만 정렬되지 않은 카운트는 Sailfish 및 Kallisto를 [87]사용하여[86] 얻을 수도 있습니다.그런 다음 판독 카운트는 가설 테스트, 회귀 및 기타 분석을 위한 적절한 메트릭으로 변환됩니다.이 변환의 파라미터는 다음과 같습니다.

  • 시퀀싱 깊이/범위:깊이는 여러 RNA-Seq 실험을 수행할 때 미리 지정되지만 여전히 [88]실험마다 크게 다릅니다.따라서 한 번의 실험에서 생성되는 총 읽기 수는 일반적으로 카운트를 fragment, reads 또는 count per million mapped reads(FPM, RPM 또는 CPM)로 변환함으로써 정규화됩니다.RPM과 FPM의 차이는 단편의 싱글 엔드 시퀀싱에서 페어 엔드 시퀀싱으로 발전하는 과정에서 도출되었습니다.싱글 엔드 시퀀싱에서는 단편당 하나의 읽기(즉, RPM = FPM)만 있습니다.페어 엔드 시퀀싱에서는 단편당 2개의 판독치(즉, RPM = 2 x FPM)가 있습니다. 시퀀싱 깊이를 라이브러리 크기, 즉 실험에서 중간 cDNA 분자의 수라고 부르기도 합니다.
  • 유전자 길이: 전사 발현이 같으면 긴 유전자는 짧은 유전자보다 더 많은 조각/읽기/계수를 가질 것입니다.이것은 형상( 있는 유전자, 내신, 또는 exon)의 길이에 의해 형상의 킬로 베이스당 만 mapped에 미터 법 단편적으로 결과를 읽는다(FPKM)[89] 때 기능의 샘플을 가로질러 그룹을 보면서 FPKM 만(TPM)에 성적 증명서에 FPKMs 재치의 합에 의해 각 FPKM을 분리 함으로써 바뀌는 FPM을 분리 함으로써 조정된다.힌견본품[90][91][92]
  • 총 샘플 RNA 출력:각 샘플에서 동일한 양의 RNA가 추출되기 때문에 총 RNA가 더 많은 샘플은 유전자당 RNA가 더 적을 것입니다.이러한 유전자들은 발현을 감소시킨 것으로 보이며, 결과적으로 [88]하류 분석에서 잘못된 양성이 나타난다.분위수, DESeq2, TMM 및 중위수 비율을 포함한 정규화 전략에서는 표본 간의 비차분 발현 유전자 세트를 비교하고 그에 [93]따라 스케일링함으로써 이러한 차이를 설명하려고 시도한다.
  • 각 유전자의 발현에 대한 분산: 표본오차(판독 카운트가 낮은 유전자에 중요)를 설명하도록 모델링되고, 힘을 증가시키며, 잘못된 양성을 감소시킵니다.분산은 정규, 포아송 또는 음의 이항[94][95][96] 분포로 추정할 수 있으며 종종 기술적 및 생물학적 분산으로 분해됩니다.

게놈 전체의 효과의 절대 정량화와 검출을 위한 스파이크인

RNA 스파이크인은 알려진 농도의 RNA 샘플로 실험 설계 및 게놈 전체 효과의 절대 정량화 및 검출을 위한 다운스트림 분석에서 금 표준으로 사용될 수 있습니다.

  • 절대 수량:유전자 발현의 절대 정량화는 모든 전사물에 상대적인 발현을 정량화하는 대부분의 RNA-Seq 실험에서는 불가능하다.이는 알려진 농도의 RNA 검체인 스파이크인을 사용하여 RNA-Seq를 수행함으로써 가능합니다.시퀀싱 후 스파이크인 시퀀스의 판독 카운트는 각 유전자의 판독 카운트와 생물학적 조각의[12][97] 절대량 사이의 관계를 결정하기 위해 사용됩니다. 하나의 예에서, 이 기술은 전사 동력을 [98]결정하기 위해 Xenopus tropicalis 배아에서 사용되었습니다.
  • 게놈 전체의 영향 검출:염색질 리모델링제, 전사인자(예를 들어 MYC), 아세틸전달효소복합체 및 뉴클레오솜 포지셔닝 등을 포함한 글로벌 조절인자의 변화는 정규화 가정과 일치하지 않으며 스파이크인 제어는 [99][100]정확한 해석을 제공할 수 있다.

미분식

RNA-Seq의 가장 단순하지만 종종 가장 강력한 사용은 두 가지 이상의 조건(예: 치료된 상태와 치료되지 않은 상태) 사이의 유전자 발현 차이를 찾는 것이다. 이 과정을 미분 발현이라고 한다.산출물은 종종 차등 표현 유전자(DEG)로 언급되며, 이러한 유전자는 업 또는 다운 조절될 수 있다(즉, 관심 조건에서 더 높거나 더 낮음).미분식을 수행하는 도구는 많이 있습니다.대부분은 R, Python 또는 Unix 명령줄에서 실행됩니다.일반적으로 사용되는 툴에는 DESeq,[95] edgeR,[96] voom+lima [94][101]등이 있으며, 이들 모든 툴은 R/Bioconductor[102][103]통해 이용할 수 있습니다.미분식을 실행할 때 일반적으로 고려해야 할 사항은 다음과 같습니다.

  • 입력: 차분 발현 입력은 (1) RNA-Seq 발현 매트릭스(M유전자 x N샘플) 및 (2) N샘플에 대한 실험 조건을 포함한 설계 매트릭스를 포함한다.가장 단순한 설계 행렬에는 검정할 조건에 대한 레이블에 해당하는 하나의 열이 포함됩니다.다른 공변량(인자, 특징, 라벨 또는 매개 변수라고도 함)에는 배치 효과, 알려진 아티팩트 및 유전자 발현을 혼동하거나 매개할 수 있는 메타데이터가 포함될 수 있습니다.알려진 공변량 외에도, 알려지지 않은 공변량은 주성분, 대리 [104]변수 및[57] PEER 분석을 포함감독되지 않은 기계 학습 접근방식을 통해 추정될 수 있다.숨겨진 변수 분석은 인체 조직 RNA-Seq 데이터에 종종 사용된다. 일반적으로 메타데이터에 캡처되지 않은 추가적인 아티팩트가 있다(예: 허혈 시간, 여러 기관의 소싱, 기본 임상 특성, 많은 인력과 함께 수년간 데이터 수집).
  • 방법:대부분의 도구는 회귀 또는 비모수 통계사용하여 차등 발현 유전자를 식별하며, 기준 게놈에 매핑된 읽기 수(DESeq2, lima, edgeR) 또는 정렬 없는 정량화(sleuth,[105] Curpdiff,[106] Ballgown[107])[108]에서 파생된 읽기 수(read count)를 기반으로 합니다.회귀에 따라 대부분의 도구는 다중 가설을 설명하기 위해 가족별 오류율(FWER) 또는 거짓 발견율(FDR) p-값 조정을 사용한다(인간 연구에서 약 20,000개의 단백질 코드화 유전자 또는 약 50,000개의 생체형).
  • 출력:전형적인 출력은 유전자 수에 대응하는 행과 적어도 3개의 컬럼으로 구성되며, 각 유전자의 로그폴드 변화(조건 간 비율의 로그 변환, 효과 크기 측정), p-값 및 다중 비교를 위해 조정된 p-값으로 구성된다.유전자는 효과 크기(로그 폴드 변화)와 통계적 유의성에 대한 컷오프를 통과하면 생물학적으로 의미가 있는 것으로 정의된다.이러한 컷오프는 이상적으로는 선험적으로 명시되어야 하지만 RNA-Seq 실험의 성격은 종종 탐색적이어서 효과 크기와 관련 컷오프를 미리 예측하기가 어렵다.
  • 함정:이러한 복잡한 방법에 대한 근거는 통계 오류와 잘못된 해석을 초래할 수 있는 무수한 함정을 피하는 것이다.함정에는 잘못된 양성 비율 증가(복수 비교로 인한), 검체 준비 아티팩트, 검체 이질성(혼합 유전자 배경과 같은), 상관성이 높은 검체, 다단계 실험 설계 미설명 및 열악한 실험 설계가 포함된다.주목할 만한 함정 중 하나는 Import 기능을 사용하지 않고 Microsoft Excel에서 결과를 보고 유전자 이름이 [109]텍스트로 유지되도록 하는 것입니다.Excel은 편리하지만 일부 유전자 이름(SEPT1, DEC1, MARH2)을 날짜 또는 부동소수점 숫자로 자동 변환합니다.
  • 툴 및 벤치마크 선택 가능:DESeq2가 다른 [110][111][112][113][18][108][114][115]방법을 중간 정도 능가하는 경향을 보이면서 이러한 툴의 결과를 비교하기 위한 수많은 노력이 있습니다.다른 방법과 마찬가지로 벤치마킹은 도구 산출물을 서로 비교하고 알려진 금본위제로 구성됩니다.

다른 발현 유전자의 리스트에 대한 하류 분석은 두 가지 맛, 즉 관찰을 검증하고 생물학적 추론을 만든다.미분 발현과 RNA-Seq의 함정으로 인해, 중요한 관찰은 (1) 동일한 샘플(실시간 PCR과 같은)의 직교 방법 또는 (2) 새로운 코호트에서 다른, 때로는 사전 등록된 실험으로 복제된다.후자는 일반화 가능성을 보장하는 데 도움이 되며 일반적으로 모든 풀링된 코호트의 메타 분석을 통해 후속 조치를 취할 수 있습니다.결과에 대한 보다 높은 수준의 생물학적 이해를 얻는 가장 일반적인 방법은 유전자 세트 농축 분석이지만, 때로는 후보 유전자 접근법이 사용된다.유전자 세트 농축은 두 유전자 세트 간의 중첩이 통계적으로 유의한지 여부를 결정한다. 이 경우, 차등 발현된 유전자와 알려진 경로/데이터베이스(: Gene Ontology, KEGG, Human Photype Ontology) 또는 동일한 데이터(예: 공동 발현 네트워크)의 상호 보완 분석에서 중복된다.유전자 세트를 풍부하게 하기 위한 일반적인 도구에는 웹 인터페이스(예: RUMPHR, g:profiler, WEBGESTALT)[116]와 소프트웨어 패키지가 포함된다.농축 결과를 평가할 때, 한 가지 휴리스틱은 우선 건전성 검사로 알려진 생물학의 농축에 주목한 후 새로운 생물학을 찾기 위해 범위를 넓히는 것이다.

대체 RNA 스플라이싱 모드의 예.엑손은 청색 및 황색 블록, 스플라이스된 인트론은 2개의 엑손을 연결하는 수평 검은색 선, 엑손-엑손 접합부는 2개의 엑손 사이의 얇은 회색 연결 선으로 표시됩니다.

대체 스플라이싱

RNA 스플라이싱은 진핵생물에 필수적이며 단백질 조절과 다양성에 크게 기여하며, 인간 [117]유전자의 90% 이상에서 발생한다.여러 가지 대체 스플라이싱 모드가 있다: 엑손 건너뛰기(인간 및 고등 진핵생물에서 가장 일반적인 스플라이싱 모드), 상호 배타적인 엑손, 대체 공여체 또는 수용체 부위, 인트론 유지(식물, 곰팡이 및 원생동물에서 가장 일반적인 스플라이싱 모드), 대체 전사 시작 부위(촉진제), 대체 폴리아데닐화.[117]RNA-Seq의 한 가지 목표는 대체 스플라이싱 이벤트를 식별하고 조건 간에 다른지 여부를 테스트하는 것입니다.긴 읽기 시퀀싱은 전체 스크립트를 캡처하기 때문에 애매한 읽기 매핑과 같은 isoform의 풍부함을 추정할 때 발생하는 많은 문제를 최소화합니다.짧은 판독 RNA-Seq의 경우, 세 가지 주요 [118][90][119]그룹으로 분류할 수 있는 대체 스플라이싱을 검출하는 여러 가지 방법이 있습니다.

  • 카운트 베이스(이벤트 베이스, 차분 스플라이싱도):Exon 보유율을 추정합니다.예를 들어 DEXSeq,[120] [121]MATS 및 SeqGSEA가 [122]있습니다.
  • Isoform-based(다중 판독 모듈, 차분 Isoform 표현식): 먼저 Isoform의 빈도를 추정하여 조건 간의 상대적 빈도를 추정합니다.예를 들어 커프링크2와[123] DiffSplice가 [124]있습니다.
  • 인트론 절제 기반: 분할 판독을 사용하여 대체 스플라이싱을 계산합니다.예를[125] 들어 MAJIQ와 리프커터입니다.[119]

미분 유전자 [126]발현 도구는 RSEM과 같은 다른 도구와 함께 아이소폼을 미리 정량화하면 미분 아이소폼 발현에도 사용될 수 있다.

동일 표현 네트워크

공표현 네트워크는 조직과 실험 [127]조건에 걸쳐 유사한 방식으로 작동하는 유전자의 데이터 파생 표현이다.그들의 주된 목적은 이전에 알려지지 않은 [127]유전자의 기능을 추론하기 위한 가설 생성과 연관성에 의한 죄의식 접근에 있다.RNA-Seq 데이터는 식물과[128] [129]포유류 모두에서 피어슨 상관관계에 기초한 특정 경로에 관련된 유전자를 추론하는 데 사용되어 왔다.마이크로어레이 플랫폼보다 RNA-Seq 데이터의 주요 장점은 전사체 전체를 커버할 수 있다는 점이며, 따라서 유전자 조절 네트워크의 보다 완전한 표현을 풀 수 있다는 것입니다.동일한 유전자의 스플라이스 아이소폼의 차이조절을 검출하여 그 생물학적 [130][131]기능을 예측하기 위해 사용할 수 있다.가중 유전자 공발현 네트워크 분석은 RNA seq 데이터를 기반으로 공발현 모듈과 모듈 내 허브 유전자를 식별하는데 성공적으로 이용되었습니다.공동 발현 모듈은 세포 유형 또는 경로에 대응될 수 있습니다.고도로 연결된 모듈 내 허브는 각각의 모듈을 대표하는 것으로 해석할 수 있습니다.에이겐겐은 모듈 내 모든 유전자의 발현 가중치 합이다.아이겐겐은 진단과 [132]예후에 유용한 바이오마커(특징)입니다.RNA seq 데이터를 기반으로 상관 계수를 추정하기 위한 분산 안정화 변환 접근법이 [128]제안되었습니다.

변종 검출

RNA-Seq는 단일 뉴클레오티드 변종, 작은 삽입/분해포함한 DNA 변이를 포착합니다.구조변화.RNA-Seq의 변종 호출은 DNA 변종 호출과 유사하며 종종 스플라이싱을 설명하기 위한 조정과 함께 동일한 도구(SAMtools mpileup[133] 및 GATK HapplypeCaller[134] 포함)를 사용합니다.RNA 변종에 대한 한 가지 고유한 차원은 대립 유전자 특이적 발현(ASE)이다. 즉, 한 가지 하플로타입의 변종은 각인 및 발현 정량적 특성 위치비부호화 희귀 [135][136]변종을 포함한 조절 효과로 인해 우선적으로 발현될 수 있다.RNA 변이체 식별의 한계에는 발현 영역(사람의 경우 게놈의 5% 미만)만 반영하고, 데이터 처리에 의해 도입된 편견(예: de novo transcriptom 어셈블리가 헤테로 접합성을[137] 과소평가함)에 노출될 수 있으며, 직접 DNA 염기서열처리에 비해 품질이 낮다는 것이 포함된다.

RNA 편집(전사 후 변경)

개인의 게놈과 트랜스크립트 게놈 시퀀스가 일치하면 전사 후 편집(RNA 편집)[3]을 검출하는 데 도움이 됩니다.유전자 전사물이 게놈 데이터에서 관찰되지 않은 대립 유전자/변이를 가지고 있는 경우 전사 후 수정 이벤트를 동정한다.

유전자 융합 이벤트와 쌍단 판독의 동작이 유전자 결합의 양쪽에 떨어집니다.유전자 융합은 트랜스, 분리된 염색체 상의 유전자 사이 또는 Cis, 같은 염색체 상의 두 유전자 사이에서 발생할 수 있습니다.

융합 유전자 검출

게놈의 다른 구조적 변형에 의해 야기된 융합 유전자는 [138]암과의 관계 때문에 주목을 받았다.RNA-Seq는 샘플의 전체 전사체를 편견 없는 방식으로 분석할 수 있는 능력을 가지고 있어서 [4]암에서 이러한 종류의 흔한 사건들을 발견할 수 있는 매력적인 도구가 됩니다.

그 아이디어는 짧은 전사체 판독을 참조 게놈에 맞추는 과정에서 비롯된다.대부분의 짧은 판독치는 하나의 완전한 exon 내에 포함되며, 더 작지만 더 큰 집합은 알려진 exon-exon 접합에 매핑될 것으로 예상됩니다.나머지 매핑되지 않은 짧은 판독치는 엑손-엑손 접합과 일치하는지 여부를 결정하기 위해 더 분석될 것이다.이는 핵융합이 일어날 수 있다는 증거일 수 있지만 판독치의 길이 때문에 매우 노이즈가 있을 수 있습니다.대체 접근법은 잠재적으로 많은 수의 쌍으로 구성된 판독치가 각 엔드를 다른 exon에 매핑하여 이러한 이벤트를 더 잘 커버할 수 있도록 하는 경우 쌍으로 구성된 엔드 판독치를 사용하는 것입니다(그림 참조).그럼에도 불구하고 최종 결과는 추가적인 검증을 위한 이상적인 시작점을 제공하는 여러 개의 잠재적으로 새로운 유전자 조합으로 구성된다.


복사 번호 변경


복사 번호 변경(CNA) 분석은 암 연구에서 일반적으로 사용됩니다.유전자의 이득과 손실은 신호 전달 경로의 의미를 가지며 종양학에서 분자 기능 장애의 핵심 바이오마커이다.RNA-Seq 데이터에서 CNA 정보를 호출하는 것은 유전자 발현의 차이 때문에 간단하지 않으며, 이는 유전자 간에 서로 다른 크기의 판독 깊이 변화를 초래한다.이러한 어려움으로 인해 이러한 분석의 대부분은 일반적으로 전체 유전자 배열/전체 유전자 배열(WGS/WES)을 사용하여 수행됩니다.하지만 첨단 생체정보학 도구는 RNA-Seq에서 [139]CNA를 호출할 수 있습니다.


기타 새로운 분석 및 응용 프로그램

RNA-Seq의 응용은 나날이 증가하고 있다.RNA-Seq의 다른 새로운 응용에는 미생물 [140]오염물질의 검출, 세포형 풍부성([7]세포형 디콘볼루션), TE의 발현 측정 및 네오안티겐 예측 [7]등이 포함된다.

역사

공개된 원고 일치는 RNA-Seq의 증가하는 인기를 강조한다.의학에서 RNA-Seq(파란색, 검색어: "RNA Seq" 또는 "RNA-Seq" 또는 "RNA Seq")[141]와 RNA=Seq(금색, 검색어: "RNA-Seq" 또는 "NA 시퀀스")에 일치합니다.RNA-Seq가 특징인 PubMed의 원고 수는 여전히 증가하고 있습니다.

RNA-Seq는 2000년대 중반 차세대 염기서열 분석 기술의 [143]등장으로 처음 개발됐다.용어를 사용하지 않고 RNA-Seq를 사용한 최초의 사본은 전립선암 세포주[144](2006년 날짜), Medicago Truncatula[145](2006년 날짜), 옥수수[146](2007년), Arabidopsis thaliana[147](2007년)이며,[12][148] "RNA-Seq"라는 용어 자체는 2008년에 처음 언급되었다.제목 또는 추상(그림, 파란색 선)에서 RNA-Seq를 언급하는 원고는 2018년에 6754장이 발행되어 지속적으로 증가하고 있다.RNA-Seq와 의학(그림, 금색 선)의 교차점은 셀레벨리티가 [149]유사합니다.

의학에의 응용

RNA-Seq는 새로운 질병 생물학을 식별하고, 임상 징후를 위한 바이오마커를 프로파일링하고, 약물의 경로를 추론하고, 유전자 진단을 내릴 수 있는 잠재력을 가지고 있습니다.이러한 결과는 하위 그룹이나 심지어 개별 환자에 대해 더욱 개인화할 수 있으며, 잠재적으로 더 효과적인 예방, 진단 및 치료를 강조할 수 있다.이 접근방식의 실현 가능성은 부분적으로 비용과 시간의 비용에 의해 결정됩니다.이 분석에 [150]의해 생성되는 방대한 양의 데이터를 완전히 해석하는 데 필요한 전문가 팀(바이오 인포메이션 담당자, 의사/임상사, 기초 연구자, 기술자)이 관련된 제한 사항입니다.

대규모 시퀀싱 작업

DNA 요소 백과사전(ENCODE)과 암 게놈 아틀라스(TCGA) 프로젝트가 각각 수십 개의 세포주와[151] 수천 개의 1차 종양 [152]샘플을 특징짓기 위해 이 접근방식을 사용한 이후 RNA-Seq 데이터에 많은 중점을 두고 있습니다.다른 세포주 코호트에서 게놈 전체 조절 영역을 식별하는 것을 목표로 하는 ENCODE와 전사체 데이터는 후생 및 유전자 조절층의 다운스트림 효과를 이해하는 데 가장 중요하다.TCGA는 대신 30개의 서로 다른 종양 유형에서 수천 개의 환자 샘플을 수집하고 분석하여 악성 변형과 진행의 근본적인 메커니즘을 이해하는 것을 목표로 했습니다.이러한 맥락에서 RNA-Seq 데이터는 질병의 전사체 상태에 대한 고유한 스냅샷을 제공하고 다른 기술로 검출되지 않을 수 있는 새로운 전사체, 융합 전사체 및 비코드 RNA를 식별할 수 있는 편향되지 않은 전사체 집단을 살펴본다.

「 」를 참조해 주세요.

레퍼런스

이 기사는 2019년 외부 학술 동료 검토를 위해 WikiJournal of Science에 제출되었습니다(리뷰어 리포트).업데이트된 콘텐츠가 CC-BY-SA-3.0 라이센스(2021년)로 Wikipedia 페이지에 다시 통합되었습니다.검토한 레코드의 버전은 다음과 같습니다.Felix Richter; et al. (17 May 2021). "A broad introduction to RNA-Seq". WikiJournal of Science. 4 (2): 4. doi:10.15347/WJS/2021.004. ISSN 2470-6345. Wikidata Q100146647.

  1. ^ Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T (May 2017). "Transcriptomics technologies". PLOS Computational Biology. 13 (5): e1005457. Bibcode:2017PLSCB..13E5457L. doi:10.1371/journal.pcbi.1005457. PMC 5436640. PMID 28545146.
  2. ^ Chu Y, Corey DR (August 2012). "RNA sequencing: platform selection, experimental design, and data interpretation". Nucleic Acid Therapeutics. 22 (4): 271–4. doi:10.1089/nat.2012.0367. PMC 3426205. PMID 22830413.
  3. ^ a b c Wang Z, Gerstein M, Snyder M (January 2009). "RNA-Seq: a revolutionary tool for transcriptomics". Nature Reviews. Genetics. 10 (1): 57–63. doi:10.1038/nrg2484. PMC 2949280. PMID 19015660.
  4. ^ a b Maher CA, Kumar-Sinha C, Cao X, Kalyana-Sundaram S, Han B, Jing X, et al. (March 2009). "Transcriptome sequencing to detect gene fusions in cancer". Nature. 458 (7234): 97–101. Bibcode:2009Natur.458...97M. doi:10.1038/nature07638. PMC 2725402. PMID 19136943.
  5. ^ Ingolia NT, Brar GA, Rouskin S, McGeachy AM, Weissman JS (July 2012). "The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments". Nature Protocols. 7 (8): 1534–50. doi:10.1038/nprot.2012.086. PMC 3535016. PMID 22836135.
  6. ^ Lee JH, Daugharthy ER, Scheiman J, Kalhor R, Yang JL, Ferrante TC, et al. (March 2014). "Highly multiplexed subcellular RNA sequencing in situ". Science. 343 (6177): 1360–3. Bibcode:2014Sci...343.1360L. doi:10.1126/science.1250212. PMC 4140943. PMID 24578530.
  7. ^ a b c Thind, AS; Monga, I; Thakur, PK; Kumari, P; Dindhoria, K; Krzak, M; Ranson, M; Ashford, B (5 November 2021). "Demystifying emerging bulk RNA-Seq applications: the application and utility of bioinformatic methodology". Briefings in Bioinformatics. 22 (6). doi:10.1093/bib/bbab259. PMID 34329375.
  8. ^ Kukurba KR, Montgomery SB (April 2015). "RNA Sequencing and Analysis". Cold Spring Harbor Protocols. 2015 (11): 951–69. doi:10.1101/pdb.top084970. PMC 4863231. PMID 25870306.
  9. ^ a b c d e Griffith M, Walker JR, Spies NC, Ainscough BJ, Griffith OL (August 2015). "Informatics for RNA Sequencing: A Web Resource for Analysis on the Cloud". PLOS Computational Biology. 11 (8): e1004393. Bibcode:2015PLSCB..11E4393G. doi:10.1371/journal.pcbi.1004393. PMC 4527835. PMID 26248053.
  10. ^ "RNA-seqlopedia". rnaseq.uoregon.edu. Retrieved 8 February 2017.
  11. ^ Morin R, Bainbridge M, Fejes A, Hirst M, Krzywinski M, Pugh T, et al. (July 2008). "Profiling the HeLa S3 transcriptome using randomly primed cDNA and massively parallel short-read sequencing". BioTechniques. 45 (1): 81–94. doi:10.2144/000112900. PMID 18611170.
  12. ^ a b c d Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (July 2008). "Mapping and quantifying mammalian transcriptomes by RNA-Seq". Nature Methods. 5 (7): 621–8. doi:10.1038/nmeth.1226. PMID 18516045. S2CID 205418589.
  13. ^ Sun Q, Hao Q, Prasanth KV (February 2018). "Nuclear Long Noncoding RNAs: Key Regulators of Gene Expression". Trends in Genetics. 34 (2): 142–157. doi:10.1016/j.tig.2017.11.005. PMC 6002860. PMID 29249332.
  14. ^ Sigurgeirsson B, Emanuelsson O, Lundeberg J (2014). "Sequencing degraded RNA addressed by 3' tag counting". PLOS ONE. 9 (3): e91851. Bibcode:2014PLoSO...991851S. doi:10.1371/journal.pone.0091851. PMC 3954844. PMID 24632678.
  15. ^ Chen EA, Souaiaia T, Herstein JS, Evgrafov OV, Spitsyna VN, Rebolini DF, Knowles JA (October 2014). "Effect of RNA integrity on uniquely mapped reads in RNA-Seq". BMC Research Notes. 7: 753. doi:10.1186/1756-0500-7-753. PMC 4213542. PMID 25339126.
  16. ^ Moll P, Ante M, Seitz A, Reda T (December 2014). "QuantSeq 3′ mRNA sequencing for RNA quantification". Nature Methods. 11 (12): i–iii. doi:10.1038/nmeth.f.376. ISSN 1548-7105.
  17. ^ Oikonomopoulos S, Bayega A, Fahiminiya S, Djambazian H, Berube P, Ragoussis J (2020). "Methodologies for Transcript Profiling Using Long-Read Technologies". Frontiers in Genetics. 11: 606. doi:10.3389/fgene.2020.00606. PMC 7358353. PMID 32733532.
  18. ^ a b Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, et al. (January 2016). "A survey of best practices for RNA-seq data analysis". Genome Biology. 17 (1): 13. doi:10.1186/s13059-016-0881-8. PMC 4728800. PMID 26813401.
  19. ^ Liu D, Graber JH (February 2006). "Quantitative comparison of EST libraries requires compensation for systematic biases in cDNA generation". BMC Bioinformatics. 7: 77. doi:10.1186/1471-2105-7-77. PMC 1431573. PMID 16503995.
  20. ^ a b c Garalde DR, Snell EA, Jachimowicz D, Sipos B, Lloyd JH, Bruce M, et al. (March 2018). "Highly parallel direct RNA sequencing on an array of nanopores". Nature Methods. 15 (3): 201–206. doi:10.1038/nmeth.4577. PMID 29334379. S2CID 3589823.
  21. ^ Liu D, Graber JH (February 2006). "Quantitative comparison of EST libraries requires compensation for systematic biases in cDNA generation". BMC Bioinformatics. 7: 77. doi:10.1186/1471-2105-7-77. PMC 1431573. PMID 16503995.
  22. ^ Gleeson J, Lane TA, Harrison PJ, Haerty W, Clark MB (3 August 2020). "Nanopore direct RNA sequencing detects differential expression between human cell populations". bioRxiv: 2020.08.02.232785. doi:10.1101/2020.08.02.232785. S2CID 220975367.
  23. ^ a b "Shapiro E, Biezuner T, Linnarsson S (September 2013). "Single-cell sequencing-based technologies will revolutionize whole-organism science". Nature Reviews. Genetics. 14 (9): 618–30. doi:10.1038/nrg3542. PMID 23897237. S2CID 500845.
  24. ^ Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA (May 2015). "The technology and biology of single-cell RNA sequencing". Molecular Cell. 58 (4): 610–20. doi:10.1016/j.molcel.2015.04.005. PMID 26000846.
  25. ^ Montoro DT, Haber AL, Biton M, Vinarsky V, Lin B, Birket SE, et al. (August 2018). "A revised airway epithelial hierarchy includes CFTR-expressing ionocytes". Nature. 560 (7718): 319–324. Bibcode:2018Natur.560..319M. doi:10.1038/s41586-018-0393-7. PMC 6295155. PMID 30069044.
  26. ^ Plasschaert LW, Žilionis R, Choo-Wing R, Savova V, Knehr J, Roma G, et al. (August 2018). "A single-cell atlas of the airway epithelium reveals the CFTR-rich pulmonary ionocyte". Nature. 560 (7718): 377–381. Bibcode:2018Natur.560..377P. doi:10.1038/s41586-018-0394-6. PMC 6108322. PMID 30069046.
  27. ^ Valihrach L, Androvic P, Kubista M (March 2018). "Platforms for Single-Cell Collection and Analysis". International Journal of Molecular Sciences. 19 (3): 807. doi:10.3390/ijms19030807. PMC 5877668. PMID 29534489.
  28. ^ Klein AM, Mazutis L, Akartuna I, Tallapragada N, Veres A, Li V, et al. (May 2015). "Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells". Cell. 161 (5): 1187–1201. doi:10.1016/j.cell.2015.04.044. PMC 4441768. PMID 26000487.
  29. ^ Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M, et al. (May 2015). "Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets". Cell. 161 (5): 1202–1214. doi:10.1016/j.cell.2015.05.002. PMC 4481139. PMID 26000488.
  30. ^ Islam S, Zeisel A, Joost S, La Manno G, Zajac P, Kasper M, et al. (February 2014). "Quantitative single-cell RNA-seq with unique molecular identifiers". Nature Methods. 11 (2): 163–6. doi:10.1038/nmeth.2772. PMID 24363023. S2CID 6765530.
  31. ^ "Hebenstreit D (November 2012). "Methods, Challenges and Potentials of Single Cell RNA-seq". Biology. 1 (3): 658–67. doi:10.3390/biology1030658. PMC 4009822. PMID 24832513.
  32. ^ Eberwine J, Sul JY, Bartfai T, Kim J (January 2014). "The promise of single-cell sequencing". Nature Methods. 11 (1): 25–7. doi:10.1038/nmeth.2769. PMID 24524134. S2CID 11575439.
  33. ^ Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, et al. (May 2009). "mRNA-Seq whole-transcriptome analysis of a single cell". Nature Methods. 6 (5): 377–82. doi:10.1038/NMETH.1315. PMID 19349980. S2CID 16570747.
  34. ^ Islam S, Kjällquist U, Moliner A, Zajac P, Fan JB, Lönnerberg P, Linnarsson S (July 2011). "Characterization of the single-cell transcriptional landscape by highly multiplex RNA-seq". Genome Research. 21 (7): 1160–7. doi:10.1101/gr.110882.110. PMC 3129258. PMID 21543516.
  35. ^ Ramsköld D, Luo S, Wang YC, Li R, Deng Q, Faridani OR, et al. (August 2012). "Full-length mRNA-Seq from single-cell levels of RNA and individual circulating tumor cells". Nature Biotechnology. 30 (8): 777–82. doi:10.1038/nbt.2282. PMC 3467340. PMID 22820318.
  36. ^ Hashimshony T, Wagner F, Sher N, Yanai I (September 2012). "CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification". Cell Reports. 2 (3): 666–73. doi:10.1016/j.celrep.2012.08.003. PMID 22939981.
  37. ^ Singh M, Al-Eryani G, Carswell S, Ferguson JM, Blackburn J, Barton K, Roden D, Luciani F, Phan T, Junankar S, Jackson K, Goodnow CC, Smith MA, Swarbrick A (2018). "High-throughput targeted long-read single cell sequencing reveals the clonal and transcriptional landscape of lymphocytes". bioRxiv. 10 (1): 3120. doi:10.1101/424945. PMC 6635368. PMID 31311926.
  38. ^ Sasagawa Y, Nikaido I, Hayashi T, Danno H, Uno KD, Imai T, Ueda HR (April 2013). "Quartz-Seq: a highly reproducible and sensitive single-cell RNA sequencing method, reveals non-genetic gene-expression heterogeneity". Genome Biology. 14 (4): R31. doi:10.1186/gb-2013-14-4-r31. PMC 4054835. PMID 23594475.
  39. ^ Kouno T, Moody J, Kwon AT, Shibayama Y, Kato S, Huang Y, et al. (January 2019). "C1 CAGE detects transcription start sites and enhancer activity at single-cell resolution". Nature Communications. 10 (1): 360. Bibcode:2019NatCo..10..360K. doi:10.1038/s41467-018-08126-5. PMC 6341120. PMID 30664627.
  40. ^ Dal Molin A, Di Camillo B (2019). "How to design a single-cell RNA-sequencing experiment: pitfalls, challenges and perspectives". Briefings in Bioinformatics. 20 (4): 1384–1394. doi:10.1093/bib/bby007. PMID 29394315.
  41. ^ Peterson VM, Zhang KX, Kumar N, Wong J, Li L, Wilson DC, et al. (October 2017). "Multiplexed quantification of proteins and transcripts in single cells". Nature Biotechnology. 35 (10): 936–939. doi:10.1038/nbt.3973. PMID 28854175. S2CID 205285357.
  42. ^ Stoeckius M, Hafemeister C, Stephenson W, Houck-Loomis B, Chattopadhyay PK, Swerdlow H, et al. (September 2017). "Simultaneous epitope and transcriptome measurement in single cells". Nature Methods. 14 (9): 865–868. doi:10.1038/nmeth.4380. PMC 5669064. PMID 28759029.
  43. ^ Raj B, Wagner DE, McKenna A, Pandey S, Klein AM, Shendure J, et al. (June 2018). "Simultaneous single-cell profiling of lineages and cell types in the vertebrate brain". Nature Biotechnology. 36 (5): 442–450. doi:10.1038/nbt.4103. PMC 5938111. PMID 29608178.
  44. ^ Olmos D, Arkenau HT, Ang JE, Ledaki I, Attard G, Carden CP, et al. (January 2009). "Circulating tumour cell (CTC) counts as intermediate end points in castration-resistant prostate cancer (CRPC): a single-centre experience". Annals of Oncology. 20 (1): 27–33. doi:10.1093/annonc/mdn544. PMID 18695026.
  45. ^ Levitin HM, Yuan J, Sims PA (April 2018). "Single-Cell Transcriptomic Analysis of Tumor Heterogeneity". Trends in Cancer. 4 (4): 264–268. doi:10.1016/j.trecan.2018.02.003. PMC 5993208. PMID 29606308.
  46. ^ Jerby-Arnon L, Shah P, Cuoco MS, Rodman C, Su MJ, Melms JC, et al. (November 2018). "A Cancer Cell Program Promotes T Cell Exclusion and Resistance to Checkpoint Blockade". Cell. 175 (4): 984–997.e24. doi:10.1016/j.cell.2018.09.006. PMC 6410377. PMID 30388455.
  47. ^ Stephenson W, Donlin LT, Butler A, Rozo C, Bracken B, Rashidfarrokhi A, et al. (February 2018). "Single-cell RNA-seq of rheumatoid arthritis synovial tissue using low-cost microfluidic instrumentation". Nature Communications. 9 (1): 791. Bibcode:2018NatCo...9..791S. doi:10.1038/s41467-017-02659-x. PMC 5824814. PMID 29476078.
  48. ^ Avraham R, Haseley N, Brown D, Penaranda C, Jijon HB, Trombetta JJ, et al. (September 2015). "Pathogen Cell-to-Cell Variability Drives Heterogeneity in Host Immune Responses". Cell. 162 (6): 1309–21. doi:10.1016/j.cell.2015.08.027. PMC 4578813. PMID 26343579.
  49. ^ Cao J, Packer JS, Ramani V, Cusanovich DA, Huynh C, Daza R, et al. (August 2017). "Comprehensive single-cell transcriptional profiling of a multicellular organism". Science. 357 (6352): 661–667. Bibcode:2017Sci...357..661C. doi:10.1126/science.aam8940. PMC 5894354. PMID 28818938.
  50. ^ Plass M, Solana J, Wolf FA, Ayoub S, Misios A, Glažar P, et al. (May 2018). "Cell type atlas and lineage tree of a whole complex animal by single-cell transcriptomics". Science. 360 (6391): eaaq1723. doi:10.1126/science.aaq1723. PMID 29674432.
  51. ^ Fincher CT, Wurtzel O, de Hoog T, Kravarik KM, Reddien PW (May 2018). "Schmidtea mediterranea". Science. 360 (6391): eaaq1736. doi:10.1126/science.aaq1736. PMC 6563842. PMID 29674431.
  52. ^ Wagner DE, Weinreb C, Collins ZM, Briggs JA, Megason SG, Klein AM (June 2018). "Single-cell mapping of gene expression landscapes and lineage in the zebrafish embryo". Science. 360 (6392): 981–987. Bibcode:2018Sci...360..981W. doi:10.1126/science.aar4362. PMC 6083445. PMID 29700229.
  53. ^ Farrell JA, Wang Y, Riesenfeld SJ, Shekhar K, Regev A, Schier AF (June 2018). "Single-cell reconstruction of developmental trajectories during zebrafish embryogenesis". Science. 360 (6392): eaar3131. doi:10.1126/science.aar3131. PMC 6247916. PMID 29700225.
  54. ^ Briggs JA, Weinreb C, Wagner DE, Megason S, Peshkin L, Kirschner MW, Klein AM (June 2018). "The dynamics of gene expression in vertebrate embryogenesis at single-cell resolution". Science. 360 (6392): eaar5780. doi:10.1126/science.aar5780. PMC 6038144. PMID 29700227.
  55. ^ You J. "Science's 2018 Breakthrough of the Year: tracking development cell by cell". Science Magazine. American Association for the Advancement of Science.
  56. ^ a b Li H, Lovci MT, Kwon YS, Rosenfeld MG, Fu XD, Yeo GW (December 2008). "Determination of tag density required for digital transcriptome analysis: application to an androgen-sensitive prostate cancer model". Proceedings of the National Academy of Sciences of the United States of America. 105 (51): 20179–84. Bibcode:2008PNAS..10520179L. doi:10.1073/pnas.0807121105. PMC 2603435. PMID 19088194.
  57. ^ a b Stegle O, Parts L, Piipari M, Winn J, Durbin R (February 2012). "Using probabilistic estimation of expression residuals (PEER) to obtain increased power and interpretability of gene expression analyses". Nature Protocols. 7 (3): 500–7. doi:10.1038/nprot.2011.457. PMC 3398141. PMID 22343431.
  58. ^ Kingsford C, Patro R (June 2015). "Reference-based compression of short-read sequences using path encoding". Bioinformatics. 31 (12): 1920–8. doi:10.1093/bioinformatics/btv071. PMC 4481695. PMID 25649622.
  59. ^ a b Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, et al. (May 2011). "Full-length transcriptome assembly from RNA-Seq data without a reference genome". Nature Biotechnology. 29 (7): 644–52. doi:10.1038/nbt.1883. PMC 3571712. PMID 21572440.
  60. ^ "De Novo Assembly Using Illumina Reads" (PDF). Retrieved 22 October 2016.
  61. ^ Oases: 매우 짧은 읽기용 스크립트콤 어셈블리
  62. ^ Zerbino DR, Birney E (May 2008). "Velvet: algorithms for de novo short read assembly using de Bruijn graphs". Genome Research. 18 (5): 821–9. doi:10.1101/gr.074492.107. PMC 2336801. PMID 18349386.
  63. ^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D, et al. (February 2015). "Bridger: a new framework for de novo transcriptome assembly using RNA-seq data". Genome Biology. 16 (1): 30. doi:10.1186/s13059-015-0596-2. PMC 4342890. PMID 25723335.
  64. ^ Bushmanova E, Antipov D, Lapidus A, Prjibelski AD (September 2019). "rnaSPAdes: a de novo transcriptome assembler and its application to RNA-Seq data". GigaScience. 8 (9). doi:10.1093/gigascience/giz100. PMC 6736328. PMID 31494669.
  65. ^ a b Li B, Fillmore N, Bai Y, Collins M, Thomson JA, Stewart R, Dewey CN (December 2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15 (12): 553. doi:10.1186/s13059-014-0553-5. PMC 4298084. PMID 25608678.
  66. ^ a b Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. (January 2013). "STAR: ultrafast universal RNA-seq aligner". Bioinformatics. 29 (1): 15–21. doi:10.1093/bioinformatics/bts635. PMC 3530905. PMID 23104886.
  67. ^ Langmead B, Trapnell C, Pop M, Salzberg SL (2009). "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome". Genome Biology. 10 (3): R25. doi:10.1186/gb-2009-10-3-r25. PMC 2690996. PMID 19261174.
  68. ^ Trapnell C, Pachter L, Salzberg SL (May 2009). "TopHat: discovering splice junctions with RNA-Seq". Bioinformatics. 25 (9): 1105–11. doi:10.1093/bioinformatics/btp120. PMC 2672628. PMID 19289445.
  69. ^ a b Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, et al. (March 2012). "Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks". Nature Protocols. 7 (3): 562–78. doi:10.1038/nprot.2012.016. PMC 3334321. PMID 22383036.
  70. ^ Liao Y, Smyth GK, Shi W (May 2013). "The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote". Nucleic Acids Research. 41 (10): e108. doi:10.1093/nar/gkt214. PMC 3664803. PMID 23558742.
  71. ^ Kim D, Langmead B, Salzberg SL (April 2015). "HISAT: a fast spliced aligner with low memory requirements". Nature Methods. 12 (4): 357–60. doi:10.1038/nmeth.3317. PMC 4655817. PMID 25751142.
  72. ^ Wu TD, Watanabe CK (May 2005). "GMAP: a genomic mapping and alignment program for mRNA and EST sequences". Bioinformatics. 21 (9): 1859–75. doi:10.1093/bioinformatics/bti310. PMID 15728110.
  73. ^ Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT, Salzberg SL (March 2015). "StringTie enables improved reconstruction of a transcriptome from RNA-seq reads". Nature Biotechnology. 33 (3): 290–5. doi:10.1038/nbt.3122. PMC 4643835. PMID 25690850.
  74. ^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR (February 2017). "Simulation-based comprehensive benchmarking of RNA-seq aligners". Nature Methods. 14 (2): 135–139. doi:10.1038/nmeth.4106. PMC 5792058. PMID 27941783.
  75. ^ Engström PG, Steijger T, Sipos B, Grant GR, Kahles A, Rätsch G, et al. (December 2013). "Systematic evaluation of spliced alignment programs for RNA-seq data". Nature Methods. 10 (12): 1185–91. doi:10.1038/nmeth.2722. PMC 4018468. PMID 24185836.
  76. ^ Lu B, Zeng Z, Shi T (February 2013). "Comparative study of de novo assembly and genome-guided assembly strategies for transcriptome reconstruction based on RNA-Seq". Science China Life Sciences. 56 (2): 143–55. doi:10.1007/s11427-013-4442-z. PMID 23393030.
  77. ^ Bradnam KR, Fass JN, Alexandrov A, Baranay P, Bechner M, Birol I, et al. (July 2013). "Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species". GigaScience. 2 (1): 10. arXiv:1301.5406. Bibcode:2013arXiv1301.5406B. doi:10.1186/2047-217X-2-10. PMC 3844414. PMID 23870653.
  78. ^ Hölzer M, Marz M (May 2019). "De novo transcriptome assembly: A comprehensive cross-species comparison of short-read RNA-Seq assemblers". GigaScience. 8 (5). doi:10.1093/gigascience/giz039. PMC 6511074. PMID 31077315.
  79. ^ Greenbaum D, Colangelo C, Williams K, Gerstein M (2003). "Comparing protein abundance and mRNA expression levels on a genomic scale". Genome Biology. 4 (9): 117. doi:10.1186/gb-2003-4-9-117. PMC 193646. PMID 12952525.
  80. ^ Zhang ZH, Jhaveri DJ, Marshall VM, Bauer DC, Edson J, Narayanan RK, et al. (August 2014). "A comparative study of techniques for differential expression analysis on RNA-Seq data". PLOS ONE. 9 (8): e103207. Bibcode:2014PLoSO...9j3207Z. doi:10.1371/journal.pone.0103207. PMC 4132098. PMID 25119138.
  81. ^ Anders S, Pyl PT, Huber W (January 2015). "HTSeq--a Python framework to work with high-throughput sequencing data". Bioinformatics. 31 (2): 166–9. doi:10.1093/bioinformatics/btu638. PMC 4287950. PMID 25260700.
  82. ^ Liao Y, Smyth GK, Shi W (April 2014). "featureCounts: an efficient general purpose program for assigning sequence reads to genomic features". Bioinformatics. 30 (7): 923–30. arXiv:1305.3347. doi:10.1093/bioinformatics/btt656. PMID 24227677.
  83. ^ Schmid MW, Grossniklaus U (February 2015). "Rcount: simple and flexible RNA-Seq read counting". Bioinformatics. 31 (3): 436–7. doi:10.1093/bioinformatics/btu680. PMID 25322836.
  84. ^ Finotello F, Lavezzo E, Bianco L, Barzon L, Mazzon P, Fontana P, Toppo S, Di Camillo B (2014). "Reducing bias in RNA sequencing data: a novel approach to compute counts". BMC Bioinformatics. 15 (Suppl 1): S7. doi:10.1186/1471-2105-15-s1-s7. PMC 4016203. PMID 24564404.
  85. ^ Hashimoto TB, Edwards MD, Gifford DK (March 2014). "Universal count correction for high-throughput sequencing". PLOS Computational Biology. 10 (3): e1003494. Bibcode:2014PLSCB..10E3494H. doi:10.1371/journal.pcbi.1003494. PMC 3945112. PMID 24603409.
  86. ^ Patro R, Mount SM, Kingsford C (May 2014). "Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms". Nature Biotechnology. 32 (5): 462–4. arXiv:1308.3700. doi:10.1038/nbt.2862. PMC 4077321. PMID 24752080.
  87. ^ Bray NL, Pimentel H, Melsted P, Pachter L (May 2016). "Near-optimal probabilistic RNA-seq quantification". Nature Biotechnology. 34 (5): 525–7. doi:10.1038/nbt.3519. PMID 27043002. S2CID 205282743.
  88. ^ a b Robinson MD, Oshlack A (2010). "A scaling normalization method for differential expression analysis of RNA-seq data". Genome Biology. 11 (3): R25. doi:10.1186/gb-2010-11-3-r25. PMC 2864565. PMID 20196867.
  89. ^ Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (May 2010). "Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation". Nature Biotechnology. 28 (5): 511–5. doi:10.1038/nbt.1621. PMC 3146043. PMID 20436464.
  90. ^ a b Pachter L (19 April 2011). "Models for transcript quantification from RNA-Seq". arXiv:1104.3889 [q-bio.GN].
  91. ^ "What the FPKM? A review of RNA-Seq expression units". The farrago. 8 May 2014. Retrieved 28 March 2018.
  92. ^ Wagner GP, Kin K, Lynch VJ (December 2012). "Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples". Theory in Biosciences = Theorie in den Biowissenschaften. 131 (4): 281–5. doi:10.1007/s12064-012-0162-3. PMID 22872506. S2CID 16752581.
  93. ^ Evans C, Hardin J, Stoebel DM (September 2018). "Selecting between-sample RNA-Seq normalization methods from the perspective of their assumptions". Briefings in Bioinformatics. 19 (5): 776–792. doi:10.1093/bib/bbx008. PMC 6171491. PMID 28334202.
  94. ^ a b Law CW, Chen Y, Shi W, Smyth GK (February 2014). "voom: Precision weights unlock linear model analysis tools for RNA-seq read counts". Genome Biology. 15 (2): R29. doi:10.1186/gb-2014-15-2-r29. PMC 4053721. PMID 24485249.
  95. ^ a b Anders S, Huber W (2010). "Differential expression analysis for sequence count data". Genome Biology. 11 (10): R106. doi:10.1186/gb-2010-11-10-r106. PMC 3218662. PMID 20979621.
  96. ^ a b Robinson MD, McCarthy DJ, Smyth GK (January 2010). "edgeR: a Bioconductor package for differential expression analysis of digital gene expression data". Bioinformatics. 26 (1): 139–40. doi:10.1093/bioinformatics/btp616. PMC 2796818. PMID 19910308.
  97. ^ Marguerat S, Schmidt A, Codlin S, Chen W, Aebersold R, Bähler J (October 2012). "Quantitative analysis of fission yeast transcriptomes and proteomes in proliferating and quiescent cells". Cell. 151 (3): 671–83. doi:10.1016/j.cell.2012.09.019. PMC 3482660. PMID 23101633.
  98. ^ Owens ND, Blitz IL, Lane MA, Patrushev I, Overton JD, Gilchrist MJ, Cho KW, Khokha MK (January 2016). "Measuring Absolute RNA Copy Numbers at High Temporal Resolution Reveals Transcriptome Kinetics in Development". Cell Reports. 14 (3): 632–647. doi:10.1016/j.celrep.2015.12.050. PMC 4731879. PMID 26774488.
  99. ^ Chen K, Hu Z, Xia Z, Zhao D, Li W, Tyler JK (December 2015). "The Overlooked Fact: Fundamental Need for Spike-In Control for Virtually All Genome-Wide Analyses". Molecular and Cellular Biology. 36 (5): 662–7. doi:10.1128/MCB.00970-14. PMC 4760223. PMID 26711261.
  100. ^ Lovén J, Orlando DA, Sigova AA, Lin CY, Rahl PB, Burge CB, et al. (October 2012). "Revisiting global gene expression analysis". Cell. 151 (3): 476–82. doi:10.1016/j.cell.2012.10.012. PMC 3505597. PMID 23101621.
  101. ^ Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, Smyth GK (April 2015). "limma powers differential expression analyses for RNA-sequencing and microarray studies". Nucleic Acids Research. 43 (7): e47. doi:10.1093/nar/gkv007. PMC 4402510. PMID 25605792.
  102. ^ "Bioconductor - Open source software for bioinformatics".
  103. ^ Huber W, Carey VJ, Gentleman R, Anders S, Carlson M, Carvalho BS, et al. (February 2015). "Orchestrating high-throughput genomic analysis with Bioconductor". Nature Methods. 12 (2): 115–21. doi:10.1038/nmeth.3252. PMC 4509590. PMID 25633503.
  104. ^ Leek JT, Storey JD (September 2007). "Capturing heterogeneity in gene expression studies by surrogate variable analysis". PLOS Genetics. 3 (9): 1724–35. doi:10.1371/journal.pgen.0030161. PMC 1994707. PMID 17907809.
  105. ^ Pimentel H, Bray NL, Puente S, Melsted P, Pachter L (July 2017). "Differential analysis of RNA-seq incorporating quantification uncertainty". Nature Methods. 14 (7): 687–690. doi:10.1038/nmeth.4324. PMID 28581496. S2CID 15063247.
  106. ^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (January 2013). "Differential analysis of gene regulation at transcript resolution with RNA-seq". Nature Biotechnology. 31 (1): 46–53. doi:10.1038/nbt.2450. PMC 3869392. PMID 23222703.
  107. ^ Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT (March 2015). "Ballgown bridges the gap between transcriptome assembly and expression analysis". Nature Biotechnology. 33 (3): 243–6. doi:10.1038/nbt.3172. PMC 4792117. PMID 25748911.
  108. ^ a b Sahraeian SM, Mohiyuddin M, Sebra R, Tilgner H, Afshar PT, Au KF, et al. (July 2017). "Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis". Nature Communications. 8 (1): 59. Bibcode:2017NatCo...8...59S. doi:10.1038/s41467-017-00050-4. PMC 5498581. PMID 28680106.
  109. ^ Ziemann M, Eren Y, El-Osta A (August 2016). "Gene name errors are widespread in the scientific literature". Genome Biology. 17 (1): 177. doi:10.1186/s13059-016-1044-7. PMC 4994289. PMID 27552985.
  110. ^ Soneson C, Delorenzi M (March 2013). "A comparison of methods for differential expression analysis of RNA-seq data". BMC Bioinformatics. 14: 91. doi:10.1186/1471-2105-14-91. PMC 3608160. PMID 23497356.
  111. ^ Fonseca NA, Marioni J, Brazma A (30 September 2014). "RNA-Seq gene profiling--a systematic empirical comparison". PLOS ONE. 9 (9): e107026. Bibcode:2014PLoSO...9j7026F. doi:10.1371/journal.pone.0107026. PMC 4182317. PMID 25268973.
  112. ^ Seyednasrollah F, Laiho A, Elo LL (January 2015). "Comparison of software packages for detecting differential expression in RNA-seq studies". Briefings in Bioinformatics. 16 (1): 59–70. doi:10.1093/bib/bbt086. PMC 4293378. PMID 24300110.
  113. ^ Rapaport F, Khanin R, Liang Y, Pirun M, Krek A, Zumbo P, et al. (2013). "Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data". Genome Biology. 14 (9): R95. doi:10.1186/gb-2013-14-9-r95. PMC 4054597. PMID 24020486.
  114. ^ Costa-Silva J, Domingues D, Lopes FM (21 December 2017). "RNA-Seq differential expression analysis: An extended review and a software tool". PLOS ONE. 12 (12): e0190152. Bibcode:2017PLoSO..1290152C. doi:10.1371/journal.pone.0190152. PMC 5739479. PMID 29267363.
  115. ^ Corchete LA, Rojas EA, Alonso-López D, De Las Rivas J, Gutiérrez NC, Burguillo FJ (12 November 2020). "Systematic comparison and assessment of RNA-seq procedures for gene expression quantitative analysis". Scientific Reports. 12 (10): 19737. Bibcode:2020NatSR..1019737C. doi:10.1038/s41598-020-76881-x. PMC 7665074. PMID 33184454.
  116. ^ Liao Y, Wang J, Jaehnig EJ, Shi Z, Zhang B (July 2019). "WebGestalt 2019: gene set analysis toolkit with revamped UIs and APIs". Nucleic Acids Research. 47 (W1): W199–W205. doi:10.1093/nar/gkz401. PMC 6602449. PMID 31114916.
  117. ^ a b Keren H, Lev-Maor G, Ast G (May 2010). "Alternative splicing and evolution: diversification, exon definition and function". Nature Reviews. Genetics. 11 (5): 345–55. doi:10.1038/nrg2776. PMID 20376054. S2CID 5184582.
  118. ^ Liu R, Loraine AE, Dickerson JA (December 2014). "Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems". BMC Bioinformatics. 15 (1): 364. doi:10.1186/s12859-014-0364-4. PMC 4271460. PMID 25511303.
  119. ^ a b Li YI, Knowles DA, Humphrey J, Barbeira AN, Dickinson SP, Im HK, Pritchard JK (January 2018). "Annotation-free quantification of RNA splicing using LeafCutter". Nature Genetics. 50 (1): 151–158. doi:10.1038/s41588-017-0004-9. PMC 5742080. PMID 29229983.
  120. ^ Anders S, Reyes A, Huber W (October 2012). "Detecting differential usage of exons from RNA-seq data". Genome Research. 22 (10): 2008–17. doi:10.1101/gr.133744.111. PMC 3460195. PMID 22722343.
  121. ^ Shen S, Park JW, Huang J, Dittmar KA, Lu ZX, Zhou Q, et al. (April 2012). "MATS: a Bayesian framework for flexible detection of differential alternative splicing from RNA-Seq data". Nucleic Acids Research. 40 (8): e61. doi:10.1093/nar/gkr1291. PMC 3333886. PMID 22266656.
  122. ^ Wang X, Cairns MJ (June 2014). "SeqGSEA: a Bioconductor package for gene set enrichment analysis of RNA-Seq data integrating differential expression and splicing". Bioinformatics. 30 (12): 1777–9. doi:10.1093/bioinformatics/btu090. PMID 24535097.
  123. ^ Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (January 2013). "Differential analysis of gene regulation at transcript resolution with RNA-seq". Nature Biotechnology. 31 (1): 46–53. doi:10.1038/nbt.2450. PMC 3869392. PMID 23222703.
  124. ^ Hu Y, Huang Y, Du Y, Orellana CF, Singh D, Johnson AR, et al. (January 2013). "DiffSplice: the genome-wide detection of differential splicing events with RNA-seq". Nucleic Acids Research. 41 (2): e39. doi:10.1093/nar/gks1026. PMC 3553996. PMID 23155066.
  125. ^ Vaquero-Garcia J, Barrera A, Gazzara MR, González-Vallinas J, Lahens NF, Hogenesch JB, et al. (February 2016). "A new view of transcriptome complexity and regulation through the lens of local splicing variations". eLife. 5: e11752. doi:10.7554/eLife.11752. PMC 4801060. PMID 26829591.
  126. ^ Merino GA, Conesa A, Fernández EA (March 2019). "A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies". Briefings in Bioinformatics. 20 (2): 471–481. doi:10.1093/bib/bbx122. PMID 29040385. S2CID 22706028.
  127. ^ a b Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D (November 1999). "A combined algorithm for genome-wide prediction of protein function". Nature. 402 (6757): 83–6. Bibcode:1999Natur.402...83M. doi:10.1038/47048. PMID 10573421. S2CID 144447.
  128. ^ a b Giorgi FM, Del Fabbro C, Licausi F (March 2013). "Comparative study of RNA-seq- and microarray-derived coexpression networks in Arabidopsis thaliana". Bioinformatics. 29 (6): 717–24. doi:10.1093/bioinformatics/btt053. PMID 23376351.
  129. ^ Iancu OD, Kawane S, Bottomly D, Searles R, Hitzemann R, McWeeney S (June 2012). "Utilizing RNA-Seq data for de novo coexpression network inference". Bioinformatics. 28 (12): 1592–7. doi:10.1093/bioinformatics/bts245. PMC 3493127. PMID 22556371.
  130. ^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (November 2013). "Systematically differentiating functions for alternatively spliced isoforms through integrating RNA-seq data". PLOS Computational Biology. 9 (11): e1003314. Bibcode:2013PLSCB...9E3314E. doi:10.1371/journal.pcbi.1003314. PMC 3820534. PMID 24244129.
  131. ^ Li HD, Menon R, Omenn GS, Guan Y (August 2014). "The emerging era of genomic data integration for analyzing splice isoform function". Trends in Genetics. 30 (8): 340–7. doi:10.1016/j.tig.2014.05.005. PMC 4112133. PMID 24951248.
  132. ^ Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, et al. (March 2017). "Large-scale gene network analysis reveals the significance of extracellular matrix pathway and homeobox genes in acute myeloid leukemia: an introduction to the Pigengene package and its applications". BMC Medical Genomics. 10 (1): 16. doi:10.1186/s12920-017-0253-6. PMC 5353782. PMID 28298217.
  133. ^ Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. (August 2009). "The Sequence Alignment/Map format and SAMtools". Bioinformatics. 25 (16): 2078–9. doi:10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943.
  134. ^ DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, et al. (May 2011). "A framework for variation discovery and genotyping using next-generation DNA sequencing data". Nature Genetics. 43 (5): 491–8. doi:10.1038/ng.806. PMC 3083463. PMID 21478889.
  135. ^ Battle A, Brown CD, Engelhardt BE, Montgomery SB (October 2017). "Genetic effects on gene expression across human tissues". Nature. 550 (7675): 204–213. Bibcode:2017Natur.550..204A. doi:10.1038/nature24277. hdl:10230/34202. PMC 5776756. PMID 29022597.
  136. ^ Richter F, Hoffman GE, Manheimer KB, Patel N, Sharp AJ, McKean D, et al. (October 2019). "ORE identifies extreme expression effects enriched for rare variants". Bioinformatics. 35 (20): 3906–3912. doi:10.1093/bioinformatics/btz202. PMC 6792115. PMID 30903145.
  137. ^ Freedman AH, Clamp M, Sackton TB (January 2021). "Error, noise and bias in de novo transcriptome assemblies". Molecular Ecology Resources. 21 (1): 18–29. doi:10.1111/1755-0998.13156. PMID 32180366. S2CID 212739959.
  138. ^ Teixeira MR (December 2006). "Recurrent fusion oncogenes in carcinomas". Critical Reviews in Oncogenesis. 12 (3–4): 257–71. doi:10.1615/critrevoncog.v12.i3-4.40. PMID 17425505. S2CID 40770452.
  139. ^ Thind, Amarinder Singh; Monga, Isha; Thakur, Prasoon Kumar; Kumari, Pallawi; Dindhoria, Kiran; Krzak, Monika; Ranson, Marie; Ashford, Bruce (1 November 2021). "Demystifying emerging bulk RNA-Seq applications: the application and utility of bioinformatic methodology". Briefings in Bioinformatics. 22 (6). doi:10.1093/bib/bbab259. ISSN 1477-4054. PMID 34329375.
  140. ^ Sangiovanni, Mara; Granata, Ilaria; Thind, Amarinder Singh; Guarracino, Mario Rosario (18 April 2019). "From trash to treasure: detecting unexpected contamination in unmapped NGS data". BMC Bioinformatics. 20 (4): 168. doi:10.1186/s12859-019-2684-x. ISSN 1471-2105. PMC 6472186. PMID 30999839.
  141. ^ "PubMed search: "RNA Seq" OR "RNA-Seq" OR "RNA sequencing" OR "RNASeq"". PubMed. Retrieved 20 June 2021.{{cite web}}: CS1 maint :url-status (링크)
  142. ^ "PubMed search: ("RNA Seq" OR "RNA-Seq" OR "RNA sequencing" OR "RNASeq") AND "Medicine"". PubMed. Retrieved 20 June 2021.{{cite web}}: CS1 maint :url-status (링크)
  143. ^ Weber AP (November 2015). "Discovering New Biology through Sequencing of RNA". Plant Physiology. 169 (3): 1524–31. doi:10.1104/pp.15.01081. PMC 4634082. PMID 26353759.
  144. ^ Bainbridge MN, Warren RL, Hirst M, Romanuik T, Zeng T, Go A, et al. (September 2006). "Analysis of the prostate cancer cell line LNCaP transcriptome using a sequencing-by-synthesis approach". BMC Genomics. 7: 246. doi:10.1186/1471-2164-7-246. PMC 1592491. PMID 17010196.
  145. ^ Cheung F, Haas BJ, Goldberg SM, May GD, Xiao Y, Town CD (October 2006). "Sequencing Medicago truncatula expressed sequenced tags using 454 Life Sciences technology". BMC Genomics. 7: 272. doi:10.1186/1471-2164-7-272. PMC 1635983. PMID 17062153.
  146. ^ Emrich SJ, Barbazuk WB, Li L, Schnable PS (January 2007). "Gene discovery and annotation using LCM-454 transcriptome sequencing". Genome Research. 17 (1): 69–73. doi:10.1101/gr.5145806. PMC 1716268. PMID 17095711.
  147. ^ Weber AP, Weber KL, Carr K, Wilkerson C, Ohlrogge JB (May 2007). "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing". Plant Physiology. 144 (1): 32–42. doi:10.1104/pp.107.096677. PMC 1913805. PMID 17351049.
  148. ^ Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M, Snyder M (June 2008). "The transcriptional landscape of the yeast genome defined by RNA sequencing". Science. 320 (5881): 1344–9. Bibcode:2008Sci...320.1344N. doi:10.1126/science.1158441. PMC 2951732. PMID 18451266.
  149. ^ Richter F (2021). "A broad introduction to RNA-Seq". WikiJournal of Science. 4 (1): 4. doi:10.15347/WJS/2021.004.
  150. ^ Sandberg R (January 2014). "Entering the era of single-cell transcriptomics in biology and medicine". Nature Methods. 11 (1): 22–4. doi:10.1038/nmeth.2764. PMID 24524133. S2CID 27632439.
  151. ^ "ENCODE Data Matrix". Retrieved 28 July 2013.
  152. ^ "The Cancer Genome Atlas – Data Portal". Retrieved 28 July 2013.

추가 정보

외부 링크

  • : RNA-Seq 실험 설계 및 구현에 대한 높은 수준의 가이드입니다Cresko B, Voelker R, Small C (2001). Bassham S, Catchen J (eds.). "RNA-seqlopedia". University of Oregon..