단세포역학
Single-cell transcriptomics단세포 transcriptomics는 수백 수천 개의 유전자의 메신저 RNA(mRNA) 농도를 동시에 측정하여 특정 모집단 내 개별 세포의 유전자 발현 수준을 검사한다.[1]이질적인 세포 집단의 풀림, 세포 발달 궤적의 재구성, 전사적 역학 모델링(이전 모든 것이 대량 대본 측정으로 가려짐)은 이 대본 데이터의 분석을 통해 가능하다.[2]
배경
유전자 발현 분석은 고투과 RNA-seq(RNA-seq)와 미세선의 개발을 통해 일상화됐다.이전에는 북방 블롯이나 정량적 PCR에 의한 개별 대본을 추적하는 데 한정되었던 RNA 분석은 현재 수천 개의 세포의 표현 프로파일을 특징짓는 데 자주 사용된다.대량 기반 분석에서 생성된 데이터는 구별되는 세포 집단과 생체 마커 발견에서 다르게 표현되는 유전자의 식별으로 이어졌다.[3]
이러한 게놈 연구는 전체 조직에 대한 측정을 제공하고 그 결과 모든 구성 세포에 대한 평균 표현 프로파일을 나타내기 때문에 제한적이다.다세포 유기체에서 동일한 모집단 내의 서로 다른 세포 유형은 서로 다른 전사 프로파일을 가진 뚜렷한 역할을 가질 수 있고 하위 집단을 형성할 수 있다.하위 모집단의 유전자 발현에서의 상관관계는 하위 모집단 식별의 부족으로 인해 종종 놓칠 수 있다.[4]더욱이, 대량 분석은 표현 프로파일의 변경이 하나의 셀 유형이 모집단을 지배하기 위해 발생하는 규제나 구성의 변화로 인한 것인지 식별하지 못한다.마지막으로 분화를 통한 세포 진행을 검사할 때 평균표현 프로파일은 세포의 발달 단계가 아닌 시간 단위로만 명령을 내릴 수 있으며, 결과적으로 특정 단계에 특정한 유전자표현 수준의 추세를 나타낼 수 없다.[5]
최근의 생명공학의 발전은 수백에서 수천 개의 개별 세포에서 유전자 발현을 동시에 측정할 수 있게 한다.이러한 transcriptomics 기술의 발전은 단세포 transcriptomic 데이터의 생성을 가능하게 했지만, 생성된 데이터에 의해 제시된 새로운 계산 및 분석적 난제가 있다.벌크 셀 모집단의 RNA-seq 데이터를 분석하는 데 사용되는 기법은 단세포 데이터에 사용될 수 있지만, 단세포 표현 프로파일의 완전하고 상세한 연구를 용이하게 하기 위해 이 데이터 유형에 대해 많은 새로운 컴퓨터 접근법이 설계되었다.[6]
실험 단계
현재 단세포 데이터를 생성하기 위한 표준화된 기술은 없으며, 모든 방법에는 모집단으로부터의 세포 격리, 라이산 형성, 역전사 및 표현 수준의 정량화를 통한 증폭 등이 포함되어야 한다.표현의 측정을 위한 일반적인 기법은 정량적 PCR 또는 RNA-seq이다.[7]
단일 셀 격리
단세포 분석을 위해 세포를 분리하고 증폭시키는 몇 가지 방법이 있다.처리량이 적은 기법은 수백 개의 셀을 분리할 수 있고, 속도가 느리며, 선택을 가능하게 한다.이러한 방법에는 다음이 포함된다.
높은 처리량 방법은 수백에서 수만개의 셀을 빠르게 격리시킬 수 있다.[8]일반적인 기법은 다음과 같다.
정량적 PCR(qPCR)
각 대본 QPCR의 표현 수준을 측정하기 위해 적용할 수 있다.유전자 고유 프라이머는 일반 PCR과 같이 해당 유전자를 증폭시키기 위해 사용되며, 그 결과 일반적으로 100개 미만의 유전자 표본 크기에 대해서만 데이터를 얻는다.조건 하에서 표현이 일정해야 하는 하우스키핑 유전자의 포함은 정상화를 위해 사용된다.가장 흔히 사용되는 집 유지 유전자는 GAPDH와 α-actin이 있는데, 이 과정을 통한 정상화의 신뢰성은 표현 수준이 크게 달라질 수 있다는 증거가 있어 의심스럽다.[9]형광 염료는 PCR 제품을 검출하고 증폭의 진행 상황을 모니터링하기 위해 리포터 분자로 사용된다. 형광 강도 증가는 앰프콘 농도에 비례한다.형광도와 주기 수치의 그림이 만들어지고, 그래프가 이 값에 도달하는 주기 수를 찾기 위해 임계값 형광 수준을 사용한다.이 지점의 주기 번호는 임계값 주기(Ct)로 알려져 있으며 각 유전자에 대해 측정된다.[10]
단세포 RNA-seq
단세포 RNA-seq 기법은 RNA의 모집단을 cDNA 단편들의 라이브러리로 변환시킨다.이 파편들은 고처리 차세대 염기서열 분석 기법에 의해 배열되며, 판독치는 참조 게놈에 다시 매핑되어 각 유전자와 관련된 판독 횟수의 카운트를 제공한다.[11]
RNA-seq 데이터의 정규화는 cDNA 라이브러리 형성과 시퀀싱의 효율성에 있어 셀 대 셀의 변화를 설명한다.한 가지 방법은 각 셀 리세이트에 동일한 양으로 추가되고 스파이크인 mRNA에 매핑된 판독 횟수로 판독 카운트를 정규화하는 데 사용되는 외부 RNA 스파이크인(알려진 시퀀스 및 양의 RNA 시퀀스)의 사용에 의존한다.[12]
또 다른 대조군은 고유한 분자 식별자(UMI)-짧은 DNA 시퀀스(6~10nt)를 사용하여 증폭 전에 각 cDNA에 추가되며 각 cDNA 분자에 대한 바코드 역할을 한다.정상화는 증폭 효율의 차이를 설명하기 위해 각 유전자와 관련된 고유한 UMI의 카운트 수를 사용하여 달성된다.[13]
스파이크인, UMI 및 기타 접근법의 조합은 보다 정확한 정상화를 위해 조합되었다.
고려 사항.
단세포 데이터와 관련된 문제는 역전사 과정에서 포착되지 않는 덜 발현된 유전자의 mRNA 농도가 낮기 때문에 흔히 기술 중퇴라고 알려진 제로 팽창 유전자 발현 분포의 형태로 발생한다.세포 라이스에서 검출되는 mRNA 분자의 비율은 10-20%[14]에 불과한 경우가 많다.
정상화를 위해 RNA 스파이크인을 사용하는 경우 내생 RNA와 스파이크인 RNA의 증폭과 시퀀싱 효율성이 동일하다고 가정한다.증거에 따르면 스파이크 인에서 폴리아데닐화 꼬리가 없어 길이가 짧아지는 등 크기와 특징의 근본적인 차이가 고려된 경우는 아니다.[15]또한 UMI를 사용한 정상화는 cDNA 라이브러리가 포화 상태로 시퀀싱된다고 가정하지만 항상 그런 것은 아니다.[13]
데이터 분석
단세포 데이터 분석에 기초한 통찰력은 입력이 위에서 설명한 접근법에 의해 생성된 정규화된 유전자 발현 카운트의 행렬이며 대량으로 얻을 수 없는 기회를 제공할 수 있다고 가정한다.
다음과 같은 3가지 주요 통찰력을 제공했다.[6]
- 세포유형과 그 공간구성의 적시에 식별 및 특성화
- 개별 세포에 걸친 유전자 규제 네트워크와 그 강도의 추론
- 전사 확률성분 분류
요약된 기법은 이 세 가지 특징을 쉽게 드러내기 위해 데이터에서 패턴을 시각화하고 탐구하는 데 도움이 되도록 설계되었다.
클러스터링
군집화는 세포군에서 부분군을 형성하는 것을 허용한다.세포는 부군집 구조를 분석하고 희귀한 세포 유형이나 세포 하위 유형을 식별하기 위해 그들의 기록학적 프로파일에 의해 군집될 수 있다.대신, 유전자는 공동의 유전자를 식별하기 위해 그들의 표현 상태에 의해 군집될 수 있다.바이클러스터링이라고 알려진 두 군집화 접근법의 조합은 세포 군집 내에서 유사하게 작용하는 유전자를 찾기 위해 유전자와 세포에 의해 동시에 군집화하는 데 사용되어 왔다.[16]
적용되는 클러스터링 방법은 K-평균 군집화, 분리 그룹 형성 또는 계층적 군집화, 중첩 파티션 형성 등이 될 수 있다.
비클러스터링
바이클러스터링은 클러스터링의 분해능을 개선함으로써 몇 가지 이점을 제공한다.세포의 부분집합에만 유익하고 따라서 그곳에서만 표현되는 유전자는 바이클러스터링을 통해 확인할 수 있다.더욱이 한 세포 군집과 다른 세포 군집을 구별하는 유사하게 작용하는 유전자는 이 방법을 사용하여 식별할 수 있다.[17]
차원성 감소
주성분 분석(PCA), t-SNE와 같은 치수 감소 알고리즘을 사용하여 셀을 고차원 공간에서 저차원 공간으로 변환하여 시각화 및 패턴 검출 데이터를 단순화할 수 있다.이 방법의 결과는 각 셀을 2-D 또는 3-D 공간의 점으로 하여 그래프를 생성한다.거리 지표가 비직관적으로 작용해 높은 차원의 셀이 잘못 가까워 보일 수 있어 군집화 전 차원 감소가 자주 사용된다.[18]
주성분 분석
가장 많이 사용되는 기법은 PCA로, 가장 큰 분산 주성분의 방향을 식별하고 데이터를 변환하여 첫 번째 주성분이 가능한 가장 큰 분산을 가지도록 하며, 연속적인 원성분들은 각각 이전 성분과 직교하면서 가능한 가장 높은 분산을 가진다.s. 각 유전자가 각 성분에 미치는 기여는 어떤 유전자가 모집단의 분산을 가장 많이 기여하고 있으며 다른 하위 집단을 구별하는 데 관여하고 있는지를 추론하는 데 사용된다.[19]
미분식
두 모집단 사이의 유전자 발현 수준의 차이를 탐지하는 것은 단세포와 벌크 대본 데이터 둘 다 사용된다.전문화된 방법은 기술적 중퇴 및 분포의 형태와 같은 단일 셀 특성을 고려하는 단일 셀 데이터를 위해 설계되었다.바이모달 대 유니모달.[20]
유전자 온톨로지 농축
유전자 온톨로지 용어는 유전자 기능과 그 기능들 간의 관계를 세 가지 등급으로 설명한다.
- 분자함수
- 셀룰러 컴포넌트
- 생물학적 과정
유전자 온톨로지(GO) 용어 농축은 주어진 유전자 집합에서 어떤 GO 용어가 과대표현되거나 과소표현되는지를 식별하기 위해 사용되는 기법이다.단세포 분석에서 관심 있는 유전자의 입력 목록은 차등 표현된 유전자 또는 바이클러스터링에서 생성된 유전자 그룹에 기초하여 선택할 수 있다.입력 목록에서 GO 용어에 주석을 달은 유전자의 수는 통계적 유의성을 결정하기 위해 게놈의 모든 유전자의 배경 집합에서 GO 용어에 주석을 달은 유전자의 수에 대해 정규화된다.[21]
유사순서순서
의사-임시 순서(또는 궤적 추론)는 스냅숏 단세포 데이터에서 유전자 발현 역학을 추론하는 것을 목적으로 하는 기법이다.이 방법은 유사한 세포가 서로 밀접하게 배치되도록 세포의 순서를 정하려고 한다.이 세포의 궤적은 선형적일 수 있지만, 더 복잡한 그래프 구조를 분리하거나 따를 수도 있다.따라서 그 궤적은 분화 또는 외부 자극에 대한 반응을 통한 진행에 의해 유전자 발현 역학의 추론과 세포의 순서가 가능하게 한다.방법은 세포들이 관심의 과정을 통해 같은 경로를 따라가고, 그들의 전사 상태가 그들의 진행과 상관관계가 있다는 가정에 의존한다.알고리즘은 혼합 모집단과 임시 표본 모두에 적용할 수 있다.
사이비-임시 순서에 대한 50개 이상의 방법이 개발되었으며, 각각 사전 정보(시작 셀이나 시간 과정 데이터 등), 검출 가능한 위상 및 방법론에 대한 요구사항을 가지고 있다.[22]대표적인 알고리즘은 데이터의 차원성 감소를 수행하고, 변환된 데이터를 이용해 최소한의 신장 트리를 만들고, 트리의 가장 긴 연결 경로를 따라 사이비타임으로 셀을 정렬하고, 결과적으로 유형별로 셀에 라벨을 붙이는 모노클 알고리즘이다[23].또 다른 예는 확산 지도와 확산 과정을 사용하는 확산 유사성(DPT) 알고리즘이다.[21]
네트워크 추론
유전자 규제 네트워크 추론은 그래프로 보여지는 네트워크 구축을 목표로 하는 기법으로, 노드가 유전자와 가장자리를 나타내며 공동 규제 상호작용을 나타낸다.방법은 유전자의 발현 사이에 강한 통계적 관계가 잠재적인 기능적 관계를 나타내는 것이라는 가정에 의존한다.[24]통계적 관계의 강도를 측정하는 데 가장 일반적으로 사용되는 방법은 상관관계다.그러나 상관관계는 비선형 관계를 식별하지 못하고 상호 정보가 대안으로 사용된다.네트워크로 연결된 유전자 군집은 표현에서 조정된 변화를 겪는 유전자를 의미한다.[25]
통합
서로 다른 실험 프로토콜을 사용하여 다른 실험 조건에서 생성된 단일 세포 기록체학 데이터 집합은 종종 기술적 효과의 존재 또는 강도와 관찰된 세포의 유형이 다른 요인 중에서 다르다.이것은 특히 교란 요인이 존재하는 경우에 배치 전체에 적용되는 통계적 방법의 발견을 편향시킬 수 있는 강한 배치 효과를 야기한다.[26]앞서 언급한 단일 셀 대본 데이터의 특성 결과, 대량 시퀀싱 데이터를 위해 개발된 배치 보정 방법이 저조한 성능을 보이는 것으로 관찰되었다.이는 다른 출처 또는 실험 배치의 데이터를 통합하기 위해 단일 셀 대본 데이터의 특성에 강한 배치 효과를 교정하는 통계적 방법을 개발하는 결과를 낳았다.이와 관련된 기초 작업은 Laleh Haghverdi가 배치 수정 벡터를 정의하기 위해 각 배치 간에 상호 가장 가까운 이웃의 사용을 형성하는 과정에서 수행했다.[27]이러한 벡터는 각각 하나 이상의 공유 셀 유형을 포함하는 데이터셋을 병합하는 데 사용할 수 있다.직교 접근법은 표준 상관 분석을 사용하여 각 데이터 집합을 공유 저차원 공간에 투영하는 것을 포함한다.[28]또한 가장 가까운 상호 이웃과 표준 상관관계 분석은 한 데이터 집합의 참조 셀을 구성하는 통합 "앵커"를 정의하기 위해 결합되었고, 다른 데이터 집합의 쿼리 셀이 정규화되었다.[29]
참고 항목
참조
- ^ Kanter, Itamar; Kalisky, Tomer (1 January 2015). "Single Cell Transcriptomics: Methods and Applications". Frontiers in Oncology. 5: 53. doi:10.3389/fonc.2015.00053. ISSN 2234-943X. PMC 4354386. PMID 25806353.
- ^ Liu, Serena; Trapnell, Cole (17 February 2016). "Single-cell transcriptome sequencing: recent advances and remaining challenges". F1000Research. 5: F1000 Faculty Rev–182. doi:10.12688/f1000research.7223.1. ISSN 2046-1402. PMC 4758375. PMID 26949524.
- ^ Szabo, David T. (2014-03-10). "Chapter 62 - Transcriptomic biomarkers in safety and risk assessment of chemicals". Biomarkers in Toxicology. Academic Press. pp. 1033–1038. ISBN 9780124046306.
- ^ Kanter, Itamar; Kalisky, Tomer (10 March 2015). "Single Cell Transcriptomics: Methods and Applications". Frontiers in Oncology. 5: 53. doi:10.3389/fonc.2015.00053. ISSN 2234-943X. PMC 4354386. PMID 25806353.
- ^ Trapnell, Cole (1 October 2015). "Defining cell types and states with single-cell genomics". Genome Research. 25 (10): 1491–1498. doi:10.1101/gr.190595.115. ISSN 1088-9051. PMC 4579334. PMID 26430159.
- ^ a b Stegle, Oliver; Teichmann, Sarah A.; Marioni, John C. (1 March 2015). "Computational and analytical challenges in single-cell transcriptomics". Nature Reviews Genetics. 16 (3): 133–145. doi:10.1038/nrg3833. ISSN 1471-0056. PMID 25628217. S2CID 205486032.
- ^ Kolodziejczyk, Aleksandra A.; Kim, Jong Kyoung; Svensson, Valentine; Marioni, John C.; Teichmann, Sarah A. (May 2015). "The Technology and Biology of Single-Cell RNA Sequencing". Molecular Cell. 58 (4): 610–620. doi:10.1016/j.molcel.2015.04.005. PMID 26000846.
- ^ Poulin, Jean-Francois; Tasic, Bosiljka; Hjerling-Leffler, Jens; Trimarchi, Jeffrey M.; Awatramani, Rajeshwar (1 September 2016). "Disentangling neural cell diversity using single-cell transcriptomics". Nature Neuroscience. 19 (9): 1131–1141. doi:10.1038/nn.4366. ISSN 1097-6256. PMID 27571192. S2CID 14461377.
- ^ Radonić, Aleksandar; Thulke, Stefanie; Mackay, Ian M.; Landt, Olfert; Siegert, Wolfgang; Nitsche, Andreas (23 January 2004). "Guideline to reference gene selection for quantitative real-time PCR". Biochemical and Biophysical Research Communications. 313 (4): 856–862. doi:10.1016/j.bbrc.2003.11.177. ISSN 0006-291X. PMID 14706621.
- ^ Wildsmith, S. E.; Archer, G. E.; Winkley, A. J.; Lane, P. W.; Bugelski, P. J. (1 January 2001). "Maximization of signal derived from cDNA microarrays". BioTechniques. 30 (1): 202–206, 208. doi:10.2144/01301dd04. ISSN 0736-6205. PMID 11196312.
- ^ Wang, Zhong; Gerstein, Mark; Snyder, Michael (23 March 2017). "RNA-Seq: a revolutionary tool for transcriptomics". Nature Reviews. Genetics. 10 (1): 57–63. doi:10.1038/nrg2484. ISSN 1471-0056. PMC 2949280. PMID 19015660.
- ^ Jiang, Lichun; Schlesinger, Felix; Davis, Carrie A.; Zhang, Yu; Li, Renhua; Salit, Marc; Gingeras, Thomas R.; Oliver, Brian (23 March 2017). "Synthetic spike-in standards for RNA-seq experiments". Genome Research. 21 (9): 1543–1551. doi:10.1101/gr.121095.111. ISSN 1088-9051. PMC 3166838. PMID 21816910.
- ^ a b Islam, Saiful; Zeisel, Amit; Joost, Simon; La Manno, Gioele; Zajac, Pawel; Kasper, Maria; Lönnerberg, Peter; Linnarsson, Sten (1 February 2014). "Quantitative single-cell RNA-seq with unique molecular identifiers". Nature Methods. 11 (2): 163–166. doi:10.1038/nmeth.2772. ISSN 1548-7091. PMID 24363023. S2CID 6765530.
- ^ Kharchenko, Peter V.; Silberstein, Lev; Scadden, David T. (1 July 2014). "Bayesian approach to single-cell differential expression analysis". Nature Methods. 11 (7): 740–742. doi:10.1038/nmeth.2967. ISSN 1548-7091. PMC 4112276. PMID 24836921.
- ^ Svensson, Valentine; Natarajan, Kedar Nath; Ly, Lam-Ha; Miragaia, Ricardo J.; Labalette, Charlotte; Macaulay, Iain C.; Cvejic, Ana; Teichmann, Sarah A. (6 March 2017). "Power analysis of single-cell RNA-sequencing experiments". Nature Methods. advance online publication (4): 381–387. doi:10.1038/nmeth.4220. ISSN 1548-7105. PMC 5376499. PMID 28263961.
- ^ Buettner, Florian; Natarajan, Kedar N.; Casale, F. Paolo; Proserpio, Valentina; Scialdone, Antonio; Theis, Fabian J.; Teichmann, Sarah A.; Marioni, John C.; Stegle, Oliver (1 February 2015). "Computational analysis of cell-to-cell heterogeneity in single-cell RNA-sequencing data reveals hidden subpopulations of cells". Nature Biotechnology. 33 (2): 155–160. doi:10.1038/nbt.3102. ISSN 1087-0156. PMID 25599176.
- ^ Ntranos, Vasilis; Kamath, Govinda M.; Zhang, Jesse M.; Pachter, Lior; Tse, David N. (26 May 2016). "Fast and accurate single-cell RNA-seq analysis by clustering of transcript-compatibility counts". Genome Biology. 17 (1): 112. doi:10.1186/s13059-016-0970-8. ISSN 1474-7596. PMC 4881296. PMID 27230763.
- ^ Pierson, Emma; Yau, Christopher (1 January 2015). "ZIFA: Dimensionality reduction for zero-inflated single-cell gene expression analysis". Genome Biology. 16: 241. doi:10.1186/s13059-015-0805-z. ISSN 1474-760X. PMC 4630968. PMID 26527291.
- ^ Treutlein, Barbara; Brownfield, Doug G.; Wu, Angela R.; Neff, Norma F.; Mantalas, Gary L.; Espinoza, F. Hernan; Desai, Tushar J.; Krasnow, Mark A.; Quake, Stephen R. (15 May 2014). "Reconstructing lineage hierarchies of the distal lung epithelium using single-cell RNA-seq". Nature. 509 (7500): 371–375. Bibcode:2014Natur.509..371T. doi:10.1038/nature13173. PMC 4145853. PMID 24739965.
- ^ Korthauer, Keegan D.; Chu, Li-Fang; Newton, Michael A.; Li, Yuan; Thomson, James; Stewart, Ron; Kendziorski, Christina (1 January 2016). "A statistical approach for identifying differential distributions in single-cell RNA-seq experiments". Genome Biology. 17 (1): 222. doi:10.1186/s13059-016-1077-y. ISSN 1474-760X. PMC 5080738. PMID 27782827.
- ^ a b Haghverdi, Laleh; Büttner, Maren; Wolf, F. Alexander; Buettner, Florian; Theis, Fabian J. (1 October 2016). "Diffusion pseudotime robustly reconstructs lineage branching" (PDF). Nature Methods. 13 (10): 845–848. doi:10.1038/nmeth.3971. ISSN 1548-7091. PMID 27571553. S2CID 3594049.
- ^ Saelens, Wouter; Cannoodt, Robrecht; Todorov, Helena; Saeys, Yvan (2018-03-05). "A comparison of single-cell trajectory inference methods: towards more accurate and robust tools". bioRxiv: 276907. doi:10.1101/276907. Retrieved 2018-03-12.
- ^ Trapnell, Cole; Cacchiarelli, Davide; Grimsby, Jonna; Pokharel, Prapti; Li, Shuqiang; Morse, Michael; Lennon, Niall J.; Livak, Kenneth J.; Mikkelsen, Tarjei S.; Rinn, John L. (23 March 2017). "Pseudo-temporal ordering of individual cells reveals dynamics and regulators of cell fate decisions". Nature Biotechnology. 32 (4): 381–386. doi:10.1038/nbt.2859. ISSN 1087-0156. PMC 4122333. PMID 24658644.
- ^ Wei, J.; Hu, X.; Zou, X.; Tian, T. (1 December 2016). "Inference of genetic regulatory network for stem cell using single cells expression data". 2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM): 217–222. doi:10.1109/BIBM.2016.7822521. ISBN 978-1-5090-1611-2. S2CID 27737735.
- ^ Moignard, Victoria; Macaulay, Iain C.; Swiers, Gemma; Buettner, Florian; Schütte, Judith; Calero-Nieto, Fernando J.; Kinston, Sarah; Joshi, Anagha; Hannah, Rebecca; Theis, Fabian J.; Jacobsen, Sten Eirik; de Bruijn, Marella F.; Göttgens, Berthold (1 April 2013). "Characterization of transcriptional networks in blood stem and progenitor cells using high-throughput single-cell gene expression analysis". Nature Cell Biology. 15 (4): 363–372. doi:10.1038/ncb2709. ISSN 1465-7392. PMC 3796878. PMID 23524953.
- ^ Hicks, Stephanie C; Townes, William F; Teng, Mingxiang; Irizarry, Rafael A (6 November 2017). "Missing data and technical variability in single-cell RNA-sequencing experiments". Biostatistics. 19 (4): 562–578. doi:10.1093/biostatistics/kxx053. PMC 6215955. PMID 29121214.
- ^ Haghverdi, Laleh; Lun, Aaron T L; Morgan, Michael D; Marioni, John C (2 April 2018). "Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors". Nature Biotechnology. 36 (5): 421–427. doi:10.1038/nbt.4091. PMC 6152897. PMID 29608177.
- ^ Butler, Andrew; Hoffman, Paul; Smibert, Peter; Papalexi, Efthymia; Satija, Rahul (2 April 2018). "Integrating single-cell transcriptomic data across different conditions, technologies, and species". Nature Biotechnology. 36 (5): 421–427. doi:10.1038/nbt.4096. PMC 6700744. PMID 29608179.
- ^ Stuart, Tim; Butler, Andrew; Hoffman, Paul; Hafemeister, Christoph; Papalexia, Efthymia; Mauck, William M III; Hao, Yuhan; Marlon, Stoeckius; Smibert, Peter; Satija, Rahul (6 June 2019). "Comprehensive Integration of Single-Cell Data". Cell. 177 (7): 1888–1902. doi:10.1016/j.cell.2019.05.031. PMC 6687398. PMID 31178118.
