유전자공발현망
Gene co-expression network유전자공표현네트워크(GCN)는 각 노드가 유전자에 대응하고, 이들 [1]사이에 유의한 공표현관계가 있는 경우에는 한 쌍의 노드가 에지와 접속되는 무방향 그래프이다.여러 샘플 또는 실험 조건에 대해 다수의 유전자의 유전자 발현 프로파일을 가지며, 두 개의 공발현 유전자의 전사 수준이 시료 간에 함께 상승 및 하강하므로 시료 간에 유사한 발현 패턴을 보이는 유전자 쌍을 찾아 유전자 공발현 네트워크를 구축할 수 있다.유전자 공발현 네트워크는 공발현 유전자가 동일한 전사 조절 프로그램, 기능적으로 관련되거나 동일한 경로 또는 단백질 [2]복합체의 구성원에 의해 제어되기 때문에 생물학적으로 관심이 있다.
유전자 공발현 관계의 방향과 유형은 유전자 공발현 네트워크에서는 결정되지 않는다; 반면 유전자 조절 네트워크(GRN)에서는 방향 가장자리가 반응, 변형, 상호작용, 활성화 또는 [3]억제와 같은 생화학적 과정을 나타내는 두 개의 유전자를 연결한다.GRN과 비교하여 GCN은 유전자 간의 인과관계를 추론하지 않으며 [4]GCN에서 가장자리는 유전자 간의 상관관계 또는 의존관계만을 나타낸다.유전자 공발현 네트워크의 모듈 또는 고도로 연결된 서브그래프는 유사한 기능을 가지고 있거나 [3]그들 사이에 많은 상호작용을 일으키는 공통의 생물학적 과정에 관여하는 유전자의 클러스터에 대응한다.
유전자 공발현 네트워크는 일반적으로 마이크로어레이 또는 RNA-Seq와 같은 높은 처리량 유전자 발현 프로파일링 기술에 의해 생성된 데이터 세트를 사용하여 구축된다.
역사
유전자 공발현 네트워크의 개념은 1999년 Butte와 Kohane에 의해 관련 [5]네트워크로 처음 도입되었다.그들은 다수의 환자에 대한 의료 실험실 테스트의 측정 데이터(예: 헤모글로빈 수준)를 수집하여 각 테스트 쌍에 대한 결과와 특정 수준 이상의 상관 관계를 나타내는 테스트 쌍(예: 혈당 수준) 사이의 피어슨 상관 관계를 네트워크에서 계산했다.Butte와 Kohane은 나중에 공동발현 측정으로 상호 정보를 이용하여 이 방법을 사용하였고, 최초의 유전자 공동발현 [6]네트워크를 구축하기 위해 유전자 발현 데이터를 사용했다.
유전자 공발현 네트워크 구축
유전자 공발현 네트워크를 구축하기 위한 많은 방법이 개발되어 왔다.원칙적으로 모두 2단계 접근방식을 따릅니다.공식 측도의 계산과 유의 임계값의 선택입니다.제1단계에서는 공동발현측정을 선택하고 이 방법을 사용하여 유전자 쌍별로 유사도 점수를 산출한다.다음으로 역치를 결정하고 선택된 역치보다 높은 유사성 점수를 가진 유전자 쌍은 유의한 공발현 관계를 갖는 것으로 간주되어 네트워크 내의 엣지에 의해 접속된다.
유전자 공발현 네트워크를 구축하기 위한 입력 데이터는 매트릭스로 표현되는 경우가 많다.n개의 샘플(조건)에 대해 m개의 유전자의 유전자 발현 값을 갖는다면 입력 데이터는 발현 매트릭스라고 불리는 m×n 매트릭스가 될 것이다.예를 들어, 마이크로 어레이 실험에서 수천 개의 유전자의 발현 값이 여러 샘플에 대해 측정됩니다.첫 번째 단계에서는 식행렬의 각 행 쌍 간에 유사도 점수(공식 측도)를 산출한다.결과 행렬은 유사도 행렬이라고 불리는 m×m 행렬이다.이 매트릭스의 각 요소는 두 유전자의 발현 수준이 얼마나 비슷하게 함께 변화하는지 보여준다.두 번째 단계에서는 유사도 매트릭스 중 어느 역치(즉 유의한 공식을 나타낸다)를 넘는 요소는 1로 치환되고 나머지 요소는 0으로 치환된다.인접 행렬이라고 불리는 결과 행렬은 구성된 유전자 공동 발현 네트워크의 그래프를 나타냅니다.이 매트릭스에서 각 요소는 2개의 유전자가 네트워크에 연결되어 있는지 여부(1개의 요소)를 나타냅니다(0개의 요소).
공표현 측도
서로 다른 샘플에 대한 유전자의 발현 값은 벡터로 나타낼 수 있으므로 유전자 쌍 간의 공동 발현 측정값을 계산하는 것은 두 개의 벡터에 대해 선택된 측정값을 계산하는 것과 같다.
피어슨의 상관계수, 상호정보, 스피어맨의 순위 상관계수, 유클리드 거리는 유전자 공동발현 네트워크를 구축하는 데 가장 많이 사용되는 네 가지 공동발현 척도이다.유클리드 거리는 두 벡터 사이의 기하학적 거리를 측정하기 때문에 유전자 발현 값의 벡터의 방향과 크기를 모두 고려합니다.상호 정보는 한 유전자의 발현 수준을 아는 것이 다른 유전자의 발현 수준에 대한 불확실성을 얼마나 감소시키는지 측정합니다.Pearson의 상관 계수는 두 벡터가 함께 증가하거나 감소하는 경향을 측정하여 이들의 전체 대응 관계를 측정합니다.스피어먼의 순위 상관관계는 유전자 발현 [2]벡터의 유전자 발현 값 순위를 계산한 피어슨 상관관계다.편상관,[7] 회귀,[8] 편상관 및 상호 정보의[9] 조합과 같은 다른 여러 가지 척도도 사용되었다.
이러한 조치들은 각각 장단점을 가지고 있다.유클리드 거리는 기능적으로 관련된 유전자의 절대 수준이 매우 다를 때 적절하지 않다.또한, 두 유전자가 지속적으로 낮은 발현 수준을 가지지만 그 외에는 랜덤하게 상관되어 있다면, 그들은 여전히 유클리드 [2]공간에서 가깝게 나타날 수 있다.상호 정보의 장점 중 하나는 비선형 관계를 탐지할 수 있다는 것입니다. 그러나 이는 생물학적으로 의미가 없어 보이는 정교한 비선형 관계를 탐지하기 때문에 단점이 될 수 있습니다.또한 상호 정보를 계산하기 위해 많은 샘플이 필요한 데이터의 분포를 추정해야 한다.Spearman의 순위 상관 계수는 특이치에 대해 더 강력하지만, 반면에 식 값에 덜 민감하며 샘플 수가 적은 데이터 집합에서는 잘못된 양성이 많이 탐지될 수 있습니다.
Pearson의 상관 계수는 유전자 공동 발현 네트워크를 구성하는 데 사용되는 가장 일반적인 공동 발현 척도입니다.Pearson의 상관 계수는 -1과 1 사이의 값을 취하며, 여기서 1에 가까운 절대값은 강한 상관 관계를 나타냅니다.양의 값은 한 유전자의 발현과 함께 한 유전자의 발현도 증가하는 활성화 메커니즘에 해당하며, 그 반대도 마찬가지입니다.한 유전자의 발현 값이 공동 발현 유전자의 발현 증가와 함께 감소하면, 그것은 기초적인 억제 메커니즘에 대응하고 음의 상관 관계를 갖게 된다.
Pearson 상관 관계 측도에는 선형 관계만 탐지할 수 있고 특이치에 민감하다는 두 가지 단점이 있습니다.또한 피어슨 상관관계는 유전자 발현 데이터가 정규 분포를 따른다고 가정합니다.송 [10]외피어슨의 상관관계에 대한 좋은 대안으로 biweight midcorrelation(bicor)을 제시했다."바이코어는 중앙값 기반 상관 측도로 피어슨 상관 관계보다 강력하지만 종종 스피어맨 상관 관계보다 강력합니다."또한, "대부분의 유전자 쌍이 선형 또는 단조로운 관계를 만족한다"는 것이 밝혀졌으며, 이는 "정지[10] 데이터에서의 공동 발현 관계를 측정할 때 상호 정보 네트워크가 상관 네트워크로 안전하게 대체될 수 있다"는 것을 나타낸다.
임계값 선택
유전자 공발현 네트워크를 구성하는 데 역치를 선택하기 위해 몇 가지 방법이 사용되어 왔다.간단한 임계값화 방법은 공표현 컷오프를 선택하고 공표현이 이 컷오프를 초과하는 관계를 선택하는 것입니다.또 다른 방법은 표본 수를 기반으로 각 상관에 대한 z 점수를 계산하는 Fisher의 Z 변환을 사용하는 것입니다.그런 다음 이 z 점수는 각 상관 관계에 대한 p-값으로 변환되고 p-값에 대해 컷오프가 설정됩니다.일부 방법은 데이터를 허용하고 순열된 데이터 [2]집합에서 유전자 간에 발견된 상관 관계 분포를 사용하여 z 점수를 계산한다.클러스터링 계수나[11] 랜덤 매트릭스 이론에 [12]기초한 임계값 선택과 같은 다른 접근법도 사용되었습니다.
p-값 기반 방법의 문제는 p-값의 최종 컷오프가 생물학적 통찰에 기초하지 않고 통계 루틴에 기초해 선택된다는 것이다(예: 0.01 또는 0.05의 p-값은 유의한 것으로 간주됨).
WGCNA는 가중 유전자 공발현 [13]네트워크를 구축하고 분석하는 프레임워크입니다.WGCNA 방법은 유전자 공발현 네트워크의 스케일 프리 토폴로지에 근거해 네트워크를 구축하기 위한 문턱값을 선택한다.이 방법에서는 네트워크를 여러 임계값으로 구성하고 스케일프리 토폴로지를 가진 네트워크로 이어지는 임계값을 선택합니다.또한 WGCNA 방법은 네트워크에 가능한 모든 에지가 나타나는 것을 의미하는 가중 네트워크를 구축하지만 각 에지는 해당 에지에 대응하는 공표현 관계가 얼마나 중요한지를 보여주는 가중치를 가진다.특히 임계값 선택은 네트워크를 스케일프리 토폴로지로 강제하기 위한 것입니다.그러나 생물 네트워크가 확장성이 없다는 근본적인 전제는 [14][15][16]논란의 여지가 있다.
lmQCM은 WGCNA가 유전자 공발현 네트워크 분석의 동일한 목표를 달성하기 위한 대안이다.lmQCM은 [17]local maximum Qui-Clique Merge의 약자로 네트워크 내의 로컬 고밀도 구조를 이용하는 것을 목적으로 합니다.따라서 모듈 오버랩을 허용함으로써 더 작고 고밀도하게 표현된 모듈을 마이닝할 수 있습니다.알고리즘 lmQCM에는 R 패키지와 python 모듈(Biolearns에 번들됨)이 있습니다.일반적으로 채굴된 모듈의 크기가 작을수록 더 의미 있는 유전자 온톨로지(GO) 농축 결과도 얻을 수 있습니다.
적용들
- 단일 세포 배열 분석 - 유전자 발현 프로파일을 독립[18] 변수로 사용하여 단일 세포에서 특정 돌연변이의 존재에 대한 더 나은 예측을 얻기 위해 벌크 RNA-Seq 데이터를 사용하여 생성된 유전자 공동 발현 네트워크를 사용하여 단일 세포 시나리오에서 신호/소음비를 증가시켰다.
- 유전자 네트워크 리버스 엔지니어링 - 유전자 조절 네트워크를 추론하는 수백 가지 방법이 존재하며, 현재 수십 가지가 단순한 상관 관계, 상호 정보 또는 베이지안 [19]방법에 기초한 공동 발현 분석에 기초하고 있습니다.
- 식물생물학 - 공발현 분석은 특정 식물 경로에 관련된 새로운 유전자를 찾기 위해 광범위하게 사용되어 왔다.한 가지 예는 세포벽 합성이다: 이 대사 메커니즘에서 누락된 고리의 특성은 발현 프로파일이 이전에 알려진 경로 [20]구성원과 상관되는 새로운 셀룰로오스 합성 유전자(CESA)를 발견함으로써 가능했다.
「 」를 참조해 주세요.
레퍼런스
- ^ Stuart, Joshua M; Segal, Eran; Koller, Daphne; Kim, Stuart K (2003). "A gene-coexpression network for global discovery of conserved genetic modules". Science. 302 (5643): 249–55. Bibcode:2003Sci...302..249S. CiteSeerX 10.1.1.119.6331. doi:10.1126/science.1087447. PMID 12934013. S2CID 3131371.
- ^ a b c d Weirauch, Matthew T (2011). "Gene coexpression networks for the analysis of DNA microarray data". Applied Statistics for Network Biology: Methods in Systems Biology. pp. 215–250. doi:10.1002/9783527638079.ch11. ISBN 9783527638079.
- ^ a b Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K (2014). "Reconstruction of gene co-expression network from microarray data using local expression patterns". BMC Bioinformatics. 15: S10. doi:10.1186/1471-2105-15-s7-s10. PMC 4110735. PMID 25079873.
- ^ De Smet, Riet; Marchal, Kathleen (2010). "Advantages and limitations of current network inference methods". Nature Reviews Microbiology. 8 (10): 717–29. doi:10.1038/nrmicro2419. PMID 20805835. S2CID 27629033.
- ^ Butte, Atul J; Kohane, Isaac S (1999). "Unsupervised knowledge discovery in medical databases using relevance networks". Proceedings of the AMIA Symposium.
- ^ Butte, Atul J; Kohane, Isaac S (2000). "Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements". Pac Symp Biocomput. 5.
- ^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrien; SanCristobal, Magali (2013). "The structure of a gene co-expression network reveals biological functions underlying eQTLs". PLOS ONE. 8 (4): 60045. Bibcode:2013PLoSO...860045V. doi:10.1371/journal.pone.0060045. PMC 3618335. PMID 23577081.
- ^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Page, Grier P; Somerville, Christopher R (2005). "Identification of genes required for cellulose synthesis by regression analysis of public microarray data sets". Proceedings of the National Academy of Sciences of the United States of America. 102 (24): 8633–8. Bibcode:2005PNAS..102.8633P. doi:10.1073/pnas.0503392102. PMC 1142401. PMID 15932943.
- ^ Reverter, Antonio; Chan, Eva KF (2008). "Combining partial correlation and an information theory approach to the reversed engineering of gene co-expression networks". Bioinformatics. 24 (21): 2491–2497. doi:10.1093/bioinformatics/btn482. PMID 18784117.
- ^ a b Song, Lin; Langfelder, Peter; Horvath, Steve (2012). "Comparison of co-expression measures: mutual information, correlation, and model based indices". BMC Bioinformatics. 13 (1): 328. doi:10.1186/1471-2105-13-328. PMC 3586947. PMID 23217028.
- ^ Elo, Laura L; Järvenpää, Henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero (2007). "Systematic construction of gene coexpression networks with applications to human T helper cell differentiation process". Bioinformatics. 23 (16): 2096–2103. doi:10.1093/bioinformatics/btm309. PMID 17553854.
- ^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong (2007). "Constructing gene co-expression networks and predicting functions of unknown genes by random matrix theory". BMC Bioinformatics. 8 (1): 299. doi:10.1186/1471-2105-8-299. PMC 2212665. PMID 17697349.
- ^ Zhang, Bin; Horvath, Steve (2005). "A general framework for weighted gene co-expression network analysis". Statistical Applications in Genetics and Molecular Biology. 4 (1): Article17. CiteSeerX 10.1.1.471.9599. doi:10.2202/1544-6115.1128. PMID 16646834. S2CID 7756201.
- ^ Khanin, R.; Wit, E. (2006). "How scale-free are biological networks". Journal of Computational Biology : A Journal of Computational Molecular Cell Biology. 13 (3): 810–8. doi:10.1089/cmb.2006.13.810. PMID 16706727.
- ^ Broido, Anna D.; Clauset, Aaron (2019). "Scale-free networks are rare". Nature Communications. 10 (1): 1017. arXiv:1801.03400. Bibcode:2019NatCo..10.1017B. doi:10.1038/s41467-019-08746-5. PMC 6399239. PMID 30833554. S2CID 24825063.
- ^ Clote, P. (2020). "Are RNA networks scale-free?". Journal of Mathematical Biology. 80 (5): 1291–1321. doi:10.1007/s00285-019-01463-z. PMC 7052049. PMID 31950258.
- ^ Zhang, Jie; Huang, Kun (2014). "Normalized ImQCM: An Algorithm for Detecting Weak Quasi-Cliques in Weighted Graph with Applications in Gene Co-Expression Module Discovery in Cancers". Cancer Informatics. 13 (3): 137–46. doi:10.4137/CIN.S14021. PMC 4962959. PMID 27486298.
- ^ Mercatelli, Daniele; Ray, Forest; Giorgi, Federico M. (2019). "Pan-Cancer and Single-Cell Modeling of Genomic Alterations Through Gene Expression". Frontiers in Genetics. 10: 671. doi:10.3389/fgene.2019.00671. ISSN 1664-8021. PMC 6657420. PMID 31379928.
- ^ Mercatelli, Daniele; Scalambra, Laura; Triboli, Luca; Ray, Forest; Giorgi, Federico M. (2020). "Gene regulatory network inference resources: A practical overview". Biochimica et Biophysica Acta (BBA) - Gene Regulatory Mechanisms. 1863 (6): 194430. doi:10.1016/j.bbagrm.2019.194430. ISSN 1874-9399. PMID 31678629.
- ^ Usadel, Bjoern; Obayashi, Takeshi; Mutwil, Marek; Giorgi, Federico M.; Bassel, George W.; Tanimoto, Mimi; Chow, Amanda; Steinhauser, Dirk; Persson, Staffan; Provart, Nicholas J. (2009). "Co-expression tools for plant biology: opportunities for hypothesis generation and caveats". Plant, Cell & Environment. 32 (12): 1633–1651. doi:10.1111/j.1365-3040.2009.02040.x. ISSN 0140-7791. PMID 19712066.