게놈 아키텍처 맵핑

Genome architecture mapping

분자생물학에서 게놈 아키텍처 매핑(GAM)은 결찰에 의존하지 않는 방식으로 [1][2]혈소화 DNA 영역을 매핑하는 저온 생성 방법이다.이러한 방법들은 상호 작용하는 DNA [3]세그먼트를 포착하기 위한 소화 및 결함에 의존하기 때문에 염색체 구성 캡처(3C)의 몇 가지 한계를 극복합니다.GAM은 경계 [1]없이 임의의 수의 게놈 위치 사이의 3차원 근위성을 포착하는 첫 번째 게놈 전체 방법입니다.

위에서 언급한 저온 처리 방법을 사용하여 발견된 섹션을 "핵 프로파일"이라고 한다.그들이 제공하는 정보는 게놈 전체에 걸친 그들의 범위와 관련이 있다.게놈 내에서 핵 프로파일의 존재 강도를 나타내는 큰 값 집합을 생성할 수 있다.게놈 전체의 커버리지가 얼마나 크거나 작은지에 기초하여, 염색질 상호작용, 저온 적출되는 핵 내의 핵 프로파일 위치 및 염색질 압축 수준을 포함한 [4]판단을 내릴 수 있다.

이 정보를 시각화할 수 있도록 특정 염색체 내에서 표현되는 게놈 창에서 핵 프로파일이 검출되는지 여부를 보여주는 표에 의해 주어진 원시 데이터를 사용하여 특정 방법을 구현할 수 있다.1은 창 내의 검출을 나타내고 0은 검출을 나타내지 않는 경우 그래프, 차트, 히트맵 및 이러한 서브셋을 바이너리 검출 방법 이외의 방법으로 표시할 수 있는 기타 시각화 방법을 생성하여 데이터의 서브셋을 취득하고 해석할 수 있습니다.저온처리를 통해 얻은 데이터를 해석하기 위해 보다 그래픽한 접근 방식을 사용하면 이전에는 볼 수 없었던 상호작용을 볼 수 있습니다.

이러한 시각자료를 해석하는 방법의 예로는 핵 프로파일의 반경 위치와 크로마틴 압축 수준을 보여주는 막대 그래프가 있다. 이러한 그래프는 게놈 창 내에서 핵 프로파일이 검출되는 빈도를 일반화하기 위해 범주로 나눌 수 있다.레이더 차트는 여러 변수 내에서 발생한 비율을 나타내는 원형 그래프입니다.게놈 정보의 관점에서, 레이더 차트는 게놈 창을 구성하는 특정 영역의 일부인 게놈의 "특징" 내에서 어떻게 표현되는지를 보여주기 위해 사용될 수 있다.이러한 차트는 핵 프로파일 그룹을 서로 비교하기 위해 만들 수 있으며, 이러한 특징 내에서 발생하는 방법의 차이를 그래픽으로 보여준다.히트맵은 표의 개별 값이 값에 따라 다른 색을 띠는 셀에 의해 표시되는 또 다른 형태의 시각적 표현입니다.이를 통해 유사한 색상의 그룹을 표시하거나 색상을 표시하지 않음으로써 테이블 내에서 경향을 볼 수 있습니다.

이 열 지도는 0 - 1의 값을 갖는 셀을 사용하여 핵 프로파일 간의 유사성을 나타낸다.

우측의 열 지도는 계산된 자카드 지수에 기초한 핵 프로파일 간의 관계를 나타낸다. 여기서 0-1 범위의 값은 두 핵 프로파일 간의 유사성 정도를 나타낸다.이러한 유사성을 보여주면 게놈 내에서 특정 그룹의 핵 프로파일이 더 일반적인 위치를 표시할 수 있다.이 열 지도에서 셀의 대각선 흰색 라인은 이러한 셀이 핵 프로파일이 서로 교차하는 위치를 나타내므로 가능한 한 서로 유사하므로 값이 1이 된다.세포의 흰색 대각선 외에 다른 옅은 색상의 셀 클러스터가 히트맵의 오른쪽 아래에서 관찰될 수 있습니다.이러한 핵 프로파일의 그룹화는 자카드 지수를 사용하여 높은 유사성을 나타낸다.이는 핵 프로파일이 다른 것보다 더 많은 게놈 창에 존재한다는 것을 의미한다.

이 막대 그래프는 핵 프로파일의 반경 위치가 클러스터 전체에 어떻게 분포되어 있는지를 보여준다.

오른쪽 막대 그래프는 반경 위치 범주에 속하는 핵 프로파일의 백분율을 나타낸다(5개는 강한 적도, 1개는 강한 정점).핵 프로파일의 클러스터는 k-평균 클러스터링 방법을 사용하여 서로 유사성에 기초하여 계산되었다.프로세스를 시작하기 위해 3개의 핵 프로파일이 클러스터의 '중심'으로 무작위로 선택되었다.센터를 무작위로 선택한 후, 계산된 거리 값을 사용하여 각 중심으로부터의 거리에 기초하여 다른 모든 핵 프로파일이 클러스터에 할당된다.그런 다음 클러스터를 더 잘 나타내기 위해 새로운 중심이 선택되었습니다.이 과정은 시작 부분의 중심이 끝 부분의 중심과 일치할 때까지 반복되었습니다.군집 중심이 변경되지 않은 경우에는 적절한 군집이 선택되었음을 의미할 수 있습니다.이러한 각 클러스터 내에서 핵 프로파일은 반경 위치에 따라 1~5의 값을 부여받고, 이 데이터는 막대 그래프로 보내져 시각화를 제공한다.

이것은 마우스 게놈의 다른 특징에 3개의 클러스터가 있음을 나타내는 레이더 차트입니다.

오른쪽의 이 레이더 차트는 마우스 게놈의 특정 특징 내에서 발생한 핵 프로파일의 3개 클러스터를 보여줍니다.핵 프로파일의 각 클러스터는 핵 프로파일의 반경 위치를 보여주는 막대 그래프와 관련하여 위에서 설명한 k-평균 클러스터링 기법을 사용하여 계산되었다.클러스터 간의 비교와 클러스터가 특정 기능에서 서로 대조적으로 어떻게 표시되는지 비교할 수 있습니다.특정 기능 내에서 클러스터의 존재를 계산하기 위해 기능 내에서 검출된 창 내에 핵 프로파일이 존재하는지 여부가 결정됩니다.그런 다음 특정 기능 내에서 감지된 동일한 창 내에서 클러스터 내에서 핵 프로파일이 발생하는 빈도의 백분율이 레이더 차트에 표시됩니다.

극저온 및 레이저 미세해부

액체질소에 [5]동결하기 전에 핵세포 구조를 보존하기 위해 엄격한 고정과 수크로스-PBS 용액에 의한 저온 보호를 수반하는 도쿠야스법에 따라 저온처리를 한다.Genome Architecture Mapping에서 분할은 Laser Microdection 이전에 Genome의 3D 위상을 탐색하는 데 필요한 단계입니다.레이저 미세해부는 DNA 추출과 염기서열 분석 전에 각각의 핵 프로파일을 분리할 수 있다.

데이터 분석 - 바이오 정보 도구

GAM툴

GAMtools는 Robert Beagrie가 [6]개발한 Genome Architecture Mapping 데이터용 소프트웨어 유틸리티 모음입니다.GAMtools를 실행하기 전에 Bowtie2가 필요합니다.이 프로그램에 필요한 입력은 Fastq 형식입니다.이 소프트웨어에는 다양한 기능이 있으며 사용하는 정확한 명령어는 사용하는 작업에 따라 달라집니다.다만, 대부분의 기능에서는 분리 테이블을 작성할 필요가 있기 때문에, 대부분의 유저에게 있어서, 최초의 순서는 입력 데이터의 다운로드 또는 작성, 시퀀스 매핑의 실행이 됩니다.이렇게 하면 분리 테이블이 생성되며, 이 테이블을 사용하여 아래에 설명된 다양한 작업을 수행할 수 있습니다.상세한 것에 대하여는, GAMtools [7]의 메뉴얼을 참조해 주세요.

Flowchart

시퀀스 데이터 매핑

GAMtools 명령어 process_nps를 사용하여 매핑을 수행할 수 있습니다.핵 프로파일의 원시 시퀀스 데이터를 매핑한다.또한 GAMtools는 NP에 대해 품질 관리 체크를 수행하는 옵션도 제공합니다.이 옵션은 이전 명령에 -c/--do-qc 플래그를 추가하여 활성화할 수 있습니다.품질 관리 검사가 활성화되면 GAMtools는 품질이 낮은 핵 프로파일을 제외하려고 합니다.

Windows 호출 및 분리 테이블

매핑이 완료되면 GAMtools는 백그라운드 게놈 파일의 각 창과 겹치는 각 핵 프로파일의 읽기 수를 계산합니다.기본 창 크기는 50kb입니다.이는 모두 동일한 process_nps 명령어로 수행됩니다.그 후 분리 테이블을 생성합니다.

근접 매트릭스 작성

이 프로세스의 명령어는 gamtools 매트릭스입니다.입력 파일은 윈도 호출 스텝에서 계산된 구분 테이블입니다.GAMtools는 정규화된 링크 불균형을 사용하여 이러한 행렬을 계산합니다. 즉, 각 창 쌍이 동일한 NP에 의해 검출된 횟수를 확인한 다음 모든 NP에 걸쳐 각 창이 검출된 횟수를 기준으로 결과를 정규화합니다.아래 그림은 GAMtools를 사용하여 생성된 근접 매트릭스 열 지도의 예를 보여 줍니다.

An example of a proximity matrix produced with GAMtools.

크로마틴 압축 계산

게놈 압축과 반지름 위치가 검출 빈도에 미치는 영향

GAMtools 명령 gamtools 압축을 사용하여 크로마틴 압축의 추정치를 계산할 수 있습니다.압축은 유전자의 크기를 나타내는 유전자에 할당된 값이다.압축 수준은 궤적 부피에 반비례합니다.부피가 작은 게놈 궤적은 압축 수준이 높고, 부피가 큰 궤적은 압축 수준이 낮다고 한다.그림과 같이 압축 수준이 낮은 궤적은 저온 절편과 더 자주 교차할 것으로 예상됩니다.GAMtools는 이 정보를 사용하여 많은 핵 프로파일에 걸친 검출 빈도에 기초하여 각 궤적에 압축값을 할당한다.이러한 궤적의 압축률은 정적이지 않으며 셀의 수명 동안 지속적으로 변화합니다.게놈의 위치는 그 유전자가 활성화되면 압축이 해제되는 것으로 생각됩니다.이를 통해 연구자는 GAMtools 데이터의 결과를 사용하여 세포 내에서 현재 활성화된 유전자에 대한 가정을 할 수 있습니다.또한 저압축의 궤적은 전사 활성과 관련이 있는 것으로 생각된다.compaction 명령어의 시간 복잡도는 O(m * n)입니다.여기서 m은 게놈 창의 수, n은 핵 프로파일의 수입니다.

반지름 위치 계산

GAMtools를 사용하여 NP의 반경 위치를 계산할 수 있습니다.NP의 반지름 위치는 NP가 핵의 적도 또는 중심으로부터 얼마나 가깝거나 먼지를 측정한 것입니다.핵의 중심에 가까운 NP는 적도로 간주되는 반면 핵의 가장자리에 가까운 NP는 원점으로 간주됩니다.반경 배치를 계산하는 GAMtools 명령은 gamtools radial_pos입니다.이를 위해서는 사전에 분리 테이블을 생성해야 합니다.반경 위치는 주어진 크로마틴 영역을 포함하는 NP의 평균 크기에서 추정됩니다.주변부에 가까운 염색질은 일반적으로 더 작고 더 뾰족한 NP에 의해 교차되는 반면 중심 염색질은 더 큰 적도 NP에 의해 교차됩니다.

각 NP의 크기를 추정하기 위해 GAMtools는 각 NP가 본 창의 수를 조사합니다. 더 많은 창이 발견된 NP는 볼륨이 더 크다고 가정할 수 있기 때문입니다.이것은 크로마틴 압축 추정에 사용되는 방법과 매우 유사합니다.오른쪽 그림은 압축 또는 반지름 위치를 결정하기 위해 볼륨을 추정하기 위해 GAMtools가 각 NP의 탐지 속도를 보는 방법을 보여줍니다.첫 번째 NP를 보면 3개의 창 모두에 교차하는 것을 알 수 있기 때문에 가장 큰 NP 중 하나라고 추정할 수 있습니다.두 번째 NP는 세 개의 창 중 두 개의 창과 교차하므로 첫 번째 NP보다 작다고 추정할 수 있습니다.세 번째 NP는 세 개의 창 중 하나만 교차하므로 가장 작은 NP라고 추정할 수 있습니다.이제 각 NP의 크기를 추정했으므로 반경 위치를 추정할 수 있습니다.큰 NP가 적도보다 적도가 높다고 가정하면 첫 번째 NP는 적도, 두 번째 NP는 적도, 세 번째 NP는 적도입니다.

NP 리스트의 반경 위치를 계산하는 방법을 나타내는 의사 코드를 다음에 나타냅니다.

// 행이 NP에 대응하고 열이 창에 대응되는 데이터라는 2D 매트릭스가 있다고 가정합니다. 즉, 데이터 [1][2]가 1이면 NP 1에 창 2가 포함된다는 의미입니다. // 단일 NP LET MAX WINDOW = 0 // 이 변수를 사용하여 창 번호를 추적합니다.는 각 NP에 의해 검출되므로 나중에 방사형 위치 LET RADIAL_POS = [ ] // 모든 NP를 통해 루핑 FROM 1에서 NUM_NPS: LET WINCOUNT = 0 // WINDOWS: 1에서 NUM_WINDOWS: IF [NP]까지 각 NP를 카운트합니다.WIN] == 1) WINCOUNT = WINCOUNT + 1 // 현재 NP에서 IF WINCOUNT > MAXWINDOW : MAXWINDOW = WINCOUNT // 현재 NP의 카운트를 어레이 RADINAL_POS에 추가합니다.APND ( WINCOUNT ) // 각 NP가 본 창의 수를 NP가 본 창의 최대 수로 나누면 NP FROM 1에서 NUM_NPS: RADIAL_POS[NP] = RADIAL_POS[NP] / MAXWINDOW

이 유사 코드는 반경 위치를 추정할 수 있는 0 - 1 범위의 반경 위치 목록을 만듭니다. 여기서 1은 가장 적도이고 0은 가장 첨단입니다.이 의사 코드의 시간 복잡도는 O(n * m)입니다.여기서 n은 NP의 수, m은 창의 수입니다.첫 번째 for 루프는 n개의 반복을 통과하고 m개의 반복을 통과하는 내부 for 루프가 있습니다.즉, 루프의 시간 복잡도는 O(n * m)입니다.두 번째 루프는 반복 횟수가 n개이므로 시간 복잡도 O(n)가 됩니다.따라서 이 코드의 전체 시간 복잡도는 O(n * m + n)이며, O(n * m)로 줄일 수 있습니다.

데이터 분석 방법

개요

flowchart showing a general process of GAM data analysis. Circles represent a process and squares represent data.

위의 흐름도는 GAM 분석에서 데이터를 취득하는 일반적인 프로세스를 나타내고 있습니다.원은 수행될 수 있는 공정을 나타내고 정사각형은 데이터 조각을 나타냅니다.

GAM 분석의 첫 번째 단계는 세포의 저온조절과 검사입니다.이 과정을 통해 DNA 조각(유전체 창)을 포함하는 핵 조각(핵 프로파일)이 수집됩니다.그런 다음 분리표를 형성할 수 있도록 이러한 핵 프로파일을 검사한다.분리 테이블은 GAM 분석의 기초입니다.그것들은 각 핵 프로파일 내에서 어떤 게놈 궤적이 나타나는지 상세하게 설명하는 정보를 포함하고 있다.

아래에 나와 있지 않은 데이터 분석의 예로는 클러스터링을 들 수 있습니다.예를 들어 유사한 게놈 위치를 포함하는 핵 프로파일은 k-평균 클러스터링 또는 일부 변동에 의해 함께 클러스터링될 수 있다.K-평균은 유사성 측정에 따라 모든 핵 프로파일을 클러스터링한다는 점에서 이 특정 문제에 대해 잘 작동하지만 단점도 있다.K-평균 군집 분석의 시간 복잡도는 O(tknd)입니다. 여기서 t는 반복 횟수, k는 평균 , n은 데이터 점 , d는 각 데이터 점에 대한 차원 수입니다.이러한 복잡성으로 인해 [8]NP-hard가 됩니다.따라서 대규모 데이터 집합에는 잘 확장되지 않으며 데이터의 하위 집합에 더 적합합니다.

추가 분석을 위해 GAMtools를 [6]사용할 수 있습니다.GAMtools는 분리 테이블에서 데이터를 추정하는 데 사용할 수 있는 소프트웨어 도구 모음입니다. 그 결과 중 일부는 아래에서 설명합니다.

공동분리 또는 연결은 동일한 핵 프로파일에서 두 개의 게놈 궤적이 얼마나 자주 함께 나타나는지를 관찰함으로써 결정될 수 있다.이 데이터는 어떤 위치가 물리적으로 3D 공간에서 서로 가까운지, 어떤 위치가 서로 정기적으로 상호작용하는지 보여줄 수 있어 DNA [1]전사를 설명하는 데 도움이 될 수 있다.

SLISE는 게놈 위치 간의 특정 상호작용을 예측하는 방법입니다.공분할 [1]데이터에서 파생된 통계 데이터를 사용합니다.

마지막으로 그래프 분석을 분리 테이블에 적용하여 커뮤니티를 찾을 수 있습니다.커뮤니티는 조직별로 등 여러 [9]가지 방법으로 정의할 수 있지만, 이 기사에서는 커뮤니티 분석에 집중합니다.중앙집권 기반의 커뮤니티는 유명인사 및 소셜 미디어 네트워크의 팬 층과 유사하다고 생각할 수 있습니다.팬들은 서로 많이 교류하지 않을 수도 있지만, 그들은 "중앙"인 유명인사들과 교류한다.

중심성에는 여러 가지 다른 유형이 있는데, 여기에는 정도 중심성, 고유 벡터 중심성 및 상호 중심성이 포함되지만 이에 국한되지 않습니다. 이 모든 것이 다른 커뮤니티가 정의되는 결과를 초래할 수 있습니다.주목할 만한 것은 위의 소셜 네트워크 유추에서, 많은 유명인사들을 팔로우하는 한 사람이 그들에게 어떠한 영향도 미치지 못할 수 있기 때문에 고유 벡터 중심성이 정확하지 않을 수 있다는 것이다.이 경우 그래프는 지시된 것으로 보일 수 있습니다.GAM 분석에서는 일반적으로 그래프가 무방향이라고 가정하므로 고유 벡터 중심성을 사용하면 정확할 것이다.clique 계산과 centrality 계산은 모두 계산상 복잡합니다.위에서 설명한 클러스터링과 마찬가지로 큰 문제까지 확장성이 높지 않습니다.

조각을 내라

SLICE(StatisticaL Inference of Co-Severtion)는 GAM 데이터 [1]분석에서 중요한 역할을 합니다.이것은 마리오 니코데미의 실험실에서 개발되었으며, GAM 공동 분리 데이터에서 위치 사이의 가장 구체적인 상호작용을 식별하기 위한 수학 모델을 제공한다.주어진 시간에 각 쌍 궤적에 대한 특정 교호작용의 비율을 추정합니다.그것은 일종의 우도법이다.SLICE의 첫 번째 단계는 GAM 핵 프로파일의 예상되는 비율의 함수를 제공하는 것이다.그런 다음 실험 [1]데이터를 설명할 수 있는 최적의 확률 결과를 찾습니다.

Flow chart of SLICE

슬라이스 모델

SLISE 모델은 상호작용하지 않는 궤적이 동일한 핵 프로파일에 포함될 확률을 예측할 수 있다는 가설을 기반으로 한다.확률은 이 궤적의 거리에 따라 달라집니다.SLISE 모델에서는 한 쌍의 궤적을 두 가지 유형으로 간주합니다.하나는 상호작용 중이고 다른 하나는 비상호작용입니다.가설에 따르면 핵 프로파일 상태의 비율은 수학적 분석을 통해 예측할 수 있다.이러한 GAM 데이터는, 상호작용 확률의 함수를 도출하는 것에 의해서, 현저한 상호작용을 찾아내, GAM의 감도를 탐색하는데도 사용할 수 있다.

단일 핵 프로파일의 분포 계산

SLICE에서는 위치 쌍이 셀 모집단에 걸쳐 상호작용 또는 비상호작용일 수 있다고 간주합니다.이 계산의 첫 번째 단계는 단일 궤적을 설명하는 것입니다.위치 A와 B의 쌍은 두 가지 상태를 가질 수 있습니다. 하나는 A와 B가 서로 상호작용하지 않는다는 것입니다.다른 하나는 그들이 가지고 있다는 것이다.첫 번째 문제는 핵 프로파일에서 단일 궤적을 찾을 수 있는지 여부이다.
수식은 다음과 같습니다.

단일 궤적 확률: , 1 ({ , } )
프로파일에서 이 발견되었을
- < \ v { } > - { =1 - < \ > 핵 프로파일에서 궤적이 발견되지 않을 가능성.
- < 1 { } = P / l {\ V _ { / V _ { nucleus}

평균 핵반경 추정

위의 식과 같이 핵의 부피는 계산에 필요한 값이다.이러한 핵 프로파일의 반지름은 핵 반지름 추정에 사용할 수 있다.반지름에 대한 SLISE 예측은 몬테카를로 시뮬레이션과 일치한다(이 단계에 대한 자세한 내용은 원본 저자의 논문에서 그림의 라이센스를 얻은 후에 업데이트될 것이다).추정된 반지름의 결과로 비대화 상태의 2개의 궤적 확률과 상호작용 상태의 2개의 궤적 확률을 추정할 수 있다.
다음은 비상호작용의 수학식입니다.
< i\ _ { } > , i = 0 , 1, 2 는, 1 쌍의 비결합 궤적을 검색합니다.
비대화 상태의 2개의 : i

상호작용의 수학식은 다음과 같습니다.
개의 위치 상호작용 상태 추정: {\i}} 확률
{ <_ { 2~ <v 1> < 1 >< _ { 1> < < < v _ { ~t 0 < > -< 1 < v _ 0 > < 1 > < v < v _ { < 1 >

단일 핵 프로파일에서 위치 쌍의 확률을 계산한다.

이전 프로세스의 결과로 하나의 핵 프로파일에서 한 쌍의 궤적 발생 확률을 통계 방법으로 계산할 수 있다.한 쌍의 궤적은 세 가지 다른 상태로 존재할 수 있습니다.각각 , 2},을 가집니다.
단일 핵프로파일 내 위치쌍 발생 확률: ,
2 {\ : 두 쌍의 궤적이 상호작용 상태에 있을 가능성
1 한쪽이 다른 쪽과 상호 작용하지만 다른 한쪽은 상호 작용하지 않을 가능성.
0 이 두 가지가 상호작용하지 않을 가능성.
SLISE 통계 분석


N_ A를 나타내는 숫자 i입니다.숫자 j는 B에 대한 것입니다(i와 j는 0, 1 또는 2 loci와 같습니다.

검출 효율

실험 횟수는 한정되어 있기 때문에 검출 효율이 어느 정도 있을 것입니다.검출 효율을 고려하면 이 SLISE 모델을 확장하여 추가 합병증에 대응할 수 있습니다.계산 결과를 개선하기 위한 통계적 방법입니다.이 부분에서는 GAM 데이터를 두 가지 유형으로 나눕니다. 하나는 슬라이스 내의 궤적을 실험에서 찾는 것이고, 다른 하나는 슬라이스 내의 궤적이 실험에서 검출되지 않는 것입니다.

쌍들의 교호작용 확률 추정

추정 검출 효율과 이전의 , 2({ 에 근거하여 쌍의 상호작용 확률을 산출할 수 있다.차세대 시퀀싱에 의해 궤적이 검출됩니다.

공분할 및 정규화된 링크

게놈을 매핑할 때 여러 게놈 과 게놈의 핵 프로파일(NP)에 걸친 공동 분리를 확인할 수 있습니다.조직의 조각과 샘플을 채취하는 것은 핵 프로파일과 게놈에서 발견되는 창의 범위를 도출한다.이 경우 공분리는 게놈에서 특정 창 사이의 연관성뿐만 아니라 연결불균형과 정규화된 연결불균형을 식별하는 것이다.공동 분리 및 연결을 계산하는 단계 중 하나는 각 창의 감지 빈도를 찾는 것입니다.검출 빈도는 지정된 창에 표시되는 NP 수를 NP의 총수로 나눈 값입니다.계산된 각 값은 게놈 분석을 위한 중요한 차이와 통계를 식별한다.정규화된 연결 불균형은 게놈 창 사이의 실제 연결을 결정하는 최종 계산이다.각 값이 계산되면 각 결과는 게놈에서 지정된 각 창에 대한 정규화된 연결 평형을 계산하기 위해 사용됩니다.정규화된 링크 값은 1.0에서 -1.0 사이일 수 있으며 1.0은 둘 사이의 링크가 높음을 의미하며 1.0 이하면 링크가 낮아집니다.각 창의 정규화된 연결 값을 차트 또는 매트릭스로 결합하면 게놈을 열 지도 또는 다른 그래프를 사용하여 매핑하고 분석할 수 있습니다.공분할 및 정규화된 링크 값은 다음 섹션에서 설명하는 집중성 및 커뮤니티 검출 등의 추가 계산 및 분석에도 사용할 수 있습니다.

윈도우의 동시 분리 및 연결을 찾으려면 다음 계산을 완료해야 합니다.검출 빈도, 공동 분리, 링크 및 정규화된 링크.

링크 및 빈도 계산

위에서 설명한 각 계산 단계를 아래 표에 표시하고 설명합니다.

공분할 및 연결 계산을 위한 공식 및 단계
계산 수식[10] 설명.
검출 빈도 )( \ ( { \ { A} { } } \ ) f { \ fa} ) 163개의 핵프로파일이 포함된 게놈의 특정 게놈 창이 주어지면 왼쪽 공식은 다음과 같이 분해된다.A = 게놈 창에 존재하는 핵 프로파일의 수.N = 163, 핵 프로파일의 총수.검출 빈도를 계산하려면 , 이 둘을 간단하게 나눕니다.
공동 분리 ) { style \( { \ {} { N} \ } f b{ \ fab} 163개의 핵프로파일을 포함하는 게놈에서 두 개의 특정 게놈 창이 주어진다면, 왼쪽의 공식은 다음과 같이 분해될 것이다.AB = 양쪽 게놈 창에 존재하는 핵 프로파일의 수.N = 163, 핵 프로파일의 총수.공동 분리를 계산하려면 두 개를 나눕니다.
링크 163개의 핵프로파일을 포함하는 게놈에서 두 개의 특정 게놈 창이 주어진다면, 왼쪽의 공식은 다음과 같이 분해될 것이다.첫 번째 괄호 세트는 위의 행과 같이 두 창의 공동구분을 계산합니다.두 번째 괄호 집합은 첫 번째 창의 탐지 빈도에 두 번째 창의 탐지 빈도를 곱합니다.요약하면 윈도우의 공동구분을 계산하고 윈도우의 검출 빈도의 곱을 뺀다.
정규화 링크(NL) Linking이 0보다 작은 경우:

M n ( a , ( - ) ( - ){ LM ( * , ( 1 - fa ( 1 - fb } ( n ) \ NL left ( \ fracage { } 링크가 0보다 큰 경우: M n ( b (1 - a) , (1 - b )min ( * ( 1 - fa ) , * ( 1 - fb )) 、 ( \ L )

163개의 핵프로파일을 포함하는 게놈에서 두 개의 특정 게놈 창이 주어진다면, 왼쪽의 공식은 다음과 같이 분해될 것이다.이전 단계에서 계산된 Link 값이 0보다 작을 경우 괄호 안의 두 값을 비교하여 Linked Max(링크 최대)라는 최소값을 구합니다. 즉, 두 창의 탐지 빈도를 곱한 값과 각 창의 탐지 빈도를 뺀 값입니다.이전 단계에서 계산된 Link 값이 0보다 큰 경우 괄호 안의 두 값을 비교하여 Linked Max라는 최소값을 구합니다. 즉, 한 창 시간의 검출 빈도에서 다른 창 시간의 검출 빈도를 뺀 다음 다른 창과 같은 계산 빈도를 반대로 계산한 값입니다.요약하면 창의 개별 탐지 빈도에 대한 곱과 역수를 계산합니다.

정규화된 링크 표시

이전 단계의 모든 계산 단계가 완료되면 매트릭스를 만든 다음 매핑할 수 있습니다.게놈 내의 특정 81개의 창에서 정규화된 링크를 81x81 크기의 매트릭스로 채울 수 있다.이는 정규화된 모든 링크 값을 계산하기 위해 각 창이 자신과 다른 모든 창과 비교되기 때문입니다.각 창의 링크가 계산될 때 매트릭스 내의 지정된 위치에 값을 삽입해야 합니다.예를 들어, 첫 번째 창과 두 번째 창을 비교하는 경우 연결 값은 행렬의 첫 번째 열과 두 번째 행에 배치됩니다.이 크기의 매트릭스에서 생성된 열 지도의 예를 아래에 나타냅니다.

81 x 81 창 행렬에 대한 열 지도

정규화된 링크 매트릭스에서 표시되는 열 지도를 분석할 때 각 블록의 색상이 핵심입니다.위의 열 지도 예제를 보면, 범례는 1.00 링크 값이 열 지도 내의 밝은 노란색에 해당함을 나타냅니다.이는 각 창이 자신과 비교되는 맵 내의 노란색 블록의 대각선으로 표시되는 가장 높은 링크 값입니다.이 범례와 히트맵을 사용하면 링크를 색상에 따라 표시할 수 있습니다.이는 매트릭스 내의 첫 번째 창과 마지막 창 사이에 하위 수준의 링크가 있음을 나타냅니다.여기서는 파란색/녹색입니다.열 지도는 게놈에서 창의 특정 부분에 있는 모든 창 사이의 연결 값을 분석할 수 있는 가장 쉽고 명확한 방법 중 하나입니다.생성된 이 히트맵과 정규화된 링크 매트릭스는 아래에 설명된 추가 분석에 사용할 수 있습니다.

그래프 분석법

공분할 행렬과 연결 행렬 사이의 변환 예제입니다.빨간색으로 강조 표시된 셀에 주목하여 평균 공동 분리가 정규화되지 않은 경우 놓칠 수 있는 가장자리를 나타냅니다.

대상 게놈 창의 공동구분이 계산되면 그래프 분석을 통해 창 집합 내의 관련 하위 집합 또는 "커뮤니티"를 대략적으로 계산할 수 있습니다.

인접(그래프) 매트릭스 도출

일단 공분할행렬이 확립되면 그래프를 나타내기 위해 인접행렬로 변환하는 과정은 비교적 간단한 프로세스입니다.공분할 행렬의 각 셀을 0.0과 1.0 사이의 임계값과 비교해야 합니다.이 값은 그래프의 원하는 특수성에 따라 조정할 수 있습니다.임계값으로 더 높은 값을 선택하면 일반적으로 두 개의 창을 강하게 연결해야 하므로 그래프의 가장자리가 줄어듭니다.낮은 값을 선택하면 창이 모서리로 분류되기 위해 강하게 링크되지 않아도 되므로 일반적으로 그래프에 더 많은 모서리가 표시됩니다.이 값을 설정하는 적절한 시작점은 공동 분리 그래프의 평균 값입니다.그러나 단순 평균을 사용하는 경우 임계값은 의도한 것보다 높을 수 있습니다.이는 창 자체의 코세이션 값이 1.0이 되기 때문입니다.작성되는 인접 매트릭스는 비반사적이므로 창은 엣지를 공유할 수 없습니다.인접의 대각선은 모두0이어야 합니다.공분할 매트릭스의 대각선은 관련이 없습니다.이를 보상하기 위해 공동 분리 행렬의 대각선을 따라 값을 할인하여 평균을 정규화할 수 있습니다.이 조정의 효과를 보려면 첨부된 그림을 참조하십시오.임계값이 설정되면 변환은 비교적 직접적입니다.공분할행렬의 셀이 메인 대각선을 따라 있는 경우 인접행렬의 각 셀은 앞서 설명한 바와 같이0이 됩니다그렇지 않으면 임계값과 비교됩니다.값이 임계값보다 작을 경우 인접 매트릭스 내의 각 셀은 0이 되고 그렇지 않을 경우 1이 됩니다.

단순한 그래프와 인접 행렬에서 정도 중심성을 계산하는 예제입니다.

윈도 집중성 평가

인접 매트릭스가 확립되면 창은 몇 가지 다른 중앙집중성 측정을 통해 평가할 수 있습니다.그러한 척도 중 하나는 정도 중심성이다.그래프의 특정 노드(게놈 창 중 하나)가 가지는 에지 수를 노드 수에서 1을 뺀 총 노드 수로 나눗셈하여 정도 중심성을 계산한다.이 계산의 예에 대해서는, 부속의 그림을 참조해 주세요.노드의 중앙 집중성은 상대적으로 많은 연결 수를 기반으로 데이터 집합에서 개별 노드가 큰 영향을 미칠 가능성을 나타내는 좋은 지표가 될 수 있습니다.

커뮤니티 검출

중심성 값이 계산되면 데이터의 관련 하위 집합을 추론할 수 있습니다.이러한 데이터의 관련 서브셋을 「커뮤니티」라고 부릅니다.커뮤니티라고 하는 것은, 데이터내의 클러스터로서 내부에서는 밀접하게 관련지어져 있습니다만, 외부의 다른 데이터와는 밀접하게 관련지어져 있지 않습니다.커뮤니티 검출의 가장 일반적인 응용 프로그램 중 하나는 소셜 미디어와 소셜 [11]커넥션 매핑에 관한 것이지만, 이는 게놈 상호작용과 같은 문제에 적용될 수 있다.커뮤니티를 근사하는 비교적 간단한 방법은 정도 중심성 등의 중앙성 측정에 따라 여러 개의 중요한 노드를 분리한 다음 이들로부터 커뮤니티를 구축하는 것입니다.노드의 커뮤니티는 노드 자체뿐만 아니라 노드에 즉시 링크된 전체 노드 집합입니다.예를 들어 왼쪽 그림에서 노드 C 주위의 커뮤니티는 그래프의 4개 노드 모두이며, D의 커뮤니티는 노드 C와 D뿐입니다.게놈 창에서 커뮤니티의 검출은 잠재적인 크로마틴 상호작용 또는 이전에 예상되거나 이해되지 않은 다른 상호작용을 강조하여 추가 연구의 표적을 제공할 수 있다.

이점

3C 기반의 방식과 비교하여 GAM은 3가지 주요 [12]이점을 제공합니다.

  • C-method는 쌍방향 상호작용 방식을 사용합니다.즉, 쌍방향 결과만 제공할 수 있습니다.하지만 GAM은 다중 유전자 자리의 군집을 검출할 수 있습니다.
  • 제한 효소는 C-법에서 필수적인 역할을 한다.이 경우 제한효소 부위는 결찰에 기초한 방법을 제한한다.GAM에는 이 제한이 없습니다.
  • C 방식에는 GAM보다 더 많은 셀이 필요합니다.

레퍼런스

  1. ^ a b c d e f Beagrie RA, Scialdone A, Schueler M, Kraemer DC, Chotalia M, Xie SQ, Barbieri M, de Santiago I, Lavitas LM, Branco MR, Fraser J, Dostie J, Game L, Dillon N, Edwards PA, Nicodemi M, Pombo A (March 2017). "Complex multi-enhancer contacts captured by Genome Architecture Mapping (GAM)". Nature. 543 (7646): 519–524. doi:10.1038/nature21411. PMC 5366070. PMID 28273065.
  2. ^ "4D genome project" (PDF).
  3. ^ O'Sullivan, J. M; Hendy, M. D; Pichugina, T; Wake, G. C; Langowski, J (2013). "The statistical-mechanics of chromosome conformation capture". Nucleus. 4 (5): 390–8. doi:10.4161/nucl.26513. PMC 3899129. PMID 24051548.
  4. ^ Beagrie RA, Scialdone A, Schueler M, Kraemer DC, Chotalia M, Xie SQ, Barbieri M, de Santiago I, Lavitas LM, Branco MR, Fraser J, Dostie J, Game L, Dillon N, Pa Edwards, M.게놈 아키텍처 매핑에 의해 캡처된 복잡한 멀티 인핸서 접점.자연. 2017년 3월 23일;543 (7646) : 519-524.
  5. ^ Pombo, Ana (2007). "Advances in imaging the interphase nucleus using thin cryosections". Histochemistry and Cell Biology. 128 (2): 97–104. doi:10.1007/s00418-007-0310-x. PMID 17636315. S2CID 7934012.
  6. ^ a b Beagrie, Robert. "GAMtools". GAMtools. Retrieved 19 April 2022.
  7. ^ Beagrie, Robert. "GAMtools Documentation". GAMtools Documentation. Retrieved 19 April 2022.
  8. ^ 산조이, 다스굽타k-평균 군집화의 경도(보고서 번호)입니다.CS2008-0916).https://cseweb.ucsd.edu/ ~ dasgupta / dasgupta / kmeans . pdf 에서 취득했습니다.
  9. ^ Fortunato, Santo; Hric, Darko (November 2016). "Community detection in networks: A user guide". Physics Reports. 659: 1–44. doi:10.1016/j.physrep.2016.09.002.
  10. ^ Beagrie, Robert A.; Scialdone, Antonio; Schueler, Markus; Kraemer, Dorothee C.A.; Chotalia, Mita; Xie, Sheila Q.; Barbieri, Mariano; de Santiago, Inês; Lavitas, Liron-Mark; Branco, Miguel R.; Fraser, James (2017-03-23). "Complex multi-enhancer contacts captured by Genome Architecture Mapping (GAM)". Nature. 543 (7646): 519–524. doi:10.1038/nature21411. ISSN 0028-0836. PMC 5366070. PMID 28273065.
  11. ^ Grandjean, Martin (2016). "A social network analysis of Twitter: Mapping the digital humanities community" (PDF). Cogent Arts & Humanities. 3 (1): 1171458. doi:10.1080/23311983.2016.1171458. S2CID 114999767.
  12. ^ Finn, Elizabeth H.; Misteli, Tom (2017). "Genome Architecture from a Different Angle". Developmental Cell. 41 (1): 3–4. doi:10.1016/j.devcel.2017.03.017. PMC 6301035. PMID 28399397.