메틸화 분석을 위한 베이시안 도구

Bayesian tool for methylation analysis

배트맨이라고도 알려진 메틸화 분석을 위한 베이시안 도구메틸화 DNA 면역소모(MeDIP) 프로파일을 분석하기 위한 통계 도구다.이는 올리고뉴클레오티드 배열(MeDIP-chip) 또는 차세대 염기서열(MeDIP-seq)을 사용하여 생성된 대규모 데이터 집합에 적용할 수 있어 관심 영역의 절대 메틸화 상태에 대한 정량적 추정을 제공한다.[1]

배트맨 워크플로우

이론

메틸화 DNA 면역복제(Methylated DNA 면역복제)는 항체를 이용해 메틸화 DNA 시퀀스를 분리해 DNA 메틸화 수준을 평가하는 실험 기법이다.DNA의 고립된 파편은 마이크로 어레이 칩(MeDIP 칩)에 혼합되거나 차세대 시퀀싱(MeDIP-seq)에 의해 시퀀싱된다.이것은 게놈의 어떤 영역이 메틸화되었는지 알려 주지만 절대 메틸화 수준을 주지는 않는다.AB라는 서로 다른 두 유전자를 상상해 보라.지역 A에는 6개의 CpGs(유전자 체세포의 DNA 메틸화는 일반적으로 CpG 디뉴클레오티드에서[2] 발생하며, 이 중 3개는 메틸화된다.지역 B에는 3개의 CpG가 있으며, 모두 메틸화된다.항체는 단순히 메틸화된 DNA를 인식하기 때문에, 이 두 지역을 균등하게 묶을 것이고, 따라서 이후의 단계들은 이 두 지역에 대해 동일한 신호를 보여줄 것이다.이것은 이 두 지역에서 메틸화의 전체 그림을 보여주지 않는다(지역 A에서는 CpGs의 절반만 메틸화되지만 지역 B에서는 모든 CpGs가 메틸화된다).따라서 특정 지역에 대한 메틸화의 전체 그림을 얻으려면 메DIP 실험에서 얻은 신호를 해당 지역에 있는 CpGs 수로 정상화해야 하는데, 이것이 배트맨 알고리즘이 하는 일이다.위의 예에 대한 MeDIP 신호를 분석하면 배트맨은 지역 A(즉, 지역이 50% 메틸화됨)의 경우 0.5점, 지역 B(즉, 지역 B)의 경우 1점을 얻을 수 있다.그 지역은 100% 메틸화 되어 있다.이런 방식으로 배트맨은 메DIP 실험에서 나오는 신호를 절대 메틸화 수준으로 변환한다.

배트맨 개발

배트맨 알고리즘의 핵심 원리는 다양한 CpG 디뉴클레오티드 밀도의 영향과 이것이 DNA 조각의 MeDIP 농축에 미치는 영향을 모델링하는 것이다.배트맨의 기본 가설:

  1. 포유류의 거의 모든 DNA 메틸화는 CpG 디뉴클레오티드에서 일어난다.
  2. CpG가 부족한 지역은 대부분 구성성 메틸화 된 반면 CpG가 풍부한 지역(CpG 섬)은 구성성이 없는 메틸화되지 않은 지역이 대부분이다.[3]
  3. MeDIP 실험에는 단편적인 편견이 없다(DNA 조각 크기의 대략적인 범위는 400~700bp이다).
  4. 마이크로 어레이의 오류는 보통 정밀하게 분포한다.
  5. 메틸화 CpGs만이 관측된 신호에 기여한다.
  6. CpG 메틸레이션 상태는 일반적으로 수백 개의 베이스에 걸쳐 높은 상관관계를 가지므로,[4] 50-bp 또는 100-bp 창에 함께 그룹화된 CpGs는 동일한 메틸레이션 상태를 가질 수 있다.

배트맨의 기본 매개 변수:

  1. Ccp: 프로브 p와 CpG 디뉴클레오티드 c 사이의 결합 계수는 CpG c를 포함하는 p를 프로브하기 위해 혼합되는 DNA 분자의 비율로 정의된다.
  2. Ctot : 총 CpG 영향 매개변수(total CpG infact parameter)는 국소 CpG 밀도의 측정값을 제공하는 특정 프로브에 대한 결합 인자의 합으로 정의된다.
  3. mc : 위치 c에서의 메틸화 상태, 즉 메틸화 된 샘플의 염색체 분율을 나타내는 mc : methylation 상태. m은 MeDIP 연구에서 사용되는 대부분의 샘플이 복수의 세포 유형을 포함하고 있기 때문에 연속 변수로 간주된다.

이러한 가정에 근거하여, MeDIP칩 실험이나 MeDIP-seq 실험의 MeDIP 채널로부터의 신호는, 그 탐사하는 DNA 조각의 농축 정도에 따라 달라지는데, 이는 결국 항체 결합의 양에 따라 달라지고, 따라서 그 파편에 메틸화 CpGs의 수에 따라 달라진다.배트맨 모델에서 MeDIP/칩 실험 A의 완전한 데이터 집합은 다음과 같은 확률 분포의 형태로 통계적 모델로 나타낼 수 있다.

여기서 x μ, σ2)는 가우스 확률 밀도 함수다.표준 베이지안 기법을 사용하여 f(m A), 즉 하나 이상의 MeDIP-칩/MeDIP-seq 출력 세트가 주어질 가능성이 있는 메틸레이션 상태의 분포를 추론할 수 있다.이 추론 문제를 해결하기 위해 배트맨은 게놈의 각 타일 영역에 대해 f(m A)로부터 100개의 독립 샘플을 생성하기 위해 중첩된 샘플링(http://www.inference.phy.cam.ac.uk/bayesys/)을 사용하고, 이러한 샘플에 베타 분포를 적합시켜 100bp 창에서 가장 가능성이 높은 메틸화 상태를 요약한다.가장 가능성이 높은 베타 분포의 모드는 최종 메틸레이션 호출로 사용되었다.

제한 사항

배트맨 사용을 고려할 때 다음 사항을 고려하는 것이 유용할 수 있다.

  1. 배트맨은 소프트웨어가 아니라 명령 프롬프트를 사용하여 수행되는 알고리즘이다.그러므로 그것은 특히 사용자에게 친숙하지 않고 꽤 계산적으로 기술적인 과정이다.
  2. 비상업적이기 때문에 매뉴얼에 있는 것 이상으로 배트맨을 사용할 때는 지원이 거의 없다.
  3. 상당히 시간이 많이 걸린다(하나의 염색체를 분석하는 데 며칠이 걸릴 수 있다).(참고: 한 정부 연구소에서 100개의 Agilent Human DNA Methylation Arrays(배열당 약 25만 개의 프로브) 세트에서 배트맨을 실행한 경우, 애질런트의 Genomic Workbench 소프트웨어에서 완료하는 데 1시간도 걸리지 않았다.우리 컴퓨터에는 2GHz 프로세서, 24GB RAM, 64비트 Windows 7이 있었다.)
  4. 복사 번호 변동(CNV)을 고려해야 한다.예를 들어, 에서 CNV 값이 1.6인 지역의 점수(정상 대비 0.4의 손실)를 1.25(=2/1.6)로 곱해야 손실을 보상할 수 있다.
  5. 배트맨의 기본적인 가설 중 하나는 모든 DNA 메틸화가 CpG 디뉴클레오티드에서 발생한다는 것이다.척추동물 체세포의 경우 일반적으로 그러하지만 식물세포나 배아줄기세포처럼 비CpG 메틸화가 광범위하게 일어나는 상황도 있다.[5][6]

참조

  1. ^ 다운, T.A. 외면역복제 기반 DNA 메틸롬 분석을 위한 베이시안 디콘볼루션 전략.네이처 바이오테크놀로지 26, 779–85(2008)
  2. ^ 리스터, R. 염기 분해능의 인간 DNA 메틸롬후생유전학적 차이가 광범위하게 나타난다.네이처 462, 315–22 (2009).
  3. ^ 조류, A. DNA 메틸화 패턴과 후생유전 기억력.Genes & Development 16, 6–21 (2002)
  4. ^ 에크하르트, F. 인간 염색체 6, 20, 22의 DNA 메틸레이션 프로파일링Nature Genetics 38, 1378–85 (2006).
  5. ^ 닷지, J.E., 람사호예, B.H., Wo, Z.G., 오카노, M. & Li, E. De novo methylation of MMLV provirus in 배아줄기세포: CpG 대 비CpG methylation.Gene 289, 41–8 (2002)
  6. ^ Vanyusin, 식물에서 B.F.DNA 메틸화.미생물학 면역학 301, 67–122(2006)의 최신 주제