dbSNP
dbSNP| 내용 | |
|---|---|
| 묘사 | 단일 뉴클레오티드 다형성 데이터베이스 |
| 유기체 | 호모 사피엔스 |
| 연락 | |
| 연구소 | 국립생명공학정보센터 |
| 주요 인용문 | PMID 21097890 |
| 발매일 | 1998 |
| 접근 | |
| data 형식 | ASN.1, Fasta, XML |
| 웹 사이트 | www |
| 다운로드 URL | ftp://ftp.ncbi.nih.gov/snp/ |
| 웹 서비스 URL | EU틸 비누. |
단일 뉴클레오티드 다형 데이터베이스[1](dbSNP)는 미국 국립생명공학정보센터(NCBI)가 국립인간게놈연구소(NHGRI)와 공동으로 개발하고 주최하는 다양한 종의 유전자 변이를 위한 무료 공개 아카이브이다.데이터베이스의 이름은 하나의 다형성(즉, 단일 뉴클레오티드 다형성(SNPs)의 집합만을 의미하지만, 실제로는 (1) SNPs, (2) 짧은 삭제 및 삽입 다형성(인델/DIPs), (3) 마이크로 위성 마커 또는 짧은 탠덤 반복(STRS)의 분자 변동 범위를 포함한다.(5) 헤테로 접합 배열 및 (6) 명명된 [2]변종.dbSNP는 명백한 중립 다형성, 알려진 표현형에 대응하는 다형성 및 변동이 없는 영역을 받아들입니다.1998년 9월 NCBI의 공개 핵산 및 단백질 [2]배열 모음인 GenBank를 보완하기 위해 만들어졌다.
2017년 NCBI는 dbSNP의 [3]모든 비인간 유기체에 대한 지원을 중단했습니다.빌드 153(2019년 8월 출시) 현재, DBSNP는 6억 7,500만 개 이상의 호모 사피엔스 변종을 대표하는 약 20억 개의 제출물을 모았다.
목적
dbSNP는 생물학 연구자를 지원하기 위해 구현된 온라인 리소스입니다.이것의 목표는 유전자 기반의 다양한 자연 현상을 조사하는데 사용될 수 있는 모든 확인된 유전자 변이를 포함하는 단일 데이터베이스 역할을 하는 것이다.특히, dbSNP 내에서 분류된 분자 변이에 대한 액세스는 물리적 매핑, 집단 유전학, 진화 관계에 대한 조사와 같은 기초 연구에 도움이 될 뿐만 아니라 특정 관심 부위의 변화량을 빠르고 쉽게 정량화할 수 있습니다.또한 dbSNP 가이드는 약리유전학 및 표현형 [4]특성과 유전자 변이의 연관성에 대한 연구를 적용했다.NCBI 웹사이트에 따르면, "이러한 참신하고 흥미로운 연구에 대한 장기적인 투자는 인간 생물학을 발전시킬 뿐만 아니라 현대 의학의 관행을 혁신할 것을 약속한다."
제출
1. 출처
원래 dbSNP는 개별 연구실, 공동 다형성 발견 노력, 대규모 게놈 배열 센터, 기타 SNP 데이터베이스(SNP 컨소시엄, HapMap 등) 및 민간 기업 [5]등 다양한 소스로부터 모든 유기체에 대한 제출을 받아들인다.2017년 9월 1일, dbSNP는 비인간 변형 데이터 제출을 중단하였고, 2개월 후 인터랙티브 웹사이트와 관련 NCBI 서비스는 비인간 변형 데이터 제공을 중단하였다.이제 dbSNP는 인간 변형 데이터만 받아들이고 표시합니다.
2. 기록의 종류
송신된 모든 바리에이션은 송신된SNP ID 번호(「[5]ss#」)를 수신합니다.이 등록 번호는 해당 제출에 대한 안정적이고 고유한 식별자입니다.송신된 일의의 SNP 레코드에도, 참조 SNP ID 번호( 「rs#」, 「refSNP 클러스터」)가 할당됩니다.그러나, 특히 임상적으로 관련된 변동에 대해 둘 이상의 변동 기록이 dbSNP에 제출될 가능성이 높다.이를 수용하기 위해 dbSNP는 제출된 동일한 SNP 레코드를 하나의 참조 SNP 레코드로 정기적으로 조립합니다.이것은 일의적이고 안정된 식별자입니다(아래 [4]참조).
3. 제출방법
dbSNP에 바리에이션을 송신하려면 , 우선 송신측 핸들을 취득할 필요가 있습니다.이 핸들을 통해 [4]송신측을 담당하는 연구소를 특정할 수 있습니다.다음으로, 작성자는 관련 정보와 데이터를 포함하는 제출 파일을 작성해야 합니다.제출된 기록에는 다음 [4]표에 나열된 10가지 필수 정보가 포함되어야 합니다.제출에 필요한 기타 정보에는 연락처 정보, 출판 정보(제목, 저널, 저자, 연도), 분자형(유전자 DNA, cDNA, 미토콘드리아 DNA, 엽록체 DNA) 및 [4]유기체가 포함됩니다.
| 요소 | 설명. |
|---|---|
| 시퀀스 컨텍스트(필수) | dbSNP로의 송신에 필수적인 컴포넌트는, 송신되는 바리에이션의 명확한 장소입니다.dbSNP 에서는, RefSeq 또는 INSDC 시퀀스의 아사트된 위치로서 바리안트 로케이션을 송신하는 것이 최소한 필요하게 되었습니다. |
| 대립 유전자(필수) | 대립 유전자는 각 변형 클래스를 정의합니다.dbSNP는 제출 방식에서 단일 뉴클레오티드 변형을 G, A, T 또는 C로 정의하며, 변이의 대립 유전자의 정의에서 N과 같은 모호한 IUPAC 코드를 허용하지 않습니다. |
| 메서드(필수) | 각 송신자는, 송신중의 메서드를 변동의 어세이징에 사용하는 기술 또는 대립 유전자의 빈도를 추정하기 위한 기술로서 정의하고 있습니다.dbSNP는 메서드 클래스별로 메서드를 그룹화하여 일반적인 실험 기법을 쿼리 필드로 사용하여 쿼리를 용이하게 합니다.송신자는, 그 외의 모든 테크닉의 상세를, 메서드에 관한 프리 텍스트의 설명으로 제공합니다. |
| Asserted Alle 원점(필수) | 제출자는 변종이 특정 대립 유전자의 기원을 가지고 있다는 실험 증거를 뒷받침하는 진술(주장)을 제공할 수 있다.단일 refSNP의 어소션은 요약되어 germline 또는 unknown 속성값이 지정됩니다. |
| 모집단(필수) | 각 제출자는 모집단 샘플을 처음에 변동을 식별하기 위해 사용된 그룹 또는 대립 유전자 빈도의 모집단 특이적 측정치를 식별하기 위해 사용된 그룹으로 정의합니다.이러한 모집단은 일부 실험 설계에서 동일할 수 있습니다. |
| 샘플 사이즈(옵션) | dbSNP에는 2개의 샘플사이즈 필드가 있습니다.SNPASSAY SAMPLE SIZE라는 한 필드는 처음에 변이를 확인하거나 발견하는 데 사용된 샘플의 염색체 수를 보고한다.또 다른 표본 크기 필드인 SNPPOUSE SAMPLE SIZE는 대립 유전자 빈도의 추정치를 계산할 때 분모로 사용된 염색체 수를 보고한다. |
| 모집단 고유 대립 유전자 빈도(옵션) | 주파수 데이터는 측정에 사용되는 실험 방법의 정밀도에 따라 대립 유전자 카운트 또는 빈 주파수 간격으로 dbSNP에 제출됩니다. dbSNP에는 각 제출자가 정의하여 제출된 변동을 검증하는 데 사용되는 특정 모집단 샘플의 대립 유전자 빈도에 대한 기록이 포함됩니다. |
| 모집단별 유전자형 빈도(옵션) | 대립 유전자와 마찬가지로 유전자형은 모집단에서 dbSNP에 제출될 수 있는 빈도를 가지며 제출된 변이를 검증하는 데 사용됩니다. |
| 개개의 유전자형 | dbSNP는 공공 데이터베이스에 DNA 서열을 저장하는 데 동의한 기증자가 제공한 샘플로부터 개별 유전자형을 받아들입니다(예: HapMap 또는 1000 게놈 프로젝트). |
| 검증 정보(옵션) | VALIDATION 섹션을 통해 제출자가 직접 검증한 평가는 변동을 확인하는 데 사용되는 증거 유형을 보여줍니다. |
풀어주다
dbSNP에 의해 취득된 새로운 정보는 일련의 "빌드"(즉,[4] 데이터의 리비전 및 릴리스)에서 정기적으로 일반에 공개됩니다.새로운 빌드를 공개하는 스케줄은 없습니다.대신, 빌드는 보통 새로운 게놈 빌드가 이용 가능하게 되면 공개됩니다.게놈에 [6]관련된 카탈로그화된 변이가 있다고 가정합니다.이는 약 3~4개월마다 발생합니다.게놈 시퀀스는 시간이 지남에 따라 개선될 수 있으므로 이전 빌드에서의 참조 SNP("refSNP")와 제출된 새로운 SNP는 새로 사용 가능한 게놈 시퀀스에 다시 매핑됩니다.송신된 여러 SNP(같은 장소에 매핑되어 있는 경우)는 1개의 refSNP 클러스터로 클러스터화되어 참조 SNP ID 번호가 할당됩니다.단, 2개의 refSNP 클러스터 레코드가 동일한 위치에 매핑된 경우(즉, 동일), dbSNP는 이러한 레코드도 병합합니다.이 경우 작은 refSNP 번호 ID(최초의 레코드)가 양쪽 레코드를 나타내며 큰 refSNP 번호 ID는 사용되지 않게 됩니다.이러한 오래된 refSNP 번호 ID는 새로운 레코드에 다시 사용되지 않습니다.2개의 refSNP 레코드가 Marge되면 변경이 추적되며 이전 refSNP 번호 ID는 검색 쿼리로 계속 사용할 수 있습니다.이 프로세스를 통해 동일한 레코드를 Marge하면 dbSNP [6]내의 용장성이 감소합니다.
위의 병합 기준에는 두 가지 예외가 있습니다.첫째, 다른 클래스의 변동(예: SNP와 DIP)은 병합되지 않습니다.둘째, 문헌에 인용된 임상적으로 중요한 refSNP는 "precious"라고 불린다. 이러한 refSNP를 제거하는 합병은 나중에 [6]혼란을 일으킬 수 있기 때문에 결코 수행되지 않는다.
취득
1. 방법
dbSNP는 Entrez SNP 검색 도구를 사용하여 검색할 수 있습니다.ss번호 ID, refSNP번호 ID, 유전자명, 실험방법, 모집단분류, 모집단상세, 출판물, 마커, 대립체, 염색체, 염기위치, 헤테로 접합범위 또는 빌드번호 [6][7]등 다양한 쿼리를 검색에 사용할 수 있다.또한 배치 [6]쿼리를 사용하여 여러 결과를 동시에 검색할 수 있습니다.검색에서는 쿼리 용어와 일치하는 refSNP 번호 ID와 해당 refSNP 클러스터에 대해 사용 가능한 정보의 요약을 반환합니다.
2. 도구/데이터
refSNP 클러스터에 사용할 수 있는 정보에는 개별 제출물의 기본 정보("제출" 참조)와 여러 제출물의 데이터(예: 이형 접합성, 유전자형 빈도)를 결합하여 사용할 수 있는 정보가 포함됩니다.refSNP 클러스터를 보다 상세하게 조사하기 위해 많은 도구를 사용할 수 있습니다.지도 보기에는 게놈의 변동 위치 및 기타 주변 변이가 표시됩니다.또 다른 도구인 유전자 뷰는 유전자 내 변이의 위치, 오래된 코돈과 새로운 코돈, 둘 다에 의해 코드화된 아미노산, 그리고 그 변화가 동의어인지 아닌지를 보고한다.Sequence Viewer는 인트론, 엑손 및 기타 원거리 및 근접 변종과 관련된 변종 위치를 보여줍니다. 부호화된 단백질의 3D 영상을 보여주는 3D 구조 매핑도 사용할 수 있습니다.
dbSNP는 또한 PubMed, UniSTS, PMC, OMIM 및 UniGene뿐만 아니라 뉴클레오티드, 단백질, 유전자, 분류법 및 구조 데이터베이스를 포함한 많은 다른 NCBI 자원과 연결되어 있습니다.
3. 유효성 확인 상황
검증 상태에는 변종을 지원하는 증거 범주가 나열됩니다.여기에는 (1) 복수의 독립된 제출, (2) 빈도 또는 유전자형 데이터, (3) 제출자 확인, (4) 적어도 2개의 염색체 내 모든 대립 유전자의 관찰, (5) HapMap에 의한 유전자형, (6) 1000개의 게놈 [6]프로젝트에서 배열된 것이 포함된다.
데이터 품질 문제
dbSNP에서 발견된 데이터의 품질은 유전자형과 염기 호출 오류로 인한 높은 거짓 양성률을 의심하는 많은 [8][9][10][11][12][13]연구 그룹에 의해 의문을 제기해 왔다.제출자가 (1) 매우 유사하지만 구별되는 DNA 배열의 비임계 생체 정보 정렬 및/또는 (2) 유사하지만 구별되는 DNA [8]염기서열을 구별할 수 없는 프라이머를 가진 PCR을 사용하는 경우 이러한 실수는 dbSNP에 쉽게 입력될 수 있다.미첼 외(2004)는 4개의 연구를 검토한 결과, dbSNP는 SNP에 대해 15-17%의 거짓 양성률을 가지며, 또한 거짓 양성자가 아닌 SNP의 약 80%에 대해 작은 대립 유전자 빈도가 10% 이상이라는 결론을 내렸다.마찬가지로, Museci et [8]al. (2010)는 dbSNP에서 바이알렐 코딩 SNP의 8.32%가 매우 유사한 DNA 배열의 인공물이며(즉, 평행 유전자) 이러한 항목을 단일 뉴클레오티드 차이(SNDs)라고 부른다.dbSNP의 높은 오류율은 놀랄 일이 아닙니다.인간의 refSNP 엔트리 2,370만 건 중 1,450만 건만이 검증되었으며 나머지 920만 건은 후보 SNP로 남았습니다.그러나 Museci et al.[8] (2010)에 따르면, refSNP 레코드에 제공된 검증 코드조차 부분적으로만 유용하며, HapMap 검증만이 SND 수를 줄였지만 (8%에 비해) 이 방법을 수락하면 dbSNP에서 실제 SNP의 절반 이상이 제거된다.또, Lee 그룹의 투고 소스 중 하나가 에러에 시달리고 있습니다.이러한 투고의 20%는 SND(투고용의 8%)입니다.그러나 저자들이 지적했듯이, 이러한 제출을 모두 무시하면 많은 실제 SNP가 제거될 것이다.
dbSNP의 오류는 후보 유전자 관련[14] 연구와 하플로타입 기반 조사를 [15]방해할 수 있습니다.오차는 연관 연구에서 [8]잘못된 결론을 증가시킬 수도 있습니다. 잘못된 SNP를 테스트하여 테스트하는 SNP의 수를 늘리기 위해서는 더 많은 가설 테스트가 필요합니다.단, 이러한 거짓 SNP는 실제로 특성과 관련지을 수 없기 때문에 실제 SNP만 테스트되고 거짓 음성 비율이 증가하면 알파 레벨이 엄격한 테스트에 필요한 것보다 감소합니다.Museci et al.[8] (2010)는 음성 연관 연구의 저자들이 분석에서 제거될 수 있는 잘못된 SNP(SND)에 대해 이전 연구를 검사해야 한다고 제안했다.
dbSNP의 데이터를 인용하는 방법
개별 시퀀스는 refSNP 클러스터 ID 번호(예를 들어 rs206437)로 참조할 수 있습니다.dbSNP는 2001 Sherry 등의 논문을 사용하여 참조해야 합니다.Sherry, S.T., Ward, Holodov, M., Baker, J., Phan, L., Smigielski, E.M., Sirotkin, K. (2001)dbSNP: 유전자 변이의 NCBI 데이터베이스.핵산 연구, 29: 308-311.[5]
「 」를 참조해 주세요.
레퍼런스
- ^ Wheeler DL, Barrett T, Benson DA, et al. (January 2007). "Database resources of the National Center for Biotechnology Information". Nucleic Acids Res. 35 (Database issue): D5–12. doi:10.1093/nar/gkl1031. PMC 1781113. PMID 17170002.
- ^ a b Sherry ST, Ward M; Sirotkin, K. (1999). "dbSNP - database for single nucleotide polymorphisms and other classes of minor genetic variation". Genome Research. 9 (8): 677–679. doi:10.1101/gr.9.8.677. PMID 10447503. S2CID 10775908.
- ^ "Phasing out support for non-human genome organism data in dbSNP and dbVar". 2017-05-09. Retrieved 9 July 2017.
- ^ a b c d e f Kitts A; Sherry S (2009). "The single nucleotide polymorphism database (dbSNP) of nucleotide sequence variation". National Center for Biotechnology Information (US).
{{cite journal}}:Cite 저널 요구 사항journal=(도움말) - ^ a b c Sherry ST, Ward MH, Kholodov M, Baker J, Phan L, Smigielski EM, Sirotkin K, et al. (2001). "dbSNP: the NCBI database of genetic variation". Nucleic Acids Res. 29 (1): 308–311. doi:10.1093/nar/29.1.308. PMC 29783. PMID 11125122.
- ^ a b c d e f NCBI (2010). "The single nucleotide polymorphism database (dbSNP) frequently asked questions". National Center for Biotechnology Information (US).
{{cite journal}}:Cite 저널 요구 사항journal=(도움말) - ^ Phillips, C (2007). "Online resources for SNP analysis: A review and route map". Molecular Biotechnology. 35 (1): 65–97. doi:10.1385/MB:35:1:65. PMID 17401150. S2CID 8569553.
- ^ a b c d e f Musemeci L, Arthur JW, Cheung FS, Hoque S, Lippman S, Reichardt JK, et al. (January 2010). "Single Nucleotide Differences (SNDs) in the dbSNP Database May Lead to Errors in Genotyping and Haplotyping Studies". Human Mutation. 31 (1): 67–73. doi:10.1002/humu.21137. PMC 2797835. PMID 19877174.
- ^ a b Mitchell AA, Zwick ME, Chakravarti A, Cutler DJ, et al. (2004). "Discrepancies in dbSNP confirmation rates and allele frequency distributions from varying genotyping error rates and patterns". Bioinformatics. 20 (7): 1022–1032. doi:10.1093/bioinformatics/bth034. PMID 14764571.
- ^ a b Carlson CS, Eberle MA, Rieder MJ, Smith JD, Kruglyak L, Nickerson DA, et al. (2003). "Additional SNPs and linkage-disequilibrium analyses are necessary for whole-genome association studies in humans". Nature Genetics. 33 (4): 518–521. doi:10.1038/ng1128. PMID 12652300. S2CID 11640599.
- ^ a b Cutler DJ, Zwick ME, Carrasquillo MM, Yohn CT, Tobin KP, Kashuk C, Matthews DJ, Shah NA, Elchler EE, Warrington JA, Chakravarti A, et al. (2001). "High-Throughput Variation Detection and Genotyping Using Microarrays". Genome Research. 11 (11): 1913–1925. doi:10.1101/gr.197201. PMC 311146. PMID 11691856.
- ^ a b Gabriel SB; Schaffner SF; Nguyen H; Moore J.M; Roy J; Blumenstiel B; Higgins J; DeFelice M; Lochner A; Faggart M; Liu-Cordero SN; Rotimi C; Adeyemo A; Cooper R; Ward R; Lander ES; Daly MJ; Altshuler D; et al. (2003). "The structure of haplotype blocks in the human genome". Science. 296 (5576): 2225–2229. doi:10.1126/science.1069424. PMID 12029063. S2CID 10069634.
- ^ a b Reich DE, Gabriel SB, Altshuler D, et al. (2003). "Quality and completeness of SNP databases". Nature Genetics. 33 (4): 457–458. doi:10.1038/ng1133. PMID 12652301. S2CID 6303430.
- ^ Dvornyk V, Long JR, Xiong DH, Liu PY, Zhao LJ, Shen H, Zhang YY, Liu YJ, Rocha-Sancher S, Xiao P, Recker RR, Deng HW, et al. (2004). "Current limitations of SNP data from the public domain for studies of complex disorders: a test for ten candidate genes for obesity and osteoporosis". BMC Genetics. 5: 4. doi:10.1186/1471-2156-5-4. PMC 395827. PMID 15113403.
- ^ de Bakker PI; Yelensky R; Pe’er I; Gabriel SB; Daly MJ; Altshuler D; et al. (2005). "Efficiency and power in genetic association studies". Nature Genetics. 37 (11): 1217–1223. doi:10.1038/ng1669. PMID 16244653. S2CID 15464860.