케임브리지 구조 데이터베이스

Cambridge Structural Database
케임브리지 구조 데이터베이스
Database.png
내용
설명
연락처
리서치센터케임브리지 결정학 데이터 센터
접근
데이터 형식.cif
웹사이트
웹 서비스 URLwww.ccdc.cam.ac.uk/structures
도구들
WebCSD
독립 실행형
  • CSD 시스템
  • CSD(데이터베이스)
  • 콘퀘스트
  • 수성.
  • 이소스타
  • 모굴
  • 골드
  • CSD-크로스마이너

케임브리지 구조 데이터베이스(CSD)는 일반적으로 최소한 탄소수소포함하는 분자의 3차원 구조 데이터를 위한 저장소와 검증 및 큐레이션된 자원이며, 광범위한 유기, 금속 유기유기물 분자로 구성된다.특정 항목은 단백질 데이터 뱅크(PDB), 무기 결정 구조 데이터베이스국제 회절 데이터 센터와 같은 다른 결정학적 데이터베이스와 보완된다.전형적으로 X선 결정학에 의해 획득되고 전자 회절이나 중성자 회절에 의해 덜 빈번하게 획득되고 전세계의 결정학자화학자들에 의해 제출되는 데이터는 CSD의 모조직 웹사이트(CDC, Repository[1])를 통해 인터넷에서 자유롭게 접근할 수 있다(저자가 기탁한 대로).CSD는 CCDC, Cambridge Crystalographical Data Centre라고 불리는 비영리 법인 회사에 의해 감독된다.

영국 CCDC 본사 케임브리지 내부

CSD는 과학자들을 위해 작은 분자 유기물과 금속 유기 결정 구조를 위해 널리 사용되는 보고다.CCDC(Cambridge Crystalographical Data Centre)에 예치된 구조물은 발행 시점 또는 예치자의 동의 하에 다운로드할 수 있다.그것들은 또한 과학적으로 풍부하고 센터에서 제공하는 소프트웨어에 의해 사용되는 데이터베이스에 포함된다.CSD의 목표 하위 집합은 또한 교육 및 기타 활동을 지원하기 위해 자유롭게 이용할 수 있다.[2]

역사

CCDC케임브리지 대학의 유기화학, 무기화학 및 이론화학 학부에서 올가 케나드 OBE FRS가 이끄는 결정학 그룹의 활동에서 성장했다.1965년부터 이 단체는 X선이중성자 회절(Neutronary discollection)에 의해 연구된 모든 작은 분자에 대해 출판된 서지학, 화학, 결정 구조 데이터를 수집하기 시작했다.이 시기에 컴퓨팅의 급속한 발전으로, 이 컬렉션은 전자적 형태로 암호화되어 케임브리지 구조 데이터베이스(CSD)로 알려지게 되었다.

CSD는 세계 어느 곳에서나 운영을 시작한 최초의 수치적 과학 데이터베이스 중 하나였으며, 영국 과학기술정보국(Office for Scientific and Technical Information)과 그 후 영국 과학공학연구위원회로부터 학술적 보조금을 받았다.이러한 기금은 1970년대와 1980년대에 국가 부속 센터의 하위 발명품과 함께 CSD와 관련 소프트웨어의 개발을 가능하게 했다.CSD 시스템이 미국, 이탈리아, 일본에 처음으로 출시된 것은 1970년대 초에 일어났다.1980년대 초까지 CSD 시스템은 30개국 이상에 배포되고 있었다.2014년 현재 CSD 시스템은 70개국의 학자들에게 배포되었다.

1980년대에는 제약농화학 업체의 CSD 시스템에 대한 관심이 크게 증가했다.이것은 1987년에 비영리 자선 기관의 법적 지위를 가지고 있고 국제 이사회에 의해 운영이 감독되는 독립된 회사로 캠브리지 결정학 데이터 센터(CCDC)가 설립되는 계기가 되었다.CCDC는 1992년 대학 화학과 부지에 건설된 건물로 이사했다.

케나드는 1997년 이사직을 은퇴하고 데이비드 하틀리(1997~2002년)와 프랭크 알렌(2002~2008년)이 뒤를 이었다.콜린 신랑은 2008년[3] 10월 1일부터 2017년 9월까지 전무이사로 선임되었다.[4]그리고 가장 최근에는 2018년 6월 저겐 하터가 CEO로 선임됐다.[5]

CCDC 소프트웨어 제품은 생명과학과 결정학의 응용분야에서 결정학적 데이터의 사용으로 다양화되었다.이러한 소프트웨어 개발 및 마케팅의 대부분은 CCDC에 대한 수익의 전액을 반환하는 완전 소유의 자회사 CCDC Software Limited(1998년 설립)에 의해 수행된다.

CCDC는 비록 자학기관이지만 케임브리지 대학과 긴밀한 연계를 유지하고 있으며, 대학원생들을 고등학위(PhD, MPhil)로 양성할 수 있는 자격을 갖춘 대학 파트너 기관이다.

CCDC는 2013년 10월 미국 내에서 RCSB 단백질 데이터 뱅크와 공동 위치하는 뉴저지 주립대학 러트거스에서 미국 애플리케이션 및 지원 운영을 설립했다.[6][7]

내용물

One Millionth Structure Added to CSD
CSD, CSD ID에 100만번째 구조 추가: XOPCAJ

CSD는 매년 약 5만 개의 새로운 구조로 업데이트되며,[8] 기존 입력사항을 개선한다.저장소의 항목(구조물)은 동료 검토 과학 문헌에 해당 항목이 나타나는 즉시 공개되어 공개된다.한편, 데이터는 CSD 통신이라고 알려진 것으로서 수반되는 과학적 기사 없이도 CSD를 통해 직접 축적되고 공표될 수 있다.

예를 들어, 2014년 1월 보고서와 같이 CSD 보유의 폭에 대한 일반 통계가 주기적으로 보고된다.[9]2019년 1월 현재 요약통계량은 다음과 같다.[10]

질의 구조물들 CSD의 비율
전체 구조물 수 995,907 100.0
여러 화합물의 수 900,984 -
문학 출처 수 2,004 -
유기 구조물 431,037 43.5
전환 금속 존재 478,138 48.2
알칼리 또는 알칼리성 접지 금속 존재 48,056 4.8
주요 그룹 금속 존재 101,948 10.3
3D 좌표 존재 937,809 94.6
오류 없는 좌표 926,422 98.81
중성자 연구 2,142 0.2
분말 회절 연구 4,761 0.5
저온/고온. 스터디 503,368 50.8
절대 구성이 결정됨 28,834 2.9
구조물에 존재하는 장애 256,019 25.8
다형성 구조 29,817 3.0
R-요인 < 0.100 935,419 94.4
R-요인 < 0.075 845,708 85.3
R-요인 < 0.050 553,042 55.8
R-요인 < 0.030 121,806 12.3
3D 좌표를 가진 원자의 수 85,791,623 -

2019년 1월 현재 CSD 저장소 내 구조물의 발행 기준 상위 25개 과학 학술지는 다음과 같다.[11]

1. Inorg에서 7만3,070개의 구조물이 보고되었다. 화학.
2. 달튼&J화학에서 6만2072건의 구조물이 보고되었다. 소크, 달튼 트랜스.
3. 조직측정학에서 54,160개의 구조물이 보고되었다.
4. J. Am에 48,967개의 구조물이 보고되었다. 화학. Soc.
5. Acta Crystalogr에 42,422개의 구조물은 액타 결정체에 보고되었다. E장
6. Chem에서 32,610개의 구조물이 보고되었다. 유로 J.
7. J. Organomet에 29,790개의 구조물이 보고되었다. 화학.
8. 안젤로에서는 29,640개의 구조물이 보고되었다. 화학. 인트. 에드
9. Inorg에서 28,682개의 구조물이 보고되었다. 침. 액타
10. Chem에서는 28,351개의 구조물이 보고되었다. 코뮌 & J. 화학. Soc.
11. CSD 통신에 27,328개의 구조물이 보고되었다.
12. Acta Crystalogr에 26,774개의 구조물이 보고되었다. C장
13. 다면체에서 26,734개의 구조물이 보고되었다.
14. 유로에서는 24,045개의 구조물이 보고되었다. J. 이노르그. 화학.
15. J. Org에서 23,483개의 구조물이 보고되었다. 화학.
16. 22,286개의 구조물이 크리스트에서 보고되었다. 성장 디스.
17. CritEngComm에서 22,011개의 구조물이 보고되었다.
18. 15,985개의 구조물이 유기체 문자에 보고되었다.
19. Z에 15,424개의 구조물이 보고되었다. 아노그, 알그 화학.
20. 액타 결정체에 14,864개의 구조물이 보고되었다. B장
21. 13,909개의 구조물이 4면체 8,597개의 구조물이 CSD에 대한 개인 통신으로 보고되었다.
22. J. Mol. Structure에 12,734개의 구조물이 보고되었다.
23. Tetrahedron Let에 11,234개의 구조물이 보고되었다.
24. 9,150개의 구조물이 유로에서 보고되었다. J. Org. 화학.
25. 8,789개의 구조물이 New Journal of Chemistry에 보고되었다.

이들 25개 저널은 CSD 내 구조물의 996,193개 중 704,541개 또는 70.7%를 차지한다.

이러한 데이터는 대부분의 구조가 X선 회절(X선 회절)에 의해 결정되며, 1% 미만의 구조물은 중성자 회절 또는 분말 회절(분말 회절)에 의해 결정된다는 것을 보여준다.무오류 좌표 수는 CSD에 3D 좌표가 존재하는 구조물의 백분율로 간주되었다.

위에서 언급한 구조 인자 파일의 중요성은 구조 파일이 있는 X선 회절에 의해 결정된 CSD 구조물의 경우 결정학자가 관측된 측정값의 해석을 검증할 수 있다는 것이다.

성장동향

역사적으로, 구조체의 일정 속도 운전의 수가 대략 지수 함수적인 비율로 2만 5천개의 구조는 1977년에 milestone 통과하는 성장했다, 5만원권은 구조 1983년, 1992년 12만 5천마리 구조물 이정표 milestone 25만 구조 2001년 milestone, 50만 구조 2009,[12][13][14]에 1,000,000structu milestone.milestonrese 2019년 6월 8일.[15]CSD에 추가된 100만번째 구조물은 1-(7,9-다이아세틸-11-메틸-6H-아제피노[1,2-a]indol-6-yl)프로판-2-1의 결정구조다.

1965~2018년[11] CSD 구조 성장동향
연도별 게시된 구조물 수
연도 # 발행 합계
2018 53429 974,653
2017 55031 921,224
2016 54975 866,193
2015 53610 811,218
2014 50759 757,608
2013 48025 706,849
2012 45199 661,121
2011 43882 615,922
2010 41240 572,040
2009 40627 530,800
2008 36802 490,173
2007 36569 453,371
2006 34713 416,802
2005 31733 382,089
2004 27988 350,356
2003 26287 322,368
2002 24306 296,081
2001 21781 271,775
2000 19998 249,994
1999 18780 229,996
1998 17289 211,216
1997 15896 193,927
1996 15487 178,031
1995 13001 162,544
1994 12290 149,543
1993 12032 137,253
1992 10691 125,221
1991 9941 114,530
1990 8935 104,589
1989 7750 95,654
1988 7644 87,904
1987 7472 80,260
1986 6873 72,788
1985 6911 65,915
1984 6511 59,004
1983 5250 52,493
1982 5233 47,243
1981 4666 42,010
1980 4252 37,344
1979 3876 33,092
1978 3415 29,216
1977 3092 25,801
1976 2735 22,709
1975 2171 19,974
1974 2142 17,803
1973 1991 15,661
1972 1969 13,670
1971 1548 11,701
1970 1261 10,153
1969 1130 8,892
1968 975 7,762
1967 936 6,787
1966 683 5,851
1965 656 5,168
1923-1964 4512 4,512

참고: 1923-1964년 데이터는 표의 마지막 줄에 함께 집계된다.

파일 형식

3D printed model of Benzoic Acid
결정 구조 결정에서 얻은 Benzoic Acid의 3D 프린팅 모델은 CCDC 프로그램 Mercury와 캠브리지 Structural Database의 좌표를 사용하여 만들어졌다.맨 위 모델은 벤조산의 단일 분자를 보여준다.아래쪽 모델은 수소 결합형 조광기를 보여준다.

1991년경에 채택된 CSD 구조 증착의 1차 파일 형식은 "Crystallographic Information file" 형식인 CIF이다.[16]

입금된 CSD 파일은 CIF 형식으로 다운받을 수 있다.검증되고 큐레이션된 CSD 파일은 CSD 시스템의 도구를 사용하여 CIF, MOL, MOL2, PDB, SELX, XMol 등 광범위한 형식으로 내보낼 수 있다.

CCDC는 축적된 데이터 집합과 큐레이션된 CSD 항목을 구별하기 위해 두 개의 다른 코드를 사용한다.예를 들어, 유기 분자의 특정 'CSD 통신' 한 개를 CCDC에 맡기고 증착 번호 'CCDC-991327'을 할당했다.이것은 예치된 데이터에 대한 공공의 자유로운 접근을 허용한다.축적된 데이터에서 선택된 정보를 추출하여 리프코드 'MITGUT'가 부여된 검증되고 큐레이션된 CSD 엔트리를 준비한다. 큐레이션 프로세스의 일환으로, CCDC는 또한 그러한 표현(예: 채권 유형 및 충전 할당 등) 시 편집자가 구조물에 화학물질을 할당할 수 있도록 돕는 알고리즘인 DeCIFer를 적용한다.제출된 원본 CIF 파일에서 누락됨.[8]검증되고 통제된 항목은 CSD 시스템 및 WebCSD 배포에 포함되며 가용성은 적절한 기여를 하는 것으로 제한된다.

데이터 보기

1-메틸-2,3,4,5-테트라키스((트리메틸릴)ethyl)-1H-피롤 구조 3D 프린팅 모델CSD 식별자: XURZAN

CSD의 각 데이터 세트는 무료 접속 구조 서비스를 이용하여 공개 열람 및 검색이 가능하다.이 웹브라우저 기반 서비스를 통해 사용자는 2D와 3D로 된 데이터 세트를 보고 구조에 대한 기본적인 정보를 얻고, 퇴적된 데이터 세트를 다운로드 받을 수 있다.구독 기반 CSD 시스템을 통해 보다 발전된 검색 기능과 큐레이션된 정보를 이용할 수 있다.

CSD 시스템을 사용하는 것 외에도, 구조 파일은 Jmol과 같은 여러 오픈 소스 컴퓨터 프로그램 중 하나를 사용하여 볼 수 있다.다른 무료 프로그램으로는 MDL Chime, Pymol, UCSF Chimera, Rasmol, WINGX,[17] CCDC가 시각화 프로그램의 무료 버전을 제공한다.

2015년부터 CCDC의 Mercury는 CSD의 구조에서 3D 인쇄 준비 파일을 생성할 수 있는 기능도 제공한다.[18]

참고 항목

참조

  1. ^ "CCDC CIF Depository Request Form". Cambridge Crystallographic Data Centre. Retrieved 2014-09-16.
  2. ^ "CCDC Homepage". Cambridge Crystallographic Data Centre. Retrieved 2014-09-16.
  3. ^ Groom C, Allen F (July 2009). "CCDC well groomed: an interview with Colin Groom, Executive Director, Cambridge Crystallographic Data Centre, and Frank Allen, Emeritus Fellow". Journal of Computer-Aided Molecular Design. 23 (7): 391–4. Bibcode:2009JCAMD..23..391W. doi:10.1007/s10822-009-9272-5. PMID 19421719.
  4. ^ "Announcement from the Chair, on behalf of Trustees". The Cambridge Crystallographic Data Centre. September 11, 2017. Retrieved 2019-05-15.
  5. ^ "The CCDC welcomes Jürgen Harter as CEO". The Cambridge Crystallographic Data Centre (CCDC). June 11, 2018. Retrieved 2019-05-15.
  6. ^ "CCDC opens US operations". The Cambridge Crystallographic Data Centre (CCDC). October 30, 2013. Retrieved 2019-05-15.
  7. ^ "The Cambridge Crystallographic Data Centre Establishes U.S. Operations in New Partnership with Rutgers' Center for Integrative Proteomics Research". Rutgers Office of Research and Economic Development. Retrieved May 15, 2019.
  8. ^ a b Bruno IJ, Groom CR (October 2014). "A crystallographic perspective on sharing data and knowledge". Journal of Computer-Aided Molecular Design. 28 (10): 1015–22. Bibcode:2014JCAMD..28.1015B. doi:10.1007/s10822-014-9780-9. PMC 4196029. PMID 25091065.
  9. ^ "CSD Entries: Summary Statistics" (PDF). Cambridge Crystallographic Data Centre. Archived from the original (PDF) on 2014-06-11. Retrieved 2014-09-16.
  10. ^ "CSD Entries: Summary Statistics" (PDF). Cambridge Structural Database. January 1, 2019. Retrieved May 15, 2019.
  11. ^ a b "CSD Journal Statistics" (PDF). Cambridge Structural Database. January 1, 2019. Retrieved May 16, 2019.
  12. ^ Groom CR, Allen FH (January 2014). "The Cambridge Structural Database in retrospect and prospect". Angewandte Chemie. 53 (3): 662–71. doi:10.1002/anie.201306438. PMID 24382699.
  13. ^ "Growth of the Cambridge Structural Database (CSD) since 1970". CCDC. Retrieved 2014-09-16.
  14. ^ "CSD Statistics". The Cambridge Crystallographic Data Centre (CCDC). Retrieved 2019-05-17.
  15. ^ Robinson, Philip; Withers, Neil; Pink, Chris; Valsler, Ben. "The Cambridge Structural Database hits one million structures". Chemistry World. Retrieved 2019-06-07.
  16. ^ Hall SR, Allen FH, Brown ID (1991). "The Crystallographic Information File (CIF): a new standard archive file for crystallography". Acta Crystallographica. A47 (6): 655–685. doi:10.1107/S010876739101067X.
  17. ^ Farrugia LJ (1 August 1999). "WinGX suite for small-molecule single-crystal crystallography". Journal of Applied Crystallography. 32 (4): 837–838. doi:10.1107/S0021889899006020.
  18. ^ "3D Printing: Easy as 1, 2, 3!". The Cambridge Crystallographic Data Centre (CCDC). August 19, 2015. Retrieved 2019-05-18.

외부 링크