정량적 구조-활동 관계

Quantitative structure–activity relationship

정량적 구조-활동 관계 모델(QSAR 모델)은 화학, 생물 과학 및 공학에서 사용되는 회귀 또는 분류 모델입니다. 다른 회귀 모형과 마찬가지로 QSAR 회귀 모형은 예측 변수 집합(X)을 반응 변수(Y)의 유효성과 연관시키는 반면, 분류 QSAR 모형은 예측 변수를 반응 변수의 범주형 값과 연관시킵니다.

QSAR 모델링에서 예측 변수는 화학 물질의 물리화학적 특성 또는 이론적 분자 기술자[1][2] 구성됩니다. QSAR 반응 변수는 화학 물질의 생물학적 활동일 수 있습니다. QSAR 모델은 먼저 화학 물질의 데이터 세트에서 화학 구조생물학적 활성 사이의 추정된 관계를 요약합니다. 둘째, QSAR 모델은 새로운 화학 물질의 활동을 예측합니다.[3][4]

화학적 특성을 반응 변수로 모델링할 때 관련 용어에는 양적 구조-속성 관계(QSPR)가 포함됩니다.[5][6] "QSPR 분야에서 화학 분자의 다양한 특성 또는 거동이 연구되어 왔습니다. 일부 예는 정량적 구조-반응성 관계(QSRR), 정량적 구조-크로마토그래피 관계(QSCR) 및 정량적 구조-독성 관계(QSTR), 정량적 구조-전기화학적 관계(QSER) 및 정량적 구조-생분해성 관계(QSBR)"[7]

예를 들어, 생물학적 활성은 어떤 생물학적 반응을 주기 위해 필요한 물질의 농도로 정량적으로 표현될 수 있습니다. 또한 물리화학적 성질이나 구조를 숫자로 표현하면 양자 사이의 수학적 관계, 즉 양적 구조-활성 관계를 알 수 있습니다. 신중하게 검증된 수학적 표현은 다른 화학 구조의 모델링된 반응을 예측하는 데 사용될 수 있습니다.[8][9][10][11][12]

QSAR은 수학적 모델의 형태를 갖습니다.

  • 활성 = f (physi화학적 특성 및/또는 구조적 특성) + 오차

오차에는 모형 오차(편향)와 관측 변동성, 즉 올바른 모형에서도 관측치의 변동성이 포함됩니다.

QSAR 연구의 필수 단계

QSAR/QSPR의 주요 단계는 다음과 같습니다.

  1. 데이터 세트의 선택과 구조적/경험적 기술자의 추출,
  2. 변수 선택,
  3. 모델 구축 및
  4. 유효성 평가.[7]

SAR과 SAR 역설

모든 분자 기반 가설의 기본 가정은 유사한 분자가 유사한 활동을 한다는 것입니다. 이 원리는 구조-활동 관계(SAR)라고도 합니다. 따라서 근본적인 문제는 반응 능력, 생체 변형 능력, 용해도, 표적 활성 등 각 종류의 활성이 다른 차이에 따라 달라질 수 있기 때문에 분자 수준에서 작은 차이를 정의하는 방법입니다. 예는 Patanie/LaVoie[13] and Brown의 생물학적 등골증 리뷰에서 제시되었습니다.[14]

일반적으로 강한 트렌드를 찾는 데 더 관심이 있습니다. 생성된 가설은 일반적으로 유한한 수의 화학 물질에 의존하므로 과적합을 피하기 위해 주의해야 합니다. 즉, 훈련 데이터에 매우 밀접하게 적합하지만 새로운 데이터에 적용할 때 성능이 떨어지는 가설을 생성하는 것입니다.

SAR 역설은 모든 유사 분자가 유사한 활성을 갖는 것이 아니라는 사실을 말합니다.

종류들

조각기반(그룹기여)

유사하게, 미분 용해도의 측정치이자 QSAR 예측의 구성 요소인 "분할 계수"는 원자적 방법(XLOGP 또는 ALOGP) 또는 화학적 단편 방법(CLOGP 및 기타 변형)에 의해 예측될 수 있습니다. 화합물의 logP는 조각의 합에 의해 결정될 수 있는 것으로 나타났습니다; 조각 기반 방법은 일반적으로 원자 기반 방법보다 더 나은 예측 변수로 받아들여집니다.[15] 단편적인 값은 알려진 logP 값에 대한 경험적 데이터를 기반으로 통계적으로 결정되었습니다. 이 방법은 혼합된 결과를 제공하며 일반적으로 ±0.1 단위 이상의 정확도를 갖는 것으로 신뢰되지 않습니다.[16]

그룹 또는 단편 기반 QSAR은 GQSAR이라고도 합니다.[17] GQSAR는 생물학적 반응의 변화와 관련하여 다양한 관심 분자 단편을 유연하게 연구할 수 있도록 합니다. 분자 단편은 동종 분자 세트의 다양한 치환 부위에서 치환될 수 있거나 비동형 분자 세트의 경우 미리 정의된 화학적 규칙을 기반으로 할 수 있습니다. GQSAR은 또한 교차항 단편 기술자를 고려하며, 이는 활성의 변화를 결정하는 데 있어 주요 단편 상호작용을 식별하는 데 도움이 될 수 있습니다.[17] 프라그노믹스를 이용한 리드 디스커버리는 새로운 패러다임입니다. 이러한 맥락에서 FB-QSAR은 단편 라이브러리 설계와 단편 간 식별 노력을 위한 유망한 전략임이 입증되었습니다.[18]

약포체-유사성의 개념에 기초한 단편 또는 그룹 기반 QSAR에 대한 고급 접근법이 개발됩니다.[19] 이 방법은 PS-QSAR(Pharmacophore-similarity-based QSAR)을 사용하여 위상 약학적 기술자를 사용하여 QSAR 모델을 개발합니다. 이 활성 예측은 활성 개선 및/또는 해로운 효과에 대한 각각의 단편에 의해 암호화된 특정 약리포어 특징의 기여를 도울 수 있습니다.[19]

3D-QSAR

3D-QSAR 또는 3-D QSAR의 약자는 알려진 활동(훈련 세트)을 가진 주어진 소분자 집합의 3차원 구조를 요구하는 힘장 계산의 적용을 말합니다. 훈련 세트는 실험 데이터(예: 리간드-단백질 결정학 기반) 또는 분자 중첩 소프트웨어에 의해 중첩(정렬)되어야 합니다. 실험 상수가 아닌 Lennard-Jones 전위와 같은 계산된 전위를 사용하며 단일 치환기보다는 분자 전체에 관심을 갖습니다. 최초의 3-D QSAR는 Cramer et al.에 의해 비교 분자장 분석(CoMFA)으로 명명되었습니다. 그것은 부분 최소 제곱 회귀(PL)에 의해 상관관계가 있는 입체장(분자의 모양)과 정전기장을[20] 조사했습니다.

생성된 데이터 공간은 일반적으로 다음과 같은 기능 추출에 의해 축소됩니다(차원 축소도 참조). 다음과 같은 학습 방법은 이미 언급된 기계 학습 방법, 예를 들어 지원 벡터 머신 중 어느 것이든 될 수 있습니다.[21] 대안적인 접근법은 가능한 분자 형태를 나타내는 데이터 인스턴스의 집합으로 분자를 인코딩하여 다중 인스턴스 학습을 사용합니다. 분자의 활성에 대응하는 각 세트에는 라벨 또는 응답이 할당되며, 이는 세트 내의 적어도 하나의 인스턴스(즉, 분자의 일부 형태)에 의해 결정되는 것으로 가정됩니다.[22]

2011년 6월 18일, 비교 분자장 분석(CoMFA) 특허는 GRID 및 부분 최소 제곱(PLS) 기술의 사용에 대한 모든 제한을 중단했습니다.[citation needed]

화학 기술자 기반

이 방법에서는 분자의 다양한 전자적, 기하학적 또는 입체적 특성을 정량화한 기술자를 계산하여 QSAR를 개발하는 데 사용합니다.[23] 이 접근법은 기술자가 개별 조각의 속성이 아닌 전체 시스템에 대해 계산된다는 점에서 조각(또는 그룹 기여) 접근법과 다릅니다. 이 접근 방식은 디스크립터가 3D 필드가 아닌 스칼라 양(예: 에너지, 기하학적 매개변수)에서 계산된다는 점에서 3D-QSAR 접근 방식과 다릅니다.

이러한 접근법의 한 예는 반쪽 샌드위치 화합물에 의한 올레핀 중합을 위해 개발된 QSARs입니다.[24][25]

문자열 기반

순전히 SMILES 문자열을 기반으로 활동 예측까지 가능한 것으로 나타났습니다.[26][27][28]

그래프 기반

문자열 기반 방법과 유사하게 분자 그래프는 QSAR 모델의 입력으로 직접 사용할 수 [29][30]있지만 일반적으로 디스크립터 기반 QSAR 모델에 비해 성능이 떨어집니다.[31][32]

모델링.

문헌에서 화학자들은 한 단계에서 특징 추출과 유도를 적용하기 [citation needed]때문에 부분 최소 제곱법(PLS)을 선호한다는 것을 종종 발견할 수 있습니다.

데이터 마이닝 접근 방식

컴퓨터 SAR 모델은 일반적으로 비교적 많은 수의 기능을 계산합니다. 구조적 해석 능력이 부족하기 때문에 전처리 단계는 특징 선택 문제(즉, 구조-활동 관계를 결정하기 위해 어떤 구조적 특징을 해석해야 하는지)에 직면합니다. 특징 선택은 육안 검사(사람에 의한 정성적 선택), 데이터 마이닝 또는 분자 마이닝에 의해 수행될 수 있습니다.

일반적인 데이터 마이닝 기반 예측은 예측 학습 모델을 유도하기 위해 지원 벡터 머신, 의사 결정 트리, 인공 신경망을 사용합니다.

구조화된 데이터 마이닝 접근법의 특별한 경우인 분자 마이닝 접근법은 유사성 행렬 기반 예측 또는 자동 단편화 체계를 분자 하위 구조에 적용합니다. 또한 최대 공통 하위 그래프 검색 또는 그래프 커널을 사용하는 접근 방식도 있습니다.[33][34]

QSAR 프로토콜

일치 분자쌍 분석

일반적으로 비선형 기계 학습에서 파생된 QSAR 모델은 의학 화학자를 안내하지 못하는 "블랙박스"로 간주됩니다. 최근에는 활동 절벽을 식별하기 위해 QSAR 모델과 결합된 비교적 새로운 개념의 일치 분자 분석[35] 또는 예측 기반 MMPA가 있습니다.[36]

QSAR 모델의 품질 평가

QSAR 모델링은 분자 구조를 나타내는 기술자와 함께 화학물질(의약품/독성물질/환경오염물질)의 QSPR 모델에서 생물학적 활성(바람직한 치료 효과 및 바람직하지 않은 부작용 포함) 또는 물리화학적 특성을 연관시키는 통계 도구의 적용으로부터 유도된 예측 모델을 생성합니다. 성질 QSAR은 약물 발견리드 최적화 외에도 위험 평가, 독성 예측, 규제 결정[37] 등 많은 분야에서 적용되고 있습니다.[38] 좋은 품질의 QSAR 모델을 얻는 것은 입력 데이터의 품질, 모델링 및 검증을 위한 기술자의 선택 및 통계적 방법과 같은 많은 요인에 달려 있습니다. 모든 QSAR 모델링은 궁극적으로 새로운 화합물의 모델링된 응답을 정확하고 신뢰할 수 있는 예측을 할 수 있는 통계적으로 강력하고 예측 가능한 모델로 이어져야 합니다.

QSAR 모델의 검증을 위해 일반적으로 다양한 전략이 채택됩니다.[39]

  1. 내부 검증 또는 교차 valid(actually를 들어, 데이터를 추출하는 동안 교차 검증은 모델 견고성의 척도이며, 모델이 강건할수록 (higher q2) 데이터 추출이 원래 모델을 교란시킬수록);
  2. 이용 가능한 데이터 세트를 모델 개발을 위한 훈련 세트와 모델 예측성 검사를 위한 예측 세트로 분할하여 외부 검증;
  3. 새로운 외부 데이터에 대한 모델 적용에 의한 블라인드 외부 검증 및
  4. 반응과 모델링 기술자 사이의 우연 상관 관계가 없음을 확인하기 위한 데이터 랜덤화 또는 Y-스크램블링.

QSAR 모델의 성공 여부는 입력 데이터의 정확성, 적절한 기술자 및 통계 도구의 선택, 가장 중요한 것은 개발된 모델의 검증에 달려 있습니다. 검증은 특정 목적을 위해 절차의 신뢰성과 관련성이 확립되는 프로세스입니다. QSAR 모델의 검증은 주로 모델의 견고성, 예측 성능 및 적용 가능성 영역(AD)을 위한 것이어야 합니다.[8][9][11][40][41]

몇 가지 검증 방법론이 문제가 될 수 있습니다. 예를 들어, 원-아웃 교차 검증을 남겨두면 일반적으로 예측 능력이 과대 추정됩니다. 외부 검증을 하더라도 발표되는 모델의 예측 능력을 극대화하기 위해 훈련 및 테스트 세트의 선택을 조작했는지 여부를 판단하기가 어렵습니다.

주의가 필요한 QSAR 모델의 검증의 다양한 측면에는 훈련 세트 화합물의 선택 [42]방법, 훈련 세트 크기[43] 설정 및 예측 품질 결정을 위한 훈련 세트 모델에 대한 변수[44] 선택의 영향이 포함됩니다. QSAR 모델의 품질을 판단하기 위한 새로운 검증 파라미터의 개발도 중요합니다.[11][45][46]

어플

화학의

최초의 역사적인 QSAR 애플리케이션 중 하나는 끓는점을 예측하는 것이었습니다.[47]

예를 들어 특정 화학 화합물, 특히 유기 화학에서 구조와 관찰된 특성 사이에 강한 상관관계가 있다는 것은 잘 알려져 있습니다. 간단한 예는 알칸의 탄소 수와 끓는점 사이의 관계입니다. 탄소수의 증가와 함께 끓는점의 증가 추세가 뚜렷하며, 는 높은 알칸의 끓는점을 예측하는 수단으로 작용합니다.

여전히 매우 흥미로운 응용은 Hammett 방정식, Taft 방정식pKa 예측 방법입니다.[48]

생물학적

분자의 생물학적 활성은 일반적으로 특정 신호 전달 또는 대사 경로의 억제 수준을 설정하기 위한 분석에서 측정됩니다. 약물 발견은 종종 특정 표적에 대한 좋은 억제 효과를 가질 수 있고 독성(비특이적 활성)이 낮은 화학 구조를 식별하기 위해 QSAR을 사용하는 것을 포함합니다. 특히 관심을 끄는 것은 분배 계수 로그 P의 예측인데, 이것은 리핀스키의 5법칙에 따라 "약물 유사성"을 식별하는 데 사용되는 중요한 척도입니다.

많은 정량적 구조 활성 관계 분석에서는 분자 계열과 효소 또는 수용체 결합 부위의 상호 작용을 포함하지만 QSAR은 단백질의 구조적 영역 간의 상호 작용을 연구하는 데 사용될 수도 있습니다. 단백질과 단백질의 상호작용은 부위 지정 돌연변이 유발로 인한 구조적 변화에 대해 정량적으로 분석할 수 있습니다.[49]

특히 제한된 양의 데이터만 사용할 수 있다는 점을 고려하여 SAR 역설의 위험을 줄이기 위한 기계 학습 방법의 일부입니다(MVUE 참조). 일반적으로 모든 QSAR 문제는 코딩[50] 학습으로 나눌 수 있습니다.[51]

적용들

(Q)SAR 모델은 리스크 관리에 사용되어 왔습니다. QSARS는 규제 당국에 의해 제안되며, 유럽 연합에서는 "REACH"가 "화학물질의 등록, 평가, 승인 및 제한"을 줄인 REACH 규정에 의해 QSARs가 제안됩니다. QSAR 방법의 규제 적용에는 유전독성 불순물에 대한실리코 독성학적 평가가 포함됩니다.[52] DERECK 또는 CASE Ultra(MultiCA)와 같은 일반적으로 사용되는 QSAR 평가 소프트웨어SE)는 ICH M7에 따른 불순물의 유전독성에 사용됩니다.[53]

특정 화학물질 훈련 세트에 의해 볼록한 선체가 생성되는 화학물질 기술자 공간을 훈련 세트의 적용 가능성 영역이라고 합니다. 적용 가능성 영역 밖에 위치한 새로운 화학 물질의 특성 예측은 외삽법을 사용하므로 적용 가능성 영역 내 예측보다 신뢰성이 떨어집니다(평균). QSAR 예측의 신뢰성 평가는 여전히 연구 주제로 남아 있습니다.

QSAR 방정식은 합성 전에 새로운 분자의 생물학적 활동을 예측하는 데 사용될 수 있습니다.

QSAR 모델링을 위한 기계 학습 도구의 예는 다음과 같습니다.[54]

S.아니. 이름. 알고리즘 외부 링크
1. R RF, SVM, Na ïve 베이지안 및 ANN "R: The R Project for Statistical Computing".
2. libSVM SVM "LIBSVM -- A Library for Support Vector Machines".
3. 오렌지색 RF, SVM 및 Na ïve 베이지안 "Orange Data Mining".
4. 래피드마이너 SVM, RF, Na ïve 베이즈, DT, ANN 및 k-NN "RapidMiner #1 Open Source Predictive Analytics Platform".
5. 웨카 RF, SVM 및 Na ïve 베이즈 "Weka 3 - Data Mining with Open Source Machine Learning Software in Java".
6. 니메 DT, Na ïve 베이즈 및 SVM "KNIME Open for Innovation".
7. AZO 범위[55] RT, SVM, ANN 및 RF "AZCompTox/AZOrange: AstraZeneca add-ons to Orange". GitHub. 2018-09-19.
8. 타나그라 SVM, RF, Na ïve Bayes 및 DT "TANAGRA - A free DATA MINING software for teaching and research". Archived from the original on 2017-12-19. Retrieved 2016-03-24.
9. 엘키 k-NN "ELKI Data Mining Framework". Archived from the original on 2016-11-19.
10. MALLET "MALLET homepage".
11. 모아 "MOA Massive Online Analysis Real Time Analytics for Data Streams". Archived from the original on 2017-06-19.
12. 딥켐 로지스틱 회귀 분석, 나이브 베이즈, RF, ANN 등 "DeepChem". deepchem.io. Retrieved 20 October 2017.
13. 알바모델[56] 회귀(OLS, PLS, k-NN, SVM 및 컨센서스) 및 분류(LDA/QDA, PLS-DA, k-NN, SVM 및 컨센서스) "alvaModel: a software tool to create QSAR/QSPR models". alvascience.com.
14. scikit-learn (Python) [57] 로지스틱 회귀 분석, 나이브 베이즈, kNN, RF, SVM, GP, ANN 등 "SciKit-Learn". scikit-learn.org. Retrieved 13 August 2023.

참고 항목

참고문헌

  1. ^ Todeschini, Roberto; Consonni, Viviana (2009). Molecular Descriptors for Chemoinformatics. Methods and Principles in Medicinal Chemistry. Vol. 41. Wiley. doi:10.1002/9783527628766. ISBN 978-3-527-31852-0.
  2. ^ Mauri, Andrea; Consonni, Viviana; Todeschini, Roberto (2017). "Molecular Descriptors". Handbook of Computational Chemistry. Springer International Publishing. pp. 2065–2093. doi:10.1007/978-3-319-27282-5_51. ISBN 978-3-319-27282-5.
  3. ^ Roy K, Kar S, Das RN (2015). "Chapter 1.2: What is QSAR? Definitions and Formulism". A primer on QSAR/QSPR modeling: Fundamental Concepts. New York: Springer-Verlag Inc. pp. 2–6. ISBN 978-3-319-17281-1.
  4. ^ Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). "Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks". Drug Discovery Today. 23 (10): 1784–1790. doi:10.1016/j.drudis.2018.06.016. PMID 29936244. S2CID 49418479.
  5. ^ Nantasenamat C, Isarankura-Na-Ayudhya C, Naenna T, Prachayasittikul V (2009). "A practical overview of quantitative structure-activity relationship". Excli Journal. 8: 74–88. doi:10.17877/DE290R-690.
  6. ^ Nantasenamat C, Isarankura-Na-Ayudhya C, Prachayasittikul V (Jul 2010). "Advances in computational methods to predict the biological activity of compounds". Expert Opinion on Drug Discovery. 5 (7): 633–54. doi:10.1517/17460441.2010.492827. PMID 22823204. S2CID 17622541.
  7. ^ a b Yousefinejad S, Hemmateenejad B (2015). "Chemometrics tools in QSAR/QSPR studies: A historical perspective". Chemometrics and Intelligent Laboratory Systems. 149, Part B: 177–204. doi:10.1016/j.chemolab.2015.06.016.
  8. ^ a b Tropsha A, Gramatica P, Gombar VJ (2003). "The Importance of Being Earnest: Validation is the Absolute Essential for Successful Application and Interpretation of QSPR Models". QSAR Comb. Sci. 22: 69–77. doi:10.1002/qsar.200390007.
  9. ^ a b Gramatica P (2007). "Principles of QSAR models validation: internal and external". QSAR Comb. Sci. 26 (5): 694–701. doi:10.1002/qsar.200610151. hdl:11383/1668881.
  10. ^ Ruusmann, V.; Sild, S.; Maran, U. (2015). "QSAR DataBank repository: open and linked qualitative and quantitative structure–activity relationship models". Journal of Cheminformatics. 7: 32. doi:10.1186/s13321-015-0082-6. PMC 4479250. PMID 26110025.
  11. ^ a b c Chirico N, Gramatica P (Aug 2012). "Real external predictivity of QSAR models. Part 2. New intercomparable thresholds for different validation criteria and the need for scatter plot inspection". Journal of Chemical Information and Modeling. 52 (8): 2044–58. doi:10.1021/ci300084j. PMID 22721530.
  12. ^ Tropsha, Alexander (2010). "Best Practices for QSAR Model Development, Validation, and Exploitation". Molecular Informatics. 29 (6–7): 476–488. doi:10.1002/minf.201000061. ISSN 1868-1743. PMID 27463326. S2CID 23564249.
  13. ^ Patani GA, LaVoie EJ (Dec 1996). "Bioisosterism: A Rational Approach in Drug Design". Chemical Reviews. 96 (8): 3147–3176. doi:10.1021/cr950066q. PMID 11848856.
  14. ^ Brown N (2012). Bioisosteres in Medicinal Chemistry. Weinheim: Wiley-VCH. ISBN 978-3-527-33015-7.
  15. ^ Thompson SJ, Hattotuwagama CK, Holliday JD, Flower DR (2006). "On the hydrophobicity of peptides: Comparing empirical predictions of peptide log P values". Bioinformation. 1 (7): 237–41. doi:10.6026/97320630001237. PMC 1891704. PMID 17597897.
  16. ^ Wildman SA, Crippen GM (1999). "Prediction of physicochemical parameters by atomic contributions". J. Chem. Inf. Comput. Sci. 39 (5): 868–873. doi:10.1021/ci990307l.
  17. ^ a b Ajmani S, Jadhav K, Kulkarni SA, Group-Based QSAR (G-QSAR)
  18. ^ Manoharan P, Vijayan RS, Ghoshal N (Oct 2010). "Rationalizing fragment based drug discovery for BACE1: insights from FB-QSAR, FB-QSSR, multi objective (MO-QSPR) and MIF studies". Journal of Computer-Aided Molecular Design. 24 (10): 843–64. Bibcode:2010JCAMD..24..843M. doi:10.1007/s10822-010-9378-9. PMID 20740315. S2CID 1171860.
  19. ^ a b Prasanth Kumar S, Jasrai YT, Pandya HA, Rawal RM (November 2013). "Pharmacophore-similarity-based QSAR (PS-QSAR) for group-specific biological activity predictions". Journal of Biomolecular Structure & Dynamics. 33 (1): 56–69. doi:10.1080/07391102.2013.849618. PMID 24266725. S2CID 45364247.
  20. ^ Leach AR (2001). Molecular modelling: principles and applications. Englewood Cliffs, N.J: Prentice Hall. ISBN 978-0-582-38210-7.
  21. ^ Vert JP, Schölkopf B, Tsuda K (2004). Kernel methods in computational biology. Cambridge, Mass: MIT Press. ISBN 978-0-262-19509-6.
  22. ^ Dietterich TG, Lathrop RH, Lozano-Pérez T (1997). "Solving the multiple instance problem with axis-parallel rectangles". Artificial Intelligence. 89 (1–2): 31–71. doi:10.1016/S0004-3702(96)00034-3.
  23. ^ Caruthers JM, Lauterbach JA, Thomson KT, Venkatasubramanian V, Snively CM, Bhan A, Katare S, Oskarsdottir G (2003). "Catalyst design: knowledge extraction from high-throughput experimentation". J. Catal. 216 (1–2): 3776–3777. doi:10.1016/S0021-9517(02)00036-2.
  24. ^ Manz TA, Phomphrai K, Medvedev G, Krishnamurthy BB, Sharma S, Haq J, Novstrup KA, Thomson KT, Delgass WN, Caruthers JM, Abu-Omar MM (Apr 2007). "Structure-activity correlation in titanium single-site olefin polymerization catalysts containing mixed cyclopentadienyl/aryloxide ligation". Journal of the American Chemical Society. 129 (13): 3776–7. doi:10.1021/ja0640849. PMID 17348648.
  25. ^ Manz TA, Caruthers JM, Sharma S, Phomphrai K, Thomson KT, Delgass WN, Abu-Omar MM (2012). "Structure–Activity Correlation for Relative Chain Initiation to Propagation Rates in Single-Site Olefin Polymerization Catalysis". Organometallics. 31 (2): 602–618. doi:10.1021/om200884x.
  26. ^ Jastrzębski, Stanisław; Leśniak, Damian; Czarnecki, Wojciech Marian (8 March 2018). "Learning to SMILE(S)". arXiv:1602.06289 [cs.CL].
  27. ^ Bjerrum, Esben Jannik (17 May 2017). "SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules". arXiv:1703.07076 [cs.LG].
  28. ^ Mayr, Andreas; Klambauer, Günter; Unterthiner, Thomas; Steijaert, Marvin; Wegner, Jörg K.; Ceulemans, Hugo; Clevert, Djork-Arné; Hochreiter, Sepp (20 June 2018). "Large-scale comparison of machine learning methods for drug target prediction on ChEMBL". Chemical Science. 9 (24): 5441–5451. doi:10.1039/c8sc00148k. PMC 6011237. PMID 30155234.
  29. ^ Merkwirth, Christian; Lengauer, Thomas (1 September 2005). "Automatic Generation of Complementary Descriptors with Molecular Graph Networks". Journal of Chemical Information and Modeling. 45 (5): 1159–1168. doi:10.1021/ci049613b. PMID 16180893.
  30. ^ Kearnes, Steven; McCloskey, Kevin; Berndl, Marc; Pande, Vijay; Riley, Patrick (1 August 2016). "Molecular graph convolutions: moving beyond fingerprints". Journal of Computer-Aided Molecular Design. 30 (8): 595–608. arXiv:1603.00856. Bibcode:2016JCAMD..30..595K. doi:10.1007/s10822-016-9938-8. PMC 5028207. PMID 27558503.
  31. ^ Jiang, Dejun; Wu, Zhenxing; Hsieh, Chang-Yu; Chen, Guangyong; Liao, Ben; Wang, Zhe; Shen, Chao; Cao, Dongsheng; Wu, Jian; Hou, Tingjun (17 February 2021). "Could graph neural networks learn better molecular representation for drug discovery? A comparison study of descriptor-based and graph-based models". Journal of Cheminformatics. 13 (1): 12. doi:10.1186/s13321-020-00479-8. PMC 7888189. PMID 33597034.
  32. ^ van Tilborg, Derek; Alenicheva, Alisa; Grisoni, Francesca (12 December 2022). "Exposing the Limitations of Molecular Machine Learning with Activity Cliffs". Journal of Chemical Information and Modeling. 62 (23): 5938–5951. doi:10.1021/acs.jcim.2c01073. PMC 9749029. PMID 36456532.
  33. ^ Gusfield D (1997). Algorithms on strings, trees, and sequences: computer science and computational biology. Cambridge, UK: Cambridge University Press. ISBN 978-0-521-58519-4.
  34. ^ Helma C (2005). Predictive toxicology. Washington, DC: Taylor & Francis. ISBN 978-0-8247-2397-2.
  35. ^ Dossetter AG, Griffen EJ, Leach AG (2013). "Matched molecular pair analysis in drug discovery". Drug Discovery Today. 18 (15–16): 724–31. doi:10.1016/j.drudis.2013.03.003. PMID 23557664.
  36. ^ Sushko Y, Novotarskyi S, Körner R, Vogt J, Abdelaziz A, Tetko IV (2014). "Prediction-driven matched molecular pairs to interpret QSARs and aid the molecular optimization process". Journal of Cheminformatics. 6 (1): 48. doi:10.1186/s13321-014-0048-0. PMC 4272757. PMID 25544551.
  37. ^ Tong W, Hong H, Xie Q, Shi L, Fang H, Perkins R (April 2005). "Assessing QSAR Limitations – A Regulatory Perspective". Current Computer-Aided Drug Design. 1 (2): 195–205. doi:10.2174/1573409053585663.
  38. ^ Dearden JC (2003). "In silico prediction of drug toxicity". Journal of Computer-Aided Molecular Design. 17 (2–4): 119–27. Bibcode:2003JCAMD..17..119D. doi:10.1023/A:1025361621494. PMID 13677480. S2CID 21518449.
  39. ^ Wold S, Eriksson L (1995). "Statistical validation of QSAR results". In Waterbeemd, Han van de (ed.). Chemometric methods in molecular design. Weinheim: VCH. pp. 309–318. ISBN 978-3-527-30044-0.
  40. ^ Roy K (Dec 2007). "On some aspects of validation of predictive quantitative structure-activity relationship models". Expert Opinion on Drug Discovery. 2 (12): 1567–77. doi:10.1517/17460441.2.12.1567. PMID 23488901. S2CID 21305783.
  41. ^ Sahigara, Faizan; Mansouri, Kamel; Ballabio, Davide; Mauri, Andrea; Consonni, Viviana; Todeschini, Roberto (2012). "Comparison of Different Approaches to Define the Applicability Domain of QSAR Models". Molecules. 17 (5): 4791–4810. doi:10.3390/molecules17054791. PMC 6268288. PMID 22534664.
  42. ^ Leonard JT, Roy K (2006). "On selection of training and test sets for the development of predictive QSAR models". QSAR & Combinatorial Science. 25 (3): 235–251. doi:10.1002/qsar.200510161.
  43. ^ Roy PP, Leonard JT, Roy K (2008). "Exploring the impact of size of training sets for the development of predictive QSAR models". Chemometrics and Intelligent Laboratory Systems. 90 (1): 31–42. doi:10.1016/j.chemolab.2007.07.004.
  44. ^ Put R, Vander Heyden Y (Oct 2007). "Review on modelling aspects in reversed-phase liquid chromatographic quantitative structure-retention relationships". Analytica Chimica Acta. 602 (2): 164–72. doi:10.1016/j.aca.2007.09.014. PMID 17933600.
  45. ^ Pratim Roy P, Paul S, Mitra I, Roy K (2009). "On two novel parameters for validation of predictive QSAR models". Molecules. 14 (5): 1660–701. doi:10.3390/molecules14051660. PMC 6254296. PMID 19471190.
  46. ^ Chirico N, Gramatica P (Sep 2011). "Real external predictivity of QSAR models: how to evaluate it? Comparison of different validation criteria and proposal of using the concordance correlation coefficient". Journal of Chemical Information and Modeling. 51 (9): 2320–35. doi:10.1021/ci200211n. PMID 21800825.
  47. ^ Rouvray DH, Bonchev D (1991). Chemical graph theory: introduction and fundamentals. Tunbridge Wells, Kent, England: Abacus Press. ISBN 978-0-85626-454-2.
  48. ^ Fraczkiewicz, R (2013). "In Silico Prediction of Ionization". In Reedijk, J (ed.). Reference Module in Chemistry, Molecular Sciences and Chemical Engineering. Reference Module in Chemistry, Molecular Sciences and Chemical Engineering [Online]. Vol. 5. Amsterdam, the Netherlands: Elsevier. doi:10.1016/B978-0-12-409547-2.02610-X. ISBN 9780124095472.
  49. ^ Freyhult EK, Andersson K, Gustafsson MG (Apr 2003). "Structural modeling extends QSAR analysis of antibody-lysozyme interactions to 3D-QSAR". Biophysical Journal. 84 (4): 2264–72. Bibcode:2003BpJ....84.2264F. doi:10.1016/S0006-3495(03)75032-2. PMC 1302793. PMID 12668435.
  50. ^ Timmerman H, Todeschini R, Consonni V, Mannhold R, Kubinyi H (2002). Handbook of Molecular Descriptors. Weinheim: Wiley-VCH. ISBN 978-3-527-29913-3.
  51. ^ Duda RO, Hart PW, Stork DG (2001). Pattern classification. Chichester: John Wiley & Sons. ISBN 978-0-471-05669-0.
  52. ^ Fioravanzo, E.; Bassan, A.; Pavan, M.; Mostrag-Szlichtyng, A.; Worth, A. P. (2012-04-01). "Role of in silico genotoxicity tools in the regulatory assessment of pharmaceutical impurities". SAR and QSAR in Environmental Research. 23 (3–4): 257–277. doi:10.1080/1062936X.2012.657236. ISSN 1062-936X. PMID 22369620. S2CID 2714861.
  53. ^ ICH M7 잠재적 발암 위험을 제한하기 위한 의약품의 DNA 반응성(돌연변이원성) 불순물 평가 및 제어 - 과학적 가이드라인 [1]
  54. ^ Lavecchia A (Mar 2015). "Machine-learning approaches in drug discovery: methods and applications". Drug Discovery Today. 20 (3): 318–31. doi:10.1016/j.drudis.2014.10.012. PMID 25448759.
  55. ^ Stålring JC, Carlsson LA, Almeida P, Boyer S (2011). "AZOrange - High performance open source machine learning for QSAR modeling in a graphical programming environment". Journal of Cheminformatics. 3: 28. doi:10.1186/1758-2946-3-28. PMC 3158423. PMID 21798025.
  56. ^ Mauri, Andrea; Bertola, Matteo (2022). "Alvascience: A New Software Suite for the QSAR Workflow Applied to the Blood–Brain Barrier Permeability". International Journal of Molecular Sciences. 23 (12882): 12882. doi:10.3390/ijms232112882. PMC 9655980. PMID 36361669.
  57. ^ Fabian Pedregosa; Gaël Varoquaux; Alexandre Gramfort; Vincent Michel; Bertrand Thirion; Olivier Grisel; Mathieu Blondel; Peter Prettenhofer; Ron Weiss; Vincent Dubourg; Jake Vanderplas; Alexandre Passos; David Cournapeau; Matthieu Perrot; Édouard Duchesnay (2011). "scikit-learn: Machine Learning in Python". Journal of Machine Learning Research. 12: 2825–2830.

더보기

외부 링크