단순화된 분자 입력 라인 엔트리 시스템

Simplified molecular-input line-entry system
미소
파일 이름 확장자
.smi
인터넷 미디어 유형
화학/X-산염 매개체
포맷의 종류화학 파일 형식
시프로플록사신의 SMILES 생성 알고리즘: 사이클을 중단하고 메인백본의 브랜치로 쓰기

단순분자입력라인엔트리시스템(SMILS)짧은 ASCII 문자열을 사용하여 화학종의 구조를 기술하기 위한 라인 표기 형식의 규격이다.스마일즈 문자열은 대부분의 분자 편집기에 의해 2차원 도면이나 분자의 3차원 모델로 변환될 수 있습니다.

원래 스마일즈 사양은 1980년대에 시작되었습니다.그 후 수정 및 확장되었습니다.2007년에 오픈 소스 화학 커뮤니티에서 OpenSMILEs라고 하는 오픈 스탠다드가 개발되었습니다.

역사

원래 SMIES 규격은 1980년대 [1][2][3][4]Duluth에 있는 USEPA Mid-Continent Ecology Division Laboratory의 David Weininger에 의해 시작되었습니다.초기 개발의 파트로 인정받은 것은, 「Gilman Veith and Rose Russo(USEPA)」, 서포트에는 Albert Leo와 Corwin Hansch(Pomona College), 서포트에는 Arthur Weiner(Pomona; Daylight CIS)와 Jeremy Scoffield(Wa, Renton, WA의 서포트)입니다.환경보호청[6][7]스마일즈를 개발하기 위한 초기 프로젝트에 자금을 지원했다.

그 후 다른 사람들에 의해 수정되고 확장되었으며, 특히 일광화학정보시스템에 의해 확장되었다.2007년에는 블루오벨리스크 오픈소스 화학 커뮤니티에 의해 오픈 스탠다드 "OpenSMILE"가 개발되었습니다.기타 '선형' 표기법으로는 Wiswesser Line Notation(WLN; Wiswesser 선 표기법), ROSDALSLN(Tripos Inc.)이 있습니다.

2006년 7월 IUPAC는 InChI를 공식 표현 표준으로 도입했다.SMIES는 일반적으로 InChI보다 사람이 읽기 쉽다는 장점이 있으며 광범위한 이론적 뒷받침(그래프 이론 등)을 갖춘 소프트웨어 지원 기반을 갖추고 있습니다.

용어.

SMIELES라는 용어는 분자 구조를 인코딩하기 위한 줄 표기법을 의미하며, 특정 인스턴스는 엄격히 SMIELES 문자열이라고 불려야 합니다.단, SMIELES라는 용어는 단일 SMIELES 문자열과 다수의 SMIELES 문자열을 모두 가리키는 경우에도 일반적으로 사용됩니다.정확한 의미는 보통 컨텍스트에서 알 수 있습니다."캐노닉"과 "이성체"라는 용어는 SMIELES에 적용할 때 약간의 혼란을 초래할 수 있습니다.이 용어는 SMIES 문자열의 다양한 속성을 나타내며 상호 배타적이지 않습니다.

일반적으로 분자 하나에 대해 동등하게 유효한 다수의 스마일 문자열이 기록될 수 있습니다.예를들면,CCO,OCC그리고.C(O)C모두 에탄올의 구조를 명시한다.알고리즘은 특정 분자에 대해 동일한 SMIELES 문자열을 생성하도록 개발되었습니다. 많은 가능한 문자열 중 이러한 알고리즘은 그 중 하나만 선택합니다.이 SMIES는 구조마다 고유하지만 생성에 사용되는 정규화 알고리즘에 따라 다르며 표준 SMIES라고 불립니다.이러한 알고리즘은 먼저 SMIELES를 분자 구조의 내부 표현으로 변환한 다음, 알고리즘을 통해 해당 구조를 검사하고 고유한 SMIELES 문자열을 생성합니다.표준 스마일 생성을 위한 다양한 알고리즘이 개발되었으며 여기에는 Daylight Chemical Information Systems, OpenEye Scientific Soft, MEDT, Chemical Computing Group, MolSoft LLC 및 Chemistry Development Kit가 포함됩니다.표준 SMIELES의 일반적인 적용은 데이터베이스 내 분자의 고유성을 확보하고 인덱싱하는 것입니다.

CANGEN[2] 알고리즘을 기술한 원본 논문은 분자를 나타내는 그래프에 대해 고유한 SMIELES 문자열을 생성한다고 주장했지만, 알고리즘은 다수의 단순한 경우(예: cuneane, 1,2-dicclopylethane)에 대해 실패하며,[8] 규범적으로 그래프를 표현하는 올바른 방법으로 간주할 수 없다.현재 이러한 패키지에 이러한 결함이 있는지 테스트하기 위한 상용 소프트웨어 간의 체계적인 비교는 없습니다.

SMIES 표기법을 사용하면 사면체 중심에서의 구성 및 이중 결합 형상을 지정할 수 있습니다.이것들은 접속만으로는 지정할 수 없는 구조적인 특징이며, 따라서 이 정보를 부호화하는SMILES는 이성체 스마일즈라고 불립니다.이러한 규칙의 주목할 만한 특징은 키랄리티의 엄격한 부분 지정이 가능하다는 것입니다.이성질체가 특정된 SMIELES에도 이성질체라는 용어가 적용됩니다.

그래프 기반 정의

그래프 기반의 계산 절차로 볼 때, SMIELES는 화학 그래프의 깊이 우선 트리 트래버스에서 발생하는 심볼 노드를 인쇄한 문자열이다.화학 그래프는 수소 원자를 제거하기 위해 먼저 잘려지고 사이클이 끊겨 스패닝 트리로 바뀝니다.사이클이 끊긴 경우 연결된 노드를 나타내는 숫자 접미사 라벨이 포함됩니다.괄호는 트리의 분기점을 나타내는 데 사용됩니다.

결과적인 SMIES 폼은 다음 선택에 따라 달라집니다.

  • 고리를 끊기 위해 선택된 결합의 경우,
  • 깊이 우선 횡단에 사용되는 시작 원자의 경우,
  • 브런치 리스트의 순서로 지정합니다.

문맥이 없는 언어의 문자열로서의 SMIELES 정의

형식 언어 이론의 관점에서 보면, 스마일즈는 단어입니다.SMIES는 컨텍스트프리 파서를 사용하여 파싱할 수 있습니다.이 표현은 유사한 분자가 유사한 특성을 갖는 화학정보학의 주요 원리에 기초한 생화학적 특성(독성과 생분해성 포함)의 예측에 사용되어 왔다.예측 모델은 통사적 패턴 인식 접근법(분자 [9]거리 정의 포함)과 통계적 패턴 [10]인식에 기초한 보다 강력한 체계를 구현했다.

묘사

원자

원자는 다음과 같은 각 괄호로 둘러싸인 화학 원소의 표준 약자로 표시됩니다.[Au]을 위해.다음과 같은 원자의 일반적인 경우에는 괄호를 생략할 수 있다.

  1. B, C, N, O, P, S, F, Cl, Br 또는 I의 "유기 서브셋"에 있다.
  2. 정식 혐의는 없다
  3. SMIES 원자가 모델에 의해 암시된 수소화합물(일반적으로 정상 원자가이지만 N과 P의 경우 3 또는 5, S의 경우 2, 4 또는 6)의 수가 있어야 한다.
  4. 표준 동위원소입니다.
  5. 키랄 중심이 아닙니다.

다른 모든 요소는 괄호로 둘러싸야 하며 전하와 수소를 명시적으로 표시해야 합니다.예를 들어, 물을 위한 스마일즈는 다음과 같이 표시될 수 있습니다.O또는[OH2]수소는 또한 별도의 원자로 쓰여질 수 있다; 물은 또한 다음과 같이 쓰여질 수 있다.[H]O[H].

괄호를 사용할 경우 기호는H괄호 안의 원자가 하나 이상의 수소에 결합되어 있으면 추가되고, 1보다 크면 수소 원자의 수가 그 다음에 부호가 붙는다.+양전하를 위해서 또는 양전하를 통해서-음전하를 위해.예를들면,[NH4+]암모늄(NH)의+
4 경우.
두 개 이상의 전하가 있을 경우 일반적으로 숫자로 표기되지만 이온이 전하를 가진 횟수만큼 기호를 반복할 수도 있습니다.
[Ti+4]또는[Ti++++] 티타늄(IV4+) 티타늄.따라서 수산화 음이온(OH)은 다음과 같이 표현된다.[OH-], 하이드로늄 양이온(물 분자에 cm는[OH3+]그리고 cobalt(3세)양이온(Co3+)도 있다.[Co+3]또는[Co+++].

채권

결합하는 상징 중 하나를 사용하여 표시됩니다.. - = # $ : / \.

별도와 인접에 의해 SMILES 문자열에 암시되어 있지정된 지방족 원자 사이의 본즈는 싱글이 되는 것으로 추정한다.비록 단일 채권 같이 쓸 수 있다.-이것은 대개 경우 생략됩니다.예를 들어, SMILES 에탄올을 같이 쓸 수 있다.C-C-O,CC-O또는C-CO지만 보통 쓰여진CCO.

, 삼중, 사중 이중 결합은 기호로 표시됩니다.=,#,그리고.$각각으로 SMILES에 의해 삽입되어 있다.O=C=O(이산화 탄소 CO2),C#N(수소 HCNcyanide)과[Ga+]$[As-](갈륨 비소).

채권의 추가적인 형식이"non-bond",으로.., 두 부분은 보세지 않는지 나타내는.예를 들어 휩쓸고, 물의 염화 나트륨 같이 쓸 수 있다.[Na+].[Cl-]해리를 보여줘야지

방향족 "1.5" 결합은 다음과 같이 나타낼 수 있습니다.:; 아래 § 방향성 참조.

이중 결합에 인접한 단일 결합은 다음과 같이 나타낼 수 있다./또는\입체화학적 구성을 나타내려면 아래 § 입체화학을 참조하십시오.

반지.

구조는 비순환 구조를 만들기 위해 임의의 지점에서 각 링을 절단하고(다른 선택보다 읽기 쉬운 스마일즈로 이어지지만), 비인접 원자 간의 연결을 나타내기 위해 숫자 링 폐쇄 라벨을 추가하여 작성됩니다.

예를 들어 시클로헥산다이옥산은 다음과 같이 표시될 수 있다.C1CCCCC1그리고.O1CCOCC1각각 다음과 같다.두 번째 링의 경우 라벨은 2가 됩니다.예를 들어 데칼린(데카히드로나프탈렌)은 다음과 같이 표시될 수 있다.C1CCCC2C1CCCC2.

SMIES 에서는, 링 번호를 특정의 순서로 사용할 필요는 없고, 링 번호0 을 사용할 수 있습니다.다만, 거의 사용되지 않습니다.또, 통상, 제1의 링이 닫힌 후에 링 번호를 재사용하는 것이 허가되고 있습니다만, 이 때문에, 공식의 판독이 어려워집니다.예를 들어, 바이클로헥실기는 보통 다음과 같이 쓰여진다.C1CCCCC1C2CCCCC2단, 다음과 같이 기재되어 있을 수도 있습니다.C0CCCCC0C0CCCCC0.

단일 원자 뒤에 여러 자리 숫자가 있으면 여러 개의 링 클로징 결합이 있음을 나타냅니다.예를 들어 데칼린의 대체 SMIES 표기법은 다음과 같습니다.C1CCCC2CCCCC12여기서 최종 탄소는 고리 결합 1과 2에 모두 관여한다.두 자리수의 링 번호가 필요한 경우 라벨 앞에%,그렇게C%12링 12의 단일 링과 링의 결합입니다.

두 자리 중 하나 또는 양쪽 자리에는 링 클로징 본드의 종류를 나타내는 본드 타입이 선행되어 있어도 된다.예를 들어, 사이클로프로펜은 보통 쓰입니다.C1=CC1단, 이중 결합이 링-결합으로 선택되면 다음과 같이 표기될 수 있습니다.C=1CC1,C1CC=1, 또는C=1CC=1(첫 번째 양식이 좋습니다.) C=1CC-1는 링과 스위칭본드의 경합하는 타입을 명시적으로 지정하기 때문에 부정한 것입니다.

링 클로징 결합은 복수의 결합을 나타내기 위해 사용할 수 없다.예를들면,C1C1에 대한 유효한 대안이 아니다.C=C에틸렌을 위해.단, 비본드와 함께 사용할 수 있다.C1.C2.C12프로판(propane)을 쓰는 독특하지만 합법적인 대체 방법이며, 더 일반적으로 쓰여집니다.CCC.

연결된 그룹에 인접한 링 브레이크 포인트를 선택하면 브런치를 회피하여 보다 심플한 SMIELES 폼을 얻을 수 있습니다.예를 들어 시클로헥산-1,2-디올은 가장 간단하게 다음과 같이 표기된다.OC1CCCCC1O; 다른 링 브레이크 위치를 선택하면 괄호가 필요한 분기 구조가 생성됩니다.

방향성

벤젠과 같은 방향족 고리는 다음 세 가지 형태 중 하나로 표시될 수 있습니다.

  1. Kekulé 형식에서 단일 결합과 이중 결합을 번갈아 사용합니다.C1=CC=CC=C1,
  2. 방향족 본드 기호 사용:,예.C1:C:C:C:C:C1, 또는
  3. 일반적으로 B, C, N, O, P 및 S 원자를 소문자로 표기함으로써b,c,n,o,p그리고.s,각각 다음과 같다.

후자의 경우, 2개의 방향족 원자 사이의 결합은 (명시되어 있지 않은 경우) 방향족 결합으로 간주된다.따라서 벤젠, 피리딘퓨란은 각각 SMIELES에 의해 표시될 수 있다.c1ccccc1,n1ccccc1그리고.o1cccc1.

피롤에서 발견되는 수소에 결합된 방향족 질소는 다음과 같이 표시되어야 한다.[nH]; 따라서 이미다졸은 SMIES 표기법으로 다음과 같이 쓰여진다.n1c[nH]cc1.

방향족 원자가 비페닐과 같이 서로 단일 결합되어 있는 경우 단일 결합을 명시적으로 표시해야 합니다.c1ccccc1-c2ccccc2이것은 단일 결합 기호가 다음과 같은 몇 안 되는 경우 중 하나입니다.-필수 항목입니다.(실제로 대부분의 스마일즈 소프트웨어는 두 링 사이의 결합이 방향족일 수 없으므로 비표준 형태를 수용할 수 있다고 올바르게 추론할 수 있습니다.c1ccccc1c2ccccc2.)

표준 SMIELES를 생성하기 위한 Daylight 알고리즘과 OpenEye 알고리즘은 방향성 처리에 차이가 있습니다.

3-시아노아니솔의 시각화COc(c1)cccc1C#N.

분기

브랜치는 다음과 같이 괄호로 나타냅니다.CCC(=O)O프로피온산FC(F)F투시 진단용입니다괄호 안의 첫 번째 원자와 괄호 안의 그룹 뒤의 첫 번째 원자는 모두 같은 분기점 원자에 결합되어 있습니다.본드 기호는 괄호 안쪽에 표시되어야 합니다; 바깥쪽(예: CCC=(O)O)가 무효입니다.

대체 링은 SMIELES에 표시된 것처럼 링의 분기점을 사용하여 쓸 수 있습니다.COc(c1)cccc1C#N(그림 참조) 및COc(cc1)ccc1C#N(그림 참조)는 3-시아노아니솔 이성질체를 코드한다.이러한 방법으로 대체 링에 대해 SHIELES를 쓰면 더 사람이 읽기 쉽게 만들 수 있습니다.

브랜치는 임의의 순서로 작성할 수 있습니다.예를 들어 브로모클로로디플루오로메탄은 다음과 같이 표시될 수 있다.FC(Br)(Cl)F,BrC(F)(F)Cl,C(F)(Cl)(F)Br, 또는 그와 비슷한 것.일반적으로 SMIES 폼은 가장 읽기 쉽고, 가장 단순한 브랜치가 먼저 오고, 최종적인 부모화되지 않은 부분이 가장 복잡합니다.이러한 재배치에 관한 유일한 경고는 다음과 같습니다.

  • 링 번호를 재사용하는 경우 링 번호는 SMIELES 문자열의 표시 순서에 따라 페어링됩니다.올바른 페어링을 유지하기 위해 몇 가지 조정이 필요할 수 있습니다.
  • 입체화학이 지정되어 있는 경우는, 조정을 실시할 필요가 있습니다.아래의 입체화학 § 참고 사항을 참조해 주세요.

괄호가 필요 없는 브랜치의 한 가지 형태는 링 클로징 본드입니다.링 클로징 본드를 적절히 선택하면 필요한 괄호 수를 줄일 수 있습니다.예를 들어 톨루엔은 보통 다음과 같이 표기됩니다.Cc1ccccc1또는c1ccccc1C다음과 같이 쓸 경우 괄호를 사용하지 않도록 합니다.c1cc(C)ccc1또는c1cc(ccc1)C.

입체화학

트랜스-1,2-디플루오로에틸렌

스마일즈는 입체 이성질체의 사양을 허용하지만 필수는 아니다.

이중 결합에 대한 구성은 문자를 사용하여 지정됩니다./그리고.\이중 결합에 인접한 방향 단일 결합을 보여준다.예를들면,F/C=C/F(그림 참조)는 트랜스-1,2-디플루오로에틸렌의 표현 중 하나로, 불소 원자가 이중 결합의 반대쪽에 있는 반면,F/C=C\F(그림 참조)는 불소가 이중 결합의 같은 쪽에 있는 cis-1,2-디플루오로에틸렌의 가능한 표현 중 하나이다.

결합 방향 기호는 항상 최소 2개의 그룹으로 제공되며, 그 중 첫 번째 기호는 임의입니다.그것은,F\C=C\F와 같다F/C=C/F교대로 단일-이중 결합이 존재하는 경우 그룹은 2개보다 크고 중간 방향 기호는 2개의 이중 결합에 인접합니다.예를 들어 (2,4)-헥사디엔의 일반적인 형식은 다음과 같습니다.C/C=C/C=C/C.

베타카로틴, 11개의 이중 결합이 강조 표시되어 있습니다.

보다 복잡한 예로, 베타카로틴은 단결합과 이중결합을 번갈아 사용하는 매우 긴 골격을 가지고 있으며, 이는 다음과 같이 기록될 수 있다.CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C.

사면체 탄소에서의 구성은 다음과 같이 지정된다.@또는@@4개의 결합은 왼쪽에서 오른쪽으로 SMIELES 형태로 나타나는 순서대로 생각해 보십시오.첫 번째 결합의 관점에서 중심 탄소 쪽을 보면, 나머지 세 개는 시계 방향 또는 시계 반대 방향입니다.이러한 케이스는 다음과 같이 표시됩니다.@@그리고.@(각각,@기호 자체는 시계 반대 방향의 나선형입니다).

L-알라닌

예를 들어 아미노산알라닌을 생각해보자.스마일즈의 형태 중 하나는NC(C)C(=O)O, 보다 상세하게 기재되어 있습니다.N[CH](C)C(=O)O보다 일반적인 에난티오머인 L-Alanine은 다음과 같이 표기된다.N[C@@H](C)C(=O)O(그림 참조).질소-탄소 결합에서 보면 수소(H메틸( )C카르본산염(C(=O)O) 그룹이 시계 방향으로 표시됩니다.D-Alanine은 다음과 같이 쓸 수 있습니다.N[C@H](C)C(=O)O(그림 참조).

일반적으로 SMILES에서 브랜치를 지정하는 순서는 중요하지 않지만, 이 경우 두 그룹을 스왑하려면 키랄리티 인디케이터를 반대로 해야 합니다.가지들이 뒤바뀌면 알라닌은 다음과 같이 표기된다.NC(C(=O)O)C설정도 반전됩니다.L-alanine은 다음과 같이 기술됩니다.N[C@H](C(=O)O)C(그림 참조).그것을 쓰는 다른 방법에는 다음이 포함된다.C[C@H](N)C(=O)O,OC(=O)[C@@H](N)C그리고.OC(=O)[C@H](C)N.

보통, 네 개의 결합 중 첫 번째 결합은 탄소 원자의 왼쪽에 나타나지만, 만약 SMIELES가 다음과 같은 키랄 탄소로 쓰여져 있다면,C(C)(N)C(=O)O4개 모두 오른쪽에 있지만 가장 먼저 표시됩니다.[CH]이 경우 결합)은 다음 세 가지를 주문하기 위한 참조로 사용된다: L-alanine도 기록될 수 있다.[C@@H](C)(N)C(=O)O.

스마일즈 사양에는 다음 사항에 대한 자세한 내용이 포함되어 있습니다.@삼각 쌍추체 분자 기하학과 같은 보다 복잡한 키랄 중심 주변의 입체 화학을 나타내는 기호.

동위원소

동위원소는 원자 기호 앞에 있는 정수 동위원소 질량과 동일한 숫자로 지정된다.하나의 원자가 탄소-14인 벤젠은 다음과 같이 표기된다.[14c]1ccccc1그리고 도이트로클로로포름은[2H]C(Cl)(Cl)Cl.

분자 구조. 스마일즈 공식
디니트로겐 없음 N#N
이소시아네이트메틸(MIC) CH-N3=C=O CN=C=O
황산구리(II) Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
바닐린 Molecular structure of vanillin O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
멜라토닌(CHNO131622) Molecular structure of melatonin CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
플라보페레이린(CHN17152) Molecular structure of flavopereirin CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
니코틴(CHN10142) Molecular structure of nicotine CN1CCC[C@H]1c2cccnc2
외난토톡신(CHO17222) Molecular structure of oenanthotoxin CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
피레트린 II(CHO22285) Molecular structure of pyrethrin II CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
아플라톡신B1(CHO17126) Molecular structure of aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
포도당(β-D-글루코피라노스)(CHO6126) Molecular structure of glucopyranose OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
베르겐(쿠스쿠틴, 수지)(CHO14169) Molecular structure of cuscutine (bergenin) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
캘리포니아 비늘 곤충의 페로몬 (3Z,6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2S,5R)-칼코그란: 딱정벌레의 페로몬[11] (2S,5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane CC[C@H](O1)CC[C@@]12CCCO2
α-Thujone(CHO1016) Molecular structure of thujone CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
티아민(비타민B1, CHNOS12174+) Molecular structure of thiamin OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

9개 이상의 고리를 가진 분자를 설명하기 위해 인도양 반좌표 Cephalodiscus gilchristi에서 분리된 경험식5474210 CHNO를 가진 스테로이드성 13고리 피라진인 세팔로스타틴-1[12]고려한다.

Molecular structure of cephalostatin-1

그림에서 가장 왼쪽에 있는 메틸 그룹부터 시작합니다.

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

주의:%는 9 위의 링 클로저라벨 색인 앞에 표시됩니다.상기의 「Rings를 참조해 주세요.

스마일즈의 다른 예

SMIES 표기법은 Daylight Chemical Information Systems에서 제공하는 SMIES 이론 매뉴얼에 광범위하게 설명되어 있으며, 몇 가지 예시가 제시되어 있다.Daylight의 묘사 유틸리티는 사용자에게 SMIELES의 예를 확인할 수 있는 수단을 제공하며 귀중한 교육 도구입니다.

내선번호

SMARTS는 분자의 하부구조 패턴을 특정하기 위한 선 표기법입니다.SMILES와 동일한 기호를 많이 사용하지만, 화학 데이터베이스 검색을 위한 하위 구조 쿼리를 정의하는 데 사용할 수 있는 와일드카드 원자 및 결합을 지정할 수도 있습니다.SMARTS 기반의 서브구조 검색에는 SMIES 문자열과 SMARTS 문자열의 매칭이 포함되어 있다는 것이 일반적인 오해입니다.실제로, SMIELS 문자열과 SMARTS 문자열은 먼저 서브그래프 동형성을 검색하는 내부 그래프 표현으로 변환된다.

"reaction smiles"의 슈퍼셋이자 "reaction SMARTS"의 서브셋인 SMIRKS는 반응 변환을 지정하기 위한 행 표기법입니다.반응 확장의 일반적인 구문은 다음과 같습니다.REACTANT>AGENT>PRODUCT(스페이스 없이) 필드를 공백으로 두거나 점으로 구분된 여러 분자로 채울 수 있습니다(스페이스 없음)..및 기타 설명은 기본 언어에 따라 달라집니다.원자는 추가로 숫자로 식별할 수 있다(예:[C:1]매핑을 [13]위해 를 참조해 주세요.[14]

스마일즈는 이산 분자 구조에 해당합니다.그러나 많은 물질은 고분자로, 너무 커서(그리고 종종 확률적) 쉽게 SMIELES를 생성할 수 없다.BigSMILE은 [15]고분자의 효율적인 표현 시스템을 제공하는 것을 목표로 하는 SMIELES의 확장입니다.

변환

SMIELES는 구조도 생성(SDG)[16] 알고리즘을 사용하여 2차원 표현으로 변환할 수 있습니다.이 변환이 항상 명확한 것은 아닙니다.3차원 표현으로의 변환은 에너지 최소화 접근법에 의해 달성된다.다운로드 가능한 웹 기반 변환 유틸리티가 많이 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Weininger D (February 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Computer Sciences. 28 (1): 31–6. doi:10.1021/ci00057a005.
  2. ^ a b Weininger D, Weininger A, Weininger JL (May 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling. 29 (2): 97–101. doi:10.1021/ci00062a008.
  3. ^ Weininger D (August 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling. 30 (3): 237–43. doi:10.1021/ci00067a005.
  4. ^ Swanson RP (2004). "The Entrance of Informatics into Combinatorial Chemistry" (PDF). In Rayward WB, Bowden ME (eds.). The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation. Medford, NJ: Information Today. p. 205. ISBN 978-1-57387-229-4.
  5. ^ Weininger D (1998). "Acknowledgements on Daylight Tutorial smiles-etc page". Retrieved June 24, 2013.
  6. ^ Anderson E, Veith GD, Weininger D (1987). SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.
  7. ^ "SMILES Tutorial: What is SMILES?". U.S. EPA. Archived from the original on March 28, 2008. Retrieved September 23, 2012.
  8. ^ Neglur G, Grossman RL, Liu B (2005). "Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples". In Ludäscher B (ed.). Data Integration in the Life Sciences. Lecture Notes in Computer Science. Vol. 3615. Berlin: Springer. pp. 145–157. doi:10.1007/11530084_13. ISBN 978-3-540-27967-9. Retrieved February 12, 2013.
  9. ^ Sidorova J, Anisimova M (August 2014). "NLP-inspired structural pattern recognition in chemical application". Pattern Recognition Letters. 45: 11–16. Bibcode:2014PaReL..45...11S. doi:10.1016/j.patrec.2014.02.012.
  10. ^ Sidorova J, Garcia J (November 2015). "Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences". Pattern Recognition. 48 (11): 3749–3756. Bibcode:2015PatRe..48.3749S. doi:10.1016/j.patcog.2015.05.001. hdl:10016/33552.
  11. ^ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). "Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay". Journal of Chemical Ecology. 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
  12. ^ "CID 183413". PubChem. Retrieved May 12, 2012.
  13. ^ "SMIRKS Tutorial". Daylight Chemical Information Systems, Inc. Retrieved October 29, 2018.
  14. ^ "Reaction SMILES and SMIRKS". Daylight Chemical Information Systems, Inc. Retrieved October 29, 2018.
  15. ^ Lin TS, Coley CW, Mochigase H, Beech HK, Wang W, Wang Z, et al. (September 2019). "BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules". ACS Central Science. 5 (9): 1523–1531. doi:10.1021/acscentsci.9b00476. PMC 6764162. PMID 31572779.
  16. ^ Helson HE (1999). "Structure Diagram Generation". In Lipkowitz KB, Boyd DB (eds.). Reviews in Computational Chemistry. Vol. 13. New York: Wiley-VCH. pp. 313–398. doi:10.1002/9780470125908.ch6. ISBN 978-0-470-12590-8.