简化分子线性输入规范

Simplified Molecular Input Line Entry System

译者(按拼音顺序排列):董亚男,蒙美叶,强浩然,曾文轩,张景龙,张清豪

1. 规范化

SMILES表示一个具有可选手性指示的分子结构图,这就是化学家们用来描述分子的二维图像。只描述标记的分子图(即原子和化学键,但没有手性或同位素信息)的被SMILES称为泛型SMILES。通常有大量有效的通用SMILES表示一个给定的结构。存在一个规范化算法来在所有有效的可能性中生成一个特殊的通用SMILES,这种特别的SMILES被称为“独特的SMILES”。带有同位素和手性规范的SMILES统称为“同分异构体SMILES”。独特的同分异构SMILES被称为“绝对SMILES”。请看下面的例子:

输入 SMILES 独特的 SMILES
OCC CCO
[CH3][CH2][OH] CCO
C-C-O CCO
C(O)C CCO
OC(=O)C(Br)(Cl)N NC(Cl)(Br)C(=O)O
ClC(Br)(N)C(=O)O NC(Cl)(Br)C(=O)O
O=C(O)C(N)(Br)Cl NC(Cl)(Br)C(=O)O

2. SMILES规范规定

SMILES符号由一系列不含空格的字符组成,氢原子可以省略(隐氢图)或包括(氢完全图)。芳香结构可以直接指定或以凯库勒形式指定。有五个通用的smile编码规则,分别对应于原子、键、分支、环的闭合和断开。下一节(异构SMILES)将讨论指定各种异构性的规则。

2.1 原子

原子由它们的原子符号表示:这是SMILES中唯一需要用到的字母。每个非氢原子由方括号中的原子符号 [ ]单独指定。双字符符号的第二个字母必须以小写字母输入。“有机子集”中的元素B、C、N、O、P、S、F、Cl、Br和I可以不加括号地写,前提是所附氢原子的数目符合与显式键一致的最低正常价。卤素的“最低正常价”是B(3)、C(4)、N(3,5)、O(2)、P(3,5)、S(2,4,6)和1。芳香族环中的原子用小写字母表示,如脂肪族碳用大写字母C表示,芳香族碳用小写字母C表示。

C 甲烷 (CH4)
P 磷化氢 (PH3)
N 氮化氢(氨气) (NH3)
S 硫化氢 (H2S)
O (H2O)
Cl 氯化氢(盐酸) (HCl)

“正常”以外的原子和不属于“有机子集”的元素必须用括号表示。

[S] 元素硫
[Au] 元素金

在括号内,任何附加的氢和形式电荷都必须指明。氢原子的数目由符号H和一个可选的数字表示。类似地,形式电荷由符号+或-中的一个表示,后面跟着一个可选的数字。如果未指定,则假定括号内的原子所附的氢原子数和电荷数为零。形式[Fe+++]的结构与形式[Fe+3]是同义的。例子有:

[H+] 质子
[Fe+2] 铁(II)阳离子
[OH-] 氢氧根负离子
[Fe++] 铁(II)阳离子
[OH3+] 水合氢离子
[NH4+] 铵阳离子

2.2 化学键

单键、双键、三键和芳香键分别由符号-、=、#和:表示。相邻的原子通过一个单键或芳香键相互连接(单键和芳香键可以省略)。例子有:

乙烷 (CH3CH3)
C=O 甲醛 (CH2O)
CC C=C 乙烯 (CH2=CH2)
O=C=O 二氧化碳 (CO2)
COC 二甲醚 (CH3OCH3)
C#N 氰化氢 (HCN)
CCO 乙醇 (CH3CH2OH)
[H] [H] 分子氢 (H2)

对于线性结构,除了氢和单键通常被省略外,SMILES符号与传统的图解符号相对应。例如,6-羟基-1,4-己二烯可以用许多同样有效的SMILES来表示,包括以下三种:

结构 有效 SMILES
C=CCC=CCO
CH2=CH-CH2-CH=CH-CH2-OH C=C-C-C=C-C-O
OCC=CCC=C

2.3 分支

分支是通过将它们括在括号中指定的,可以嵌套或堆叠。在所有情况下,与圆括号表达式(“分支”)的隐式连接都位于左侧。例子有:

3.2.3-1 3.2.3-2 3.2.3-3
CCN(CC)CC CC(C)C(=O)O C=CC(CCC)C(C(C)C)CCC
三乙胺 异丁酸 3-丙基-4-异丙基-1-庚烯

2.4 环状结构

分子结构为环状的物质,通过断开其中的某一个键来表示。这些键可以用任意顺序编号,在表示闭合的原子后面加上数字来表示开环(闭环)键。比如,我们常见的环己烷可以用下图表示

再比如下图的1-甲基-3-溴-环己烯,虽然看着复杂不少,但依然是环状结构,可以使用上述规则。

对于同一种物质,它的SMILES结构可能会有所不同,就比如上图的(a),(b)两种写法,都是可以被识别的。

有的分子结构中可能不止一个环,比如立方烷,它其中每两个原子都有一个以上的环。

立方烷的SMILES结构: C12C3C4C1C5C4C3C25.

当然,SMILES结构中的这个表示闭环的数字是可以重复使用的,比如1就用了两次

3.2.4-4
O1CCCCC1N1CCCCC1

因为可以重复使用表示闭环的数字,所以SMILES结构可以表示拥有10个或者更多环的分子。但需要这样表示的分子比较罕见。举个例子,如果表示闭环的数字是两位数,如13,24,只要在它们前面加上%即可,而个位数就正常写,如C2%13%24.

2.5 断开的结构

断开的分子结构,在各个部分之间,我们用“.”隔开,离子或者配体的顺序是任意的,而且电荷与电荷之间也不需要配对,一个离子还可以嵌入另一个离子,如下图的酚钠。

符合规则的数字意味着原子互相结合,之间的化学键可以是显式的(符号与方向),也可以是隐式的(单键或芳香键),但终归都是环状的。

相邻的原子用(.)隔开,意味着没有相互结合。例如C1.C1和CC相同,都是表示乙烷(氢已省略)

3. 异构体的SMILES表示

这一部分讲解了如双键异构,手性异构等异构体的SMILES书写规则。

SMILES规则可以用来表示手性分子。与大多数现有的化学术语(如 CIP 和 IUPAC)不同,这些规则对手性进行严格的要求。这一点很重要,因为世界上许多可用的化学信息都不能完全解决手性问题。

因此,SMILES 中的所有异构体规则都是明确指定的。缺少任何属性的规则意味着未指定

3.1 同位素规则

同位素规则,即在原子符号前面加上等于整体原子质量的数字。原子质量只能在括号内指定。如

Smiles 名称
[12C] carbon-12
[13C] carbon-13
[C] carbon (未指定质量)
[13CH4] C-13 methane

3.2 双键周围的构型

C双键周围由/ ,\表示,这个符号是定向键,可以表示单键和芳香键,同时用来表示方向,并且只有出现在双键原子上才有意义。例如E和Z-1,2二氟乙烯。

3.3.2-1 3.3.2-2
F/C=C/F F/C=C\F
F\C=C\F F\C=C/F

SMILES 手性规则与其他如 CIP顺序规则等规则之间的一个重要区别是,SMILES 使用局部手性表示(与绝对手性相反),可以只表示一部分。如

3.3.2-3 3.3.2-4
F/C=C/C=C/C F/C=C/C=CC
(全部) (部分)

3.3 四面体中心周围的构型

SMILES使用一种基于局部手性的非常通用的手性规范。与使用基于规则的编号方案来排列手性中心的相邻原子不同,取向是基于相邻原子在SMILES中出现的顺序。与SMILES的所有其他方面一样,任何有效的顺序都是可以接受的;Daylight软件负责在修改或重新排列结构时保留手征规范的含义(例如,生成独特的SMILES)。

最简单和最常见的手性是四面体;四个相邻原子均匀地排列在一个中心原子周围,称为“手性中心”。如果四个邻域在任何方面都不相同,则结构的镜像将不相同。这两个镜像被称为“对映异构体”,是四面体中心仅有的两种形式。如果四个邻域中的两个(或更多)彼此相同,则中心原子将不是手性原子(其镜像可以在空间中叠加)。

在SMILES中,四面体中心可以通过一个简化的手征规范(@或@@)来表示,该规范被写为手性原子的原子符号后面的原子属性。如果手性原子不存在手性规范,则其手性是隐式不指定的。例如:

3.3.3-1 3.3.3-2
NC(C)(F)C(=O)O N[C@](C)(F)C(=O)O
NC(F)(C)C(=O)O3 N[C@@](F)(C)C(=O)O
(未指定手性) (指定手性)

从氨基N到手性C(如所写的SMILES),其他三个邻域按其在顶部SMILES中的顺序逆时针排列,N[C@](C)(F)C(=O)O(甲基-C,F,羧基-C),在底部顺时针排列,N[C@](F)(C)C(=O)O符号“@”表示下列邻域按逆时针排列是一种“视觉记忆法”,因为这个符号看起来像是围绕中心圆的逆时针螺旋。“@@”表示邻域是顺时针方向(可以想象逆时针再逆时针则为顺时针)。

如果中心碳不是SMILES中的第一个原子,并且有一个隐含的氢(仍然是手性的它最多可以有一个H),则隐含的氢被认为是遵循四面体规范的三个相邻原子中的第一个相邻原子。如果SMILES中的中心碳是第一个,那么隐含的氢就被认为是“来自”原子。氢原子总是可以写得很清楚(如[H]),在这种情况下,氢原子被当作任何其他原子对待。在每一种情况下,隐含的顺序都是用SMILES写的。丙氨酸的一些有效SMILES是:

3.3.3-3 3.3.3-4
N[C@@]([H])(C)C(=O)O N[C@]([H])(C)C(=O)O
N[C@@H](C)C(=O)O N[C@H](C)C(=O)O
N[C@H](C(=O)O)C N[C@@H](C(=O)O)C
[H][C@](N)(C)C(=O)O [H][C@@](N)(C)C(=O)O
[C@H](N)(C)C(=O)O [C@@H](N)(C)C(=O)O

环闭合键的手性顺序是由环闭合位出现在手性原子上的词序所暗示的(而不是在“取代基”原子的词序中)。

3.3.3-5
C[C@H]1CCCCO1
O1CCCC[C@@H]1C

3.4 一般手性规范

除了四面体之外,还有很多种手性。上面描述的“@”符号的使用实际上是一般手征规范语法的一种特殊情况。

SMILES中使用的一般手征规范有三部分:符号@,后面是两个字母的手征类指示符,后面是数字手征置换指示符。默认的手征类被分配给每个度(连接数);四个连接的默认类是四面体(TH)。大多数手性都有两个以上的可能选择;这些选择是从一个表中数字分配的。在大多数情况下,@ 1指定是指“以SMILES顺序表示的轴的逆时针方向”,@ 2表示“顺时针”。“@@”和“@@@”形式的符号解释为“@2”和“@3”(类似于“+++”表示“+3”)。上面使用的“@”和“@@”符号是完整规范“@TH1”和“@TH2”的快捷方式。实际上,并不经常需要完整的手性规范。

SMILES处理各种手性规范,包括“还原手性”(对称性减少了对映体的数量)和“退化手性”(对称取代使中心变得非手性)的分辨率。与SMILES的其他方面一样,这种语言保证了能够准确地指定已知内容,包括部分规范。SMILES系统将为任何给定规范生成独特的异构SMILES,子结构识别将在所有类型的手性上正确操作。

本节的其余部分将仅限于讨论以下手性:四面体、类艾伦、方平面、三角双锥和八面体。尽管这个系统可以处理更多的手性类(它是表驱动的),但这五类在化学中非常常见,涵盖了余下部分中要遇到的大多数问题。

四面体:四面体类符号是TH。这是四级的默认手征类。可能的值是1和2。@TH1(或@)表示,从第一个连接的原子看,以下三个连接的原子是逆时针排列的;@TH2(或@@)表示顺时针排列。

类艾伦:类艾伦的类符号是AL。这是2级的默认手性类(手性中心是具有两个双键的中心原子)。尽管被取代的c=c=c结构是最常见的,但c=c=c=c结构也是类似艾伦的,任何奇数个串联的双键原子也是如此。可能的值是@AL1(或仅@)和@AL2(或@@);这些值通过叠加被取代的原子并按照四面体计算来解释。与取代的类烯原子相连的氢被认为紧跟在该原子之后,如下所示:

3.3.4-1 3.3.4-2
OC(Cl)=[C@]=C(C)F OC=[C@]=CF
OC(Cl)=[C@AL1]=C(C)F OC([H])=[C@AL1]=C([H])F

正方形平面:正方形平面类符号是SP。可能的值是@SP1、@SP2和@SP3;这不是四级的默认手征类,因此不允许使用速记规范。正方形平面也有点不寻常,因为顺时针和逆时针的思想不适用。

3.3.4-3
F[Po@SP1](Cl)(Br)I (SP1 以“U”形列出)
F[Po@SP2](Br)(Cl)I (SP2 以“4”形排列)
F[Po@SP3](Cl)(I)Br (SP3 以“Z”形列出)

三角双锥:三角双锥类符号是TB。这是5级的默认手征类。可能的值是@TB1到@TB20。@ TB1(或仅@)表明,当SMILES从一个轴向连接到另一个轴向上时,三个中间的、相等的连接的原子被逆时针列出;@ TB2(或@@)表示顺时针方向。如下所示。

3.3.4-4
s[As@@](F)(Cl)(Br)C=O
O=C[As@](F)(Cl)(Br)S

八面体:八面体类符号是OH。这是6级的默认手征类。可能的值是@OH1到@OH30。@ OH1(或仅@)表明,当SMILES从一个轴向连接到另一个轴向时,四个中间的、相等的连接的原子被逆时针列出;@ OH2(或@@)表示顺时针方向。如下所示。

3.3.4-5
S[Co@@](F)(Cl)(Br)(I)C=O
O=C[Co@](F)(Cl)(Br)(I)S

4. SMILES惯例

除了上述规则外,SMILES中还普遍使用了一些惯例。下面将简要讨论这些问题;有关更多详细信息,请参阅JCICS文件(同上)。

4.1 氢

当为大多数有机结构写SMILES时,通常不需要指定氢原子。氢的存在可以通过三种方式来规定:

  • 隐式的…对于没有括号的原子,根据正常的价假设。

  • 通过计数明确……在括号内,通过提供的氢计数;如果未指定,则为零。

  • 作为显式原子……作为[H]原子。

“有机”和“无机”SMILES术语之间没有区别。你可以为任何SMILES中的任何原子指定附加氢的数量。例如,丙烷可以输入为[CH3][CH2][CH3]而不是CCC。

有四种情况需要明确说明氢的规格:

  • 带电氢,即质子,[H+];
  • 氢连接到其他氢,例如分子氢,[H] [H];
  • 氢连接到另一个原子以外的氢,例如,桥联氢;
  • 和同位素氢规范,例如在重水中,[2H]O[2H]。

4.2 芳香性

芳香性必须在诸如SMILES这样的系统中推导出来,由于描述分子对称性的基本要求,SMILES产生了一个明确的化学命名法。给定有效的芳香性检测算法,如果用户希望输入脂肪族(kekulélike)结构,则无需将任何结构输入为芳香族。直接以芳香族的形式进入结构(即使用小写原子符号)提供了精确化学规范的捷径,并且更接近大多数化学家使用的金属分子模型。

SMILES算法使用hueckel法则的扩展版本来识别芳香分子和离子。要使环中的所有原子都具有芳香族性质,必须进行sp2杂化,并且可用的“过剩”p电子数必须满足hueckel的4N+2标准。例如,苯被写为c1ccccc1,但C1=CC=CC=C1-环己三烯(kekulé形式)的条目导致芳香性的检测,并导致内部结构转换为芳香表示。相反,c1ccc1和c1ccccccc1的条目将产生正确的环丁二烯和环辛四烯的反芳烃结构,C1=CC=C1和C1=CC=CC=CC=C1。在这种情况下,SMILES系统寻找一种结构,该结构保留了隐含的sp2杂化、隐含的氢计数和特定的形式电荷(如果有的话)。然而,有些输入可能不仅不正确,而且不可能,例如c1cccc1。这里c1cccc1不能转换成C1=CCC=C1,因为其中一个碳原子是带有两个附加氢的sp3。在这种结构中,不能交替进行单键和双键转让。SMILES系统会将此标记为“不可能”的输入。请注意,只有下表中的原子可以被认为是芳香原子:C、N、O、P、S、AS、SE和*(通配符)。此外,外环双键不破坏芳香性。

3.4.2

必须记住,SMILES芳香度检测算法的目的仅限于化学信息表示!为此,提供了严格的规则来确定带电、杂环和缺电子环系统的“芳香性”。此处使用的“芳香性”名称并不意味着物质的反应性、磁共振光谱、生成热或气味。

4.3 芳香族氮化合物

一个简短的说明是关于芳香族氮,一个在化学信息系统中常见的混淆源。所有三种常见类型的芳香族氮可以用芳香族氮符号N指定。典型的例子是吡啶、吡啶-N-氧化物和吡咯。

3.4.3

请注意,1H吡咯中的吡咯氮被写入[nH]以区分这类氮和吡啶基-N。1H吡咯的替代有效SMILES包括[H]n1ccc1(显式氢)和N1C=CC=C1(脂肪族形式)所有三种输入形式都是等效的。

3.4.4 保证公约

SMILES并不意味着应该用哪种价公约来模拟分子结构。事实上,使用SMILES的一个优点是它能够描述同一结构的各种价模型。原子可以按需要连接并显示电荷分离。例如,硝基甲烷可以在SMILES中表示为CN(=O)=O或电荷分离的C[N+](=O)[O-](我们倾向于将前者用于数据库工作,因为它保持了对称性)。两者都是“正确的”,因为它们代表了不同的、有用的物质模型。一般来说,当对称性不是问题时,大多数化学家更喜欢电荷分离结构,如果他们能够避免以不寻常的价态来表示原子,例如,重氮甲烷被写成C=[N+]=[N-]而不是C=[N]=[N]。

给定一个结构的价模型,化学数据库系统(如THOR和Merlin)能够检索关于该结构的数据,即使这些数据存储在结构的不同价模型下。在这样的系统中,价格约定的选择对于数据库设计和数据库查询都不是至关重要的。

4.5 互变异构体

互变异构体结构在SMILES中明确规定。没有“互变异构键”、“流动氢”或“流动电荷”规范。一个或所有互变异构结构的选择留给用户,并强烈依赖于应用。给定一种互变异构体形式,如果需要,大多数化学信息系统将报告所有已知互变异构体的数据。SMILES的作用是确切地说明哪些互变异构形式是被要求的,哪些是有数据的。一个简单的例子,有两种可能的互变异构形式,如下所示:

3.4.5
O=c1[nH]cccc1 Oc1ncccc1
2-吡啶 2-吡啶醇

欢迎批评指正