有机磷类化合物(organophosphorus compounds, OPs)包括有机磷阻燃剂(organophosphorus flame retardants, OPFRs)、有机磷杀虫剂(organophosphorus pesticides, OPPs)和其他含磷的有机化合物。工业生产上,OFPRs作为溴化阻燃剂的低毒替代品被应用于家电、建筑和电子领域;农业上,OPPs则被广泛用于杀虫和害虫控制[1-2]。此外在医学领域,一些抗病毒的药物中也含有OPs[3]。因此,OPs容易通过磨损、挥发和溶解等方式进入各种环境介质中。目前科研人员已在诸如河流、地下水、海水、空气和室内等环境介质中检测到了OPs[4-6]。甚至在东亚地区的人类母乳样本中检测到10余种OPs,最高浓度为70 ng·g-1[7]。越来越广泛存在的OPs可能造成的危害和健康风险引起了研究者们的关注。
OPs具有神经毒性[8-9]、内分泌毒性[10]和致癌性[11]。研究表明,接触OPPs(如毒死蜱)会引起人类的神经系统发育缺陷[12]。OPFRs如磷酸三甲苯(TMPP)、磷酸三苯酯(TPHP)和磷酸三(2,3-二溴丙基)酯(TDBPP)则显示出对核受体(nuclear receptors, NRs)的亲和力和内分泌的干扰作用[13-14]。上述研究及更多OPs的毒性毒理研究往往都是通过传统的体内(in vivo)或者体外(in vitro)实验进行的,这些方法需要耗费大量的时间与金钱。此外,实验手段无法完整覆盖一整类化合物的毒性数据,并且测试在实验室间存在误差[15]。因此,迫切需要一种有效的替代方法,对化合物毒性数据进行评估。
随着计算科学的发展,计算毒理学已经成为一种具有成本效益且快速的实验替代方法[16]。计算毒理学整合各种来源的数据,开发基于数学、统计科学和机器学习的模型,对化学品进行高效和高通量的定性或定量预测[17]。定量结构活性关系(quantitative structure-activity relationship, QSAR)模型便是计算毒理学领域被广泛利用的模型之一,其原理是建立化合物的化学结构与各种毒理学终点效应和生物活性之间的函数关系[18]。QSAR模型被研究者们广泛应用于药物发现、毒理学和生物学等领域[19]。除了建立化学结构与毒性数据之间的关系模型外,QSAR模型还能通过分子描述符的解释从一定程度进行毒理机制的阐述。Alves等[20]使用QSAR方法为COVID-19病毒建立了抑制性药物预测模型,并应用该模型从小分子数据库中高通量地筛选了11个候选药物,其中3个被美国转化科学推动中心(National Center for Advancing Translational Sciences, NCATS)实验证实为有效的病毒抑制剂。Jeon等[21]则收集大量实验数据,为鱼胚胎急性毒性建立了一个通用的基线毒性QSAR模型,并使用该模型筛选毒性化合物。大量的研究表明QSAR模型用于化合物的毒性预测行之有效。
分子对接是研究化合物与目标蛋白结合部位行为的工具,能够通过计算手段探究化合物与特定靶点蛋白的结合特异性,从而从一定程度上反映化合物的毒性。Zou等[22]使用分子对接得到的配体-受体相互作用能量(binding energy)来反映化学品的毒性作用。Li等[23]通过对接羟基多溴联苯醚(HO-PBDEs)与人类甲状腺激素受体,从一定程度上揭示了HO-PBDEs的毒性机制。
本研究首先收集了OPs对大鼠急性口服毒性的数据。检索并从文献中提取了62种环境中常见的OPs清单[26-27]。通过查询EPA CompTox数据库(https://comptox.epa.gov/dashboard),收集了同一实验条件下获得的53种OPs急性毒性数据LD50(导致一组实验动物中刚好死亡一半的化合物浓度)。获取的OPs的急性毒性数值使用log函数进行规范化处理。整个数据集按照4∶1的比例随机划分为训练集(n=43)和测试集(n=10),没有毒性实验数据的9种OPs作为最后的预测集(n=9)。在之后的计算实验中,训练集仅用于建立模型,测试集则用于评估模型的预测能力,这种划分方式有利于验证QSAR模型的拟合和泛化能力。
数据集中所有OPs的结构文件(.sdf)来自PubChem(https://pubchem.ncbi.nlm.nih.gov/)数据库。并使用PaDEL开源软件[28]计算所有化合物的分子结构描述符,共得到1 444个分子结构描述符,包括(1)一维结构描述符:如原子和化学键的数量、分子量等;(2)二维拓扑描述符:如拓扑指数、拓扑电荷和自相关系数等;(3)电荷描述符、原子电状态描述符等。本研究中使用了PaDEL计算的一维和二维描述符,因为这些类型的描述符计算速度快,可重复性好,并且不需要分子结构能量最小化过程,该过程中不同实验室间可能会在计算上产生误差。计算结束后,我们对得到的分子描述符数据进行了预处理,剔除了方差为0的单列分子描述符数据,相关系数>0.99的多组描述符最终仅保留一组。经过预处理后,最终保留了833组分子描述符用于后续分析。
分别使用逐步算法(SW)和遗传算法(GA)进行分子描述符的选择。2种算法选择的分子描述符变量通过基于普通最小二乘法(OLS)的多元线性回归(MLR)方法关联毒性终点并建立QSAR模型,之后进行模型的内部和外部评估。研究中使用SPSS 21.0软件建立了SW-MLR模型,使用DTC-QSAR开源软件[29]建立了GA-MLR模型。所有参数的统计分析过程在EXCEL软件中完成。本研究详细的QSAR模型构建及OPs的LD50预测工作流程如图1所示。
图1 定量结构活性关系(QSAR)模型构建及有机磷类化合物(OPs)的急性毒性半致死量(LD50)预测的工作流程图
和Y随机(Y-randomized testing)测试进行模型鲁棒性的评估。相应的统计参数与计算公式如表1所示。
我们先前的实验研究证实了稀有鮈鲫的丁酰胆碱酯酶(BChE)能够被一些OPs显著抑制,从而引起神经毒性[31]。这项研究中,借助分子对接工具探究预测集中9种OPs对哺乳动物类的BChE的结合与抑制能力。从蛋白质数据库中检索到BChE的人类蛋白质结构(PDB ID: 5K5E)作为对接蛋白。通过AutoDockTools4程序进行预处理,去除水分、添加氢并分配电荷。对接网格的大小设置为52 Å×52 Å×52 Å,并使用AutoDock Vina程序[32]进行分子对接。对接前,从BChE蛋白中提取了共结晶化合物并重新对接至原蛋白进行对接程序的验证。最终使用PLIP工具[33]分析了对接后化合物与蛋白质的结合模式。
对于每个模型还执行了2 000次Y-随机测试。随机测试结果显示SW-MLR和GA-MLR的最大伪R2值分别为0.488和0.504,最大伪Q2值分别为0.299和0.234。所有的伪R2和伪Q2都很低,这表明原始模型的结果并不是偶然关联的。SW-MLR和GA-MLR模型的拟合关系结果如图2所示。
图2 SW-MLR(a)和GA-MLR(b)模型中OPs实验值与预测值拟合关系
建立的SW-MLR模型和GA-MLR模型应用域表征Willimas图如图3所示。SW-MLR模型中,所有OPs类化合物都很好地落入了应用域范围内。GA-MLR模型中,仅有一种化合物(dimethoate, CAS: 60-51-5, h=0.570>h*=0.558)为离群点。结论表明本研究的2种模型能够较好地预测OPs类化合物对大鼠的急性毒性数据。表2中给出了使用2种QSAR模型预测的没有实验数据的9种OPs的急性毒性结果。
图3 SW-MLR(a)和GA-MLR(b)的Williams应用域图
AutoDock Vina重新对接BChE(5K5E)的原配体的结合能结果为-11.9 kcal·mol-1,均方根偏差(RMSD)为0.89 Å,说明对接程序适用于进一步的对接与研究。使用AutoDock Vina软件对接预测集(9种OPs)与BChE(5K5E)的最低对接能量结果如表2所示。PLIP工具对OPs与BChE的结合模式可视化如图4所示。
AutoDock Vina对接的结果显示其中8个OPs的对接结合能低于阈值[43]-6 kcal·mol-1,表明了潜在的结合能力以及进一步可能造成的神经毒性。此外,取代基或支链烷基化程度较高的化合物(如磷酸三(3-氯丙基)酯)对接结合能也较高,这表明更低的结合能力与更低的神经毒性,这一结果与GA-MLR模型中分子描述符nsssCH的含义一致。因此我们认为OPs的R基及取代基的烷基化能够降低毒性。由图4可知,BChE与OPs结合的关键氨基酸残基有Gly116和Ser198(氢键);His428、Trp332和Phe329(盐桥);Trp231、Phe329、Trp82、Tyr332和His438(π-堆叠)。这些关键氨基酸残基与前人的研究较为一致[44-45]。
序号NO.化合物名称Chemical nameSW-MLR预测LD50/(mg·kg-1)LD50 by SW-MLR/(mg·kg-1)GA-MLR预测LD50/(mg·kg-1)LD50 by GA-MLR/(mg·kg-1)对接能量/(kcal·mol-1)Docking energy/(kcal·mol-1)产生氢键的残基H-bond residualπ-堆叠残基π-stacking residualA磷酸三己基酯Trihexyl phosphate2 8515 024-7.2Gly116, Gly117, Ser198, His438-B磷酸二苯甲酯Diphenyl methyl phosphate1 5316 111-7.7Gly116, Ser198Trp231, Phe329C对甲酚二苯基磷酸酯Diphenyl p-tolyl phosphate4 6982 325-9-Trp82, Phe329, Tyr332D磷酸三间甲苯酯Tri-m-cresyl phosphate4 3842 039-9.8-Trp82, Phe329, Tyr332E磷酸三甲苯酯Tricresyl phosphate23 7137 875-9.6-Trp82, Phe329, Try332F磷酸叔丁基苯二苯酯tert-butylphenyl diphenyl phosphate23 4632 986-9.5-Trp82, Phe329, Tyr332, His438G(2-叔丁基苯基)苯基磷酸酯Butylated triphenyl phosphate5 4452 334-8.3-Trp82, Tyr332H双酚A双(二苯基磷酸酯)Bisphenol A bis (diphenyl phosphate)5 00911 672-10.1Gly116, Ser198, Asn289Trp82I磷酸三(3-氯丙基)酯Tris(3-chloropropyl) phosphate7173 485-5.7Gly116, Gly117, Ser198-
图4 9种OPs与BChE(5K5E)分子对接结果的可视化
Fig. 4 Ligand interaction diagram of the main interactions of nine OPs in the active site of BChE (5K5E)
