近日,「德睿智药」与帝国理工学院联合发布了基于AI大语言模型的光响应分子生成技术框架UVGPT,验证了将AI大语言模型应用于智能药物递送领域的可行性,有望加速新型光响应分子设计与研究应用。该论文以“A Smart Strategy for Photoresponsive Molecules: Utilizing Generative Pre-trained Transformer and TDDFT Calculations in Drug Delivery”为题在ChemRxiv上预发表。
以下为研究概况、技术框架、实验结果与结论:
1. 研究概况
药物递送系统是指一系列将药物输送到体内特定部位以实现治疗效果的方法和技术,提高了治疗的精确性和效果并有效降低了副作用。光响应药物递送是智能药物递送领域的一大重要分支,利用光触发方法有望实现对药物的精准递送。其中,以紫外光(UV)为代表的短波光,因其能量强、可有效触发给药机制的特点备受关注。
在本研究中,论文团队通过自研大语言模型UVGPT和含时密度泛函理论TDDFT量子化学计算验证,成功设计出更有效的紫外光响应给药分子。本研究为药物递送领域提出了新的大模型赋能的计算化学解决方案。
2. 技术框架
图1. 紫外光响应分子生成工作流程
如图1所示,研究团队采用了PubChem数据集中的化合物信息对基于GPT-2框架大语言模型进行预训练,旨在生成具有高类药性和合成可及性的分子。其中化合物信息以SMILES形式输入,并通过Tokenizer完成了化合物信息的特征化。
以此为基础使用紫外光分子数据集进行微调,使模型具备生成具有紫外光吸收特性的分子的能力。基于生成的紫外光分子数据集,研究团队进一步构建了筛选模型。团队使用了开源QM7b数据集用于微调UVGPT和训练筛选模型的分子激发能以及分子的库仑矩阵。UVGPT利用了包括激发能从4.13到12.41 eV之间的分子的训练数据集,并从中学习紫外光响应分子的定量结构-活性关系。
3. 实验结果
研究团队对模型生成分子的激发能(Excitation Energy)、类药性(Drug-Likeness)和合成可及性(SA)评分进行了评估。
研究利用库仑矩阵作为分子描述符,预测分子的激发波长,并通过量子化学模拟来验证激发态特性。类药性评估以类药性的定量估计(QED)为指标,得分越高表明成药的可能性越大。合成可及性(SA)评分则用于系统性评估合成类药分子的难易程度,从而帮助确定分子设计化合物的优先次序。
图2. 生成分子的激发能(a)、类药性(b)和合成可及性评分(c)分布
如图2a所示,分子激发能的分布在5到11eV之间,大多数集中在8到9 eV,这与训练样本的分布密切对应,表明UVGPT成功从分子数据集中学习了定量结构-活性关系并促进了分子设计。
为了完善对分子激发能的评估,研究团队进行了量子化学计算(含时密度泛函理论TDDFT)。图2b显示了分子的QED排名。研究团队据此确定了9个类药性最高的分子,并在图3中展示了它们相应的SMILES分子式和QED值(从0.528到0.57不等)。值得注意的是,SMILES表达式为OC1CC1OC(C)C分子展现了最高程度的类药性,但它并不存在于PubChem数据库中,而PubChem中有一种化合物((1S,2S)-2-methylcyclopropan-1-ol)与OC1CC1OC(C)C相似,这进一步证明了该框架的有效性。
图3. 由UVGPT生成的9个分子的QED值和SMILES表示
同样的,根据图2c中的SA评分结果,研究团队筛选出8个推荐分子(从5.47到5.92不等)并在图四中展示了其SMILES表达式。其中SMILES表达式为C=CC=NSN=C的分子SA值为5.537,属于共轭烯烃,SMILES表达式为CC(C(C1)N)S=N的分子SA值同样为5.537,属于累积多烯。
图4. 由UVGPT生成的8个分子的SAscore值和SMILES表示
为加深理解UVGPT的生成结果并验证激发态性质,该研究还通过DFT计算对所筛选出的17个分子进行垂直激发,结果如表1所示。有6个分子的第一激发能大于6.199eV(推测对应的最大吸收峰波长为200nm),达到饱和状态,7个分子的最大吸收峰波长介于200-400nm之间,5个分子处于可见光和近红外波段。SMILES表达式为C=CC=NSN=C的分子则具有紫外光吸收特性,有可能用于药物递送。
表1. 分子SMILES表达式与第一激发能的转换波长
4. 结论
本研究将AI大语言模型应用于智能药物递送领域,搭建了基于AI大语言模型的光响应分子生成技术框架,并生成了可供进一步研究的紫外光响应给药分子。该框架证明大语言模型在包括但不限于药物递送的更多新药研发领域有应用潜力,或将加速新药发现与药物设计的发展
论文链接: