新闻

德睿发布全球最大单性质ADMET开源数据集,大语言模型驱动

2024-09-14

近日,「德睿智药」团队发布全球最大单性质ADMET开源数据集PharmaBench。研发团队结合大语言模型多智能体技术,构建了涵盖11种关键ADMET性质共52,482个数据条目的大型数据集,该研究近期发表于Nature旗下期刊Scientific Data。

目前,「德睿智药」自研的ADMET性质预测平台ADMET Ranker™已基于大语言模型完成迭代升级,在第三方独立验证中,多个成药性指标的预测任务表现均达到当前最优。

以下为研究概况、数据与方法、技术验证与结论:

 

1. 研究概况

在药物发现早期阶段,准确预测并优化分子的ADMET(吸收、分布、代谢、排泄和毒性)特性至关重要,有利于提高后期临床成功率并成功研发新的治疗药物。然而现有的ADMET基准数据集普遍数据量小,且与药物研发管线中常用化合物类型区别较大,在实际工业场景应用中效用受限。公开的ADMET实验信息虽然数量众多但是由于实验条件的不统一清洗难度大,未经清洗的数据直接进行建模的预测效果差。

基于此,本研究团队研发了一种AI大语言模型驱动的多智能体数据挖掘系统,对公开数据集进行数据提取、标准化处理、数据类型过滤及严格验证,通过多智能体系统分析了14,401种不同的实验来源的信息,最终构建了一个全面可靠的ADMET性质基准数据集PharmaBench,涵盖11种关键的ADMET性质共52,482个数据条目,是当前对应性质在药物研发领域可用的最大、最具多样化的ADMET数据集。与其他数据挖掘的方法相比,「德睿智药」自研的多智能体数据挖掘系统有着准确率高、所需人力少、挖掘范围广等显著优势,可以快速完成大规模不同种类的数据挖掘工作。

图1:构建PharmaBench的数据处理流程

2. 数据与方法

表1:PharmaBench数据来源

研究团队将ChEMBL数据库作为主要数据来源,从中提取并整合了来自14,401种不同实验来源测定的97,609个原始数据条目,并选取其他相关公共数据集进行扩充,累计整合共156,618个数据条目。团队随后建立了一种多智能体大语言模型数据挖掘系统,以大语言模型为核心引擎,从不同类型实验中自动识别关键的实验条件并生成示例,在最大程度上减少人工提取以及结构化的工作量。

图2:多智能体大语言模型数据挖掘工作流程

具体而言,PharmaBench利用了三个自研大语言模型多智能体系统来提取和标准化ADMET数据:关键词提取智能体(KEA)、示例形成智能体(EFA)和数据挖掘智能体(DMA)。KEA从各种ADMET实验中识别并总结关键实验条件,EFA根据这些条件生成结构化示例,DMA则根据KEA总结的实验条件和EFA生成的示例,完成所有数据挖掘任务并进行标准化输出。

PharmaBench通过该多智能体系统分析了14,401种不同的实验信息并根据不同的ADMET实验类型确认了关键的实验信息,从而对数据进行了进一步的标准化和过滤程序,包括结构格式、实验条件和实验值的标准化,并去除异常分子和不规则实验的条目。

表2:PharmaBench数据集摘要

经过上述数据处理工作流程并结合人工智能建模,研究团队最终整合出涵盖52,482个条目的ADMET基准数据集,包含LogD、Solubility(溶解度)、BBB(血脑屏障)、PPB(血浆蛋白结合率)、CYP(细胞色素P450)、LMC(肝微粒体清除)、AMES等11种关键ADMET性质。

 

3. 技术验证

在数据集构建完成后,团队通过重复测试、属性分布、机器学习和深度学习模型训练等方法验证并评估了数据质量,结果显示出处理流程后数据质量的显著提高,确保了PharmaBench基准数据集的一致性和可靠性。

图3:通过重复测试和混淆矩阵对比处理前后的数据质量

(a)数据处理前的LogD实验重复测试图(b)数据处理后的LogD实验重复测试图

(c)数据处理前的BBB实验重复测试图(d)数据处理后的BBB实验重复测试图

图4:PharmaBench数据集的频率直方图

表3:PharmaBench上多个机器学习及深度学习模型表现(基于随机拆分)

4. 结论

该研究利用大语言模型多智能体的数据提取和整合能力,构建了更具代表性和应用价值的ADMET数据集基准PharmaBench。

 

论文链接

PharmaBench: Enhancing ADMET benchmarks with large language models