近日,「德睿智药」团队发布全球最大单性质ADMET开源数据集PharmaBench。研发团队结合大语言模型多智能体技术,构建了涵盖11种关键ADMET性质共52,482个数据条目的大型数据集,该研究近期发表于Nature旗下期刊Scientific Data。
目前,「德睿智药」自研的ADMET性质预测平台ADMET Ranker™已基于大语言模型完成迭代升级,在第三方独立验证中,多个成药性指标的预测任务表现均达到当前最优。
以下为研究概况、数据与方法、技术验证与结论:
1. 研究概况
在药物发现早期阶段,准确预测并优化分子的ADMET(吸收、分布、代谢、排泄和毒性)特性至关重要,有利于提高后期临床成功率并成功研发新的治疗药物。然而现有的ADMET基准数据集普遍数据量小,且与药物研发管线中常用化合物类型区别较大,在实际工业场景应用中效用受限。公开的ADMET实验信息虽然数量众多但是由于实验条件的不统一清洗难度大,未经清洗的数据直接进行建模的预测效果差。
基于此,本研究团队研发了一种AI大语言模型驱动的多智能体数据挖掘系统,对公开数据集进行数据提取、标准化处理、数据类型过滤及严格验证,通过多智能体系统分析了14,401种不同的实验来源的信息,最终构建了一个全面可靠的ADMET性质基准数据集PharmaBench,涵盖11种关键的ADMET性质共52,482个数据条目,是当前对应性质在药物研发领域可用的最大、最具多样化的ADMET数据集。与其他数据挖掘的方法相比,「德睿智药」自研的多智能体数据挖掘系统有着准确率高、所需人力少、挖掘范围广等显著优势,可以快速完成大规模不同种类的数据挖掘工作。
图1:构建PharmaBench的数据处理流程
2. 数据与方法
表1:PharmaBench数据来源
研究团队将ChEMBL数据库作为主要数据来源,从中提取并整合了来自14,401种不同实验来源测定的97,609个原始数据条目,并选取其他相关公共数据集进行扩充,累计整合共156,618个数据条目。团队随后建立了一种多智能体大语言模型数据挖掘系统,以大语言模型为核心引擎,从不同类型实验中自动识别关键的实验条件并生成示例,在最大程度上减少人工提取以及结构化的工作量。
图2:多智能体大语言模型数据挖掘工作流程
具体而言,PharmaBench利用了三个自研大语言模型多智能体系统来提取和标准化ADMET数据:关键词提取智能体(KEA)、示例形成智能体(EFA)和数据挖掘智能体(DMA)。KEA从各种ADMET实验中识别并总结关键实验条件,EFA根据这些条件生成结构化示例,DMA则根据KEA总结的实验条件和EFA生成的示例,完成所有数据挖掘任务并进行标准化输出。
PharmaBench通过该多智能体系统分析了14,401种不同的实验信息并根据不同的ADMET实验类型确认了关键的实验信息,从而对数据进行了进一步的标准化和过滤程序,包括结构格式、实验条件和实验值的标准化,并去除异常分子和不规则实验的条目。
表2:PharmaBench数据集摘要
经过上述数据处理工作流程并结合人工智能建模,研究团队最终整合出涵盖52,482个条目的ADMET基准数据集,包含LogD、Solubility(溶解度)、BBB(血脑屏障)、PPB(血浆蛋白结合率)、CYP(细胞色素P450)、LMC(肝微粒体清除)、AMES等11种关键ADMET性质。
3. 技术验证
在数据集构建完成后,团队通过重复测试、属性分布、机器学习和深度学习模型训练等方法验证并评估了数据质量,结果显示出处理流程后数据质量的显著提高,确保了PharmaBench基准数据集的一致性和可靠性。
图3:通过重复测试和混淆矩阵对比处理前后的数据质量
(a)数据处理前的LogD实验重复测试图(b)数据处理后的LogD实验重复测试图
(c)数据处理前的BBB实验重复测试图(d)数据处理后的BBB实验重复测试图
图4:PharmaBench数据集的频率直方图
表3:PharmaBench上多个机器学习及深度学习模型表现(基于随机拆分)
4. 结论
该研究利用大语言模型多智能体的数据提取和整合能力,构建了更具代表性和应用价值的ADMET数据集基准PharmaBench。
论文链接:
PharmaBench: Enhancing ADMET benchmarks with large language models