新闻

AI大模型驱动的智能化学结构分割框架ChemSAM

2024-03-20

近日,「德睿智药」与帝国理工学院的合作论文“Automated molecular structure segmentation from documents using ChemSAM”发表在国际顶级化学信息学期刊Journal of Cheminformatics上。研究团队开发了一种基于深度学习的高性能化学结构分割模型ChemSAM,利用大模型框架从化合物的图形表示中识别其结构。该模型在公开基准数据集和实际任务上取得了当前最优效果,能够高效提取期刊文献以及专利中的化学结构。目前,ChemSAM已成功应用于「德睿智药」内部PROTACT数据库以及PharmKG平台项目研发,加速高质量化学信息收集。

以下为研究概况、数据与方法、实验结果与结论:

 

1. 研究概况

准确且高效的数据收集是高质量AI药物研发模型研发的基础。传统的人工方法从专利以及科学文献中提取化学结构往往耗时且易错。2023年,通用的图像分割基础大模型SAM(Segment Anything Model)问世并备受瞩目,该模型能够分割给定自然图像中的任何目标。如图1所示,本文研究团队提出的ChemSAM模型通过引入领域知识理解,将SAM模型能力成功扩展至化学领域,在实现化合物结构精准提取的目标上取得了重要突破。

图1. ChemSAM分割过程 (A)原始页面(B)初始检测阶段输出结果(C)后处理步骤

2. 数据与方法

  • 模型架构

图2. ChemSAM模型概览

ChemSAM模型由三部分架构而成:图像编码器、提示编码器和掩码解码器。如图2所示,图像首先经过2D卷积和12层编码器块处理,每层均集成化学知识的适配器,随后利用预训练的视觉变换器(ViT)和遮蔽自编码器(MAE),通过额外的卷积和规范化步骤完成图像嵌入。掩码解码器则结合图像和提示嵌入,利用变换器模型和动态掩码预测头在像素级映射掩码。为了细化识别,团队还引入了特定的适配器模块而非完全微调,通过一系列下投影、激活和上投影操作,最终通过Sigmoid函数进行概率化处理,准确指示出化学结构的像素。

  • 数据集和训练

基于SAM-B的ChemSAM模型已在包含超过10亿掩码和1100万张图像的SA-1B数据集上进行了训练。在此基础上,研究团队自行收集了合成数据,以进一步优化模型的自动化化学结构识别能力。这些数据包括从专利和学术数据库中获取的PROTAC相关文献,共筛选出550个无化学结构的文档页面。分子数据来自于从美国专利商标局(USPTO)和ZINC15数据库中选取的类药分子。同时,研究团队还从文献中收集了8764个非分子结构的图像作为负样本,以模拟真实的页面布局。图3展示了训练数据中的一个示例。

图3. 合成页面和掩码页面的训练示例

  • 后处理

在ChemSAM分子结构分割过程中存在三个主要问题。第一,化学结构通常显示在表格中,表格线有时会与化学结构重叠,ChemSAM可能误将表格线视为分子结构的一部分。为此,研究团队使用霍夫变换移除了图像和预测掩码中的长直线。

第二,预测掩码可能未完全覆盖原始化学结构,导致覆盖不完整或增加多余掩码。团队就此开发了一种自定义掩码更新算法。具体来看,团队首先对图像进行自适应阈值二值化,然后应用膨胀处理来连接间隙。接着以膨胀掩码为起点,进行掩码的添加和删除,以捕获完整的分子结构。如图4所示,通过对掩码和像素页的覆盖,对初始点对应的像素进行迭代检查,收集邻近的黑色像素直至没有更多。这一步骤确保了掩码准确反映分子结构。最终通过移除过小的区域并对掩码进行精细调整,从原始输入中裁剪出单个结构的图像。

 图4. 掩码更新过程

第三是误报检测。在一些特殊情况下,ChemSAM无法识别并分离非化学部分,这可能是由于合成训练数据集中缺乏类似数据。为此,研究团队开发了一个内部过滤模型,将分割结果作为输入来确定图像是否代表化学结构。

3. 实验结果

研究团队评估了MolMiner-ImgDet、DECIMER和ChemSAM在化学结构分割上的性能,考虑因素包括分割完整性和结构识别准确性。如图5所示,MolMiner在单个分子分割上存在不足,有时将多个分子错误分组。相比之下,DECIMER在分割稳健性上表现更好,但也存在识别错误的问题,如将手性氢误识为甲基。而ChemSAM展现出精准的分割能力,正确识别了分子结构及其相关标签。

图5. 期刊页面扫描案例

为了系统评估模型从专利和论文中进行结构分割的能力,研究团队还构建了一个化学结构数据集作为测试基准,对DECIMER和ChemSAM进行了比较评估。如图6所示,ChemSAM以98.43%的高准确率显著超越DECIMER的90.15%,展示了其在化学结构分割完整性方面的优势。DECIMER在识别过程中存在2.54%的冗余,可能影响数据的准确录入。在识别彩色背景下的化学结构时,ChemSAM的表现比DECIMER高出近10%。此外,ChemSAM在识别专利中的马库什结构和分割3D分子图像方面也展现出显著优势,能够直接在像素级预测掩码并识别化学结构。

图6.  基准数据集的直方图统计结果

图7.  彩色分子结构图像检测与分割

图8. 3D分子结构图像检测与分割

4. 结论

论文研究团队提出了一种基于深度学习和视觉变换器模型的化学结构分割方法ChemSAM。该模型在基准数据集上表现出卓越性能,能够从复杂文本源中自动化准确分割化学结构。这一创新解决方案有望广泛应用于化学信息学多个领域,推动化学结构识别的高效准确化,加速创新药物研发。

 

论文链接:

Automated molecular structure segmentation from documents using ChemSAM