2023年4月3日,德睿智药团队在Nature系列期刊《Communications Chemistry》发表了题为“Pharmacophoric-constrained heterogeneous graph transformer model for molecular property prediction”的研究论文。论文介绍了一种多视角异构图神经网络模型PharmHGT以及其在分子属性预测下游任务的应用,该模型表现较以往模型有显著提升,在多个数据集上均达到目前最优表现(State-of-the-Art,SOTA)。PharmHGT为德睿智药人工智能制药平台Molecule Pro的诸多原研AI模型之一。
然而,如何让AI模型更好地理解小分子的结构信息,是提高模型表现的瓶颈之一。既往的AI模型在基于图的分子表征中,大部分采用分子的“原子”和“键”作为图神经网络的“节点”和“边”,但忽略了药物化学中重要的官能团信息(药物分子空间分布中的最基本结构,即分子中与受体结合产生药效作用的片段)。为了得到更好的分子表征,德睿智药AI团队与药物化学团队创新性地将官能团信息引入AI预测模型,在算法设计上使PharmHGT不仅能学习小分子原子和化学键级别信息,还能学习到丰富的官能团信息。
在九个分子属性数据集上,PharmHGT模型性能表现较以往的SOTA(业界表现最优)模型以及预训练模型有显著提升,可提高AI药物设计的有效性,同时为该领域研究提供了一个新的Benchmark。
以下为PharmHGT模型细节以及实验结果:
1. PharmHGT模型构建
PharmHGT是一种多视角异构图神经网络模型。相较于被广泛使用的同构图,异构图涉及不同类型的节点和边之间的交互关系,能够提供更多的信息用于模型学习。PharmHGT由三个主要模块构成,即多视角分子图构建、不同节点和边的信息聚合(Message Passing)、通过注意力机制整合多视角分子图(Read-out)。
图1. PharmHGT框架图
在分子图构建过程中,首先利用BRICS对分子进行拆分,即将分子划分成含有官能团信息的片段,随后结合原子以及化学键的视角,构建一个包含两类节点和三类边的异构分子图(如下图)。
图2. PharmHGT模型-异构分子图
接着,基于Transformer架构,将上述异构分子图中包含的化学元素、化学键以及官能团信息转换为AI模型能够理解的语言,并经过消息传递过程,获得不断更新的异构分子图模型。随后,把官能团与节点之间的联系和反应信息聚合起来,并将这些信息与原子级特征结合在一起,形成分子的全局特征,即通过原子级(Atom-level)、官能团级(Pharm-level)、节点级(Junction-level)三层视图特征,得到分子的最终表示向量。在这个过程中,引入的注意力机制还能够帮助模型更加准确地区分不同分子特征的重要性,自适应地赋予更重要的特征以更高的权重,从而提升下游任务表现。
2. 实验结果
论文选择了9个基准分子数据集进行测试,其中包括用于分类任务的BBBP、BACE、ClinTox、Tox21、SIDER和HIV,以及用于回归任务的ESOL、Freesolv和Lipophilicity。
实验数据显示,相较以往AI模型,PharmHGT在所有数据集上都取得了更优的表现。
表:分类和回归任务实验结果
论文链接:
参考文献: