
编辑丨&
蛋白质工程向来是生物学领域中不可忽视的一项重要领域,其中蛋白质设计关系到药物开发与酶工程等多种极具潜力的应用领域。
相较于传统设计策略,研究员或许更为眼馋如 AI 文生图这种大众化设计,直接告诉 AI 自己需要什么蛋白质,让 AI 去生成就行。而现在,上海交通大学的一支团队就成功开发出了一种全新细粒度多模态数据交互框架 ProtDAT,能够根据描述性蛋白质文本输入设计蛋白质。
该研究以「Ab-initio amino acid sequence design from protein text description with ProtDAT」为题,于 2025 年 11 月 26 日发布在《Nature Communications》。
展开剩余74%论文链接:https://www.nature.com/articles/s41467-025-65562-w
从「文本描述」到「蛋白序列」
用过 AI 生图的大家大概可以想象这么一个画面:在纸上写下一句话,描述想要的蛋白,比如 「一个能在 37°C 下稳定、对 pH 7.4 敏感、有较强亲水界面的酶」,然后点击「生成」。几秒钟后,一串氨基酸序列出现——这可能是一种全新的蛋白。
这大概就是对 ProtDAT 比较亲切的一种描述。学术界以往的成果表明,从文本中生成蛋白质序列是可行的。受大语言模型启发,团队就一个基于任何指定文本描述训练数据集生成蛋白质序列的蛋白质设计框架,在模态融合解码器层设计了多模态交叉注意力机制(MCM),用于实现不同模态信息的细粒度蛋白质序列-文本交互。
图 1:ProtDAT 的概述。
这让 AI 能把「人类对功能的文字描述」直接映射到「分子级别、可编码的蛋白序列空间」。鉴于 ProtDAT 是一个从头开始训练的框架,这也让它解决了 PLMs 在蛋白质序列生成中因蛋白质描述文本指导不足而存在的重大问题。
ProtDAT 提出了一种新的交叉注意力机制,即 MCM,专门设计用于处理综合信息,为蛋白质设计提供直观、符合人类逻辑的路径。它将两种不同模态的交互集成在单个模型中,从基础层面建立更稳定的链接。
在 ProtDAT 框架内对瑞士蛋白数据库 Swiss-Prot 中的 20,000 对文本序列进行实验,结果表明其准确度高于实验中最佳方法的性能,pLDDT 提高了 23.34%,TM-score 提高了 76.45%,RMSD 降低了 24.41%。
MCM 测试表现
既然 ProtDAT 提出了一种全新的机制 MCM,那就来关注一下它的作用与实际测试结果。
图 2:ProtDAT 性能的综合评价。
团队观察到,随着序列长度的增加(最大至 500),平均注意力权重也在变化。标示蛋白质提示贡献度的数据虽然也在下降,但序列长度达到 1000 后,这个值稳定在了约 20%。这进一步证明文本描述在生成早期阶段确保了对关键氨基酸标记的准确指令,并在蛋白质序列增长时继续提供方向性支持。
这说明 MCM 解决了现有方法中蛋白质描述文本指导不足的问题,促进了多模态整合。而在消融实验中,ProtDAT 在多个评估维度上相较于 ProtDAT(不含 MCM)取得了显著改进。蛋白质序列与结构评估前者全面碾压后者;亚细胞定位里 MCM 的数据提升更明显;在功能相似性检索里返回值与检索指标也更为优秀。
文字生成蛋白质
论文用设计远程同源蛋白质序列、生成有天然蛋白质特征的序列等案例揭示了 MCM 这个新型注意力机制的优秀性能。实验结果表明,ProtDAT 生成的蛋白质序列有效地整合了文本信息,在结构合理性、功能性和结构相似性方面取得了显著性能,pLDDT 平均提高了 18.65,0.TM-score 提高了 26,RMSD 减少了 1.2 Å。
团队计划利用更广泛的标注蛋白质数据集扩展 ProtDAT 的语言能力,并采用不同领域的训练数据集来扩大其覆盖规模。相关研究可于 Github 获取。
相关链接:https://github.com/GXY0116/ProtDAT稳操胜券配资
发布于:河北省道正网配资提示:文章来自网络,不代表本站观点。