百度最新研究成果登上Nature子刊封面,文心生物计算大模型获国际顶刊认可!
10月,国际顶级学术期刊《自然》旗下子刊《机器智能》发表了百度飞桨螺旋桨联合百图生科研发的文心生物计算大模型的又一重大成果《A method for multiple-sequence-alignment-free protein structure prediction using a protein language model》,并登上《机器智能》10月份封面。该研究提出了全球首个开源、并提供在线服务,无需MSA输入的蛋白结构预测大模型HelixFold-Single。
该项研究是百度在生物计算领域继HelixGEM和Linear Design两项重磅工作之后,在蛋白领域的又一突破性成果。该工作打破了AlphaFold2等主流依赖MSA检索模型的速度瓶颈,将蛋白结构预测速度平均提高数百倍,实现了秒级别预测,该工作的发表也为产学研各界带来了使用门槛更低、适用范围更广的蛋白结构预测解决方案,有望促进我国生命科学、生物医药、蛋白研究等领域的发展。
HelixFold-Single目前已经落地在国家超算成都中心,通过超算平台赋能川渝地区蛋白领域的科学研究机构。在大分子药物的应用场景上,HelixFold-Single也已经整合进入百图生科AIGP平台,为百图提供更高效的蛋白分析能力,助力其探索大分子创新药。
另据研发团队介绍,基于HelixFold-Single和HelixFold研发过程中积累的经验,团队针对更具挑战性的抗原抗体、多肽蛋白的相互作用场景,研发了更具通用性和鲁棒性的复合体结构预测算法HelixFold-Multimer,相比业界同类方法,精度提升了数倍。
HelixFold-Multimer 在68例2022年10月后公开的Sabdab抗原-抗体测试数据上,单模型的DockQ达到0.49,多模型融合的DockQ达到0.5,成功率达到67.6%,远超其他已公开方法。
HelixFold-Multimer在抗原-抗体复合物结构预测的结果
在多肽-蛋白复合物结构预测场景,选取PDB数据库在2021年10月后发布的 61个多肽-蛋白复合体结构数据进行评估。单模型DockQ达到0.380,多模型融合的DockQ达到0.387,领先于其他结构预测方法。
HelixFold-Multimer 在多肽-蛋白复合物结构预测的结果
示例:
示例1:7VD7 沙门氏菌的毒素-抗毒素复合物,复合体构象预测可以帮助理解毒素和抗毒素如何相互作用以调节细胞内过程。Alphafold 2.3在红色圈部分预测差异大,而 HelixFold-Multimer 预测得到了准确的构象。
示例2:7UA2 疟疾传播阻断抗原Pfs230 domain 1 (Pfs230D1) 与纳米抗体的复合体构象,其中Pfs230D1是一种高功能活性的疟疾传播阻断疫苗抗原,已在临床试验中得到广泛验证。7UA2复合体包含了Pfs230D1疫苗接种的受试者产生的人源单克隆抗体(hmAbs)和Pfs230D1构象。可以看到 HelixFold-Multimer 预测的构象(蓝色)几乎与真值重合,对接面的预测 DockQ也达到0.819,Interface RMSD为0.826 Ȧ。
当前,AI大模型技术正驱动生物计算领域的高速发展。基于文心生物计算大模型技术打造的飞桨螺旋桨PaddleHelix平台,将帮助生命科学领域的研究人员更便捷、更高效地应用大模型技术,更好理解生命体的构成和变化规律,以帮助研究者进行更多开拓性研究。同时我们也深知,AI技术的更迭日新月异,想要全面领先,就需要集结大家的力量。我们希望探索出一种新形式,将强大的底座模型能力开放给国内的科研工作者们,以在更加广泛的维度上推动生物计算领域的技术变革。也希望对此工作感兴趣的专家学者与我们联系,共同推进生物计算大模型在应用侧的研究。
审核编辑:刘清
-
MSA
+关注
关注
0文章
31浏览量
8853 -
ai技术
+关注
关注
1文章
1275浏览量
24327
原文标题:首次!百度蛋白大语言模型研究成果登上Nature子刊封面
文章出处:【微信号:baidu_2000,微信公众号:百度】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论