AlphaFold2 被超越,中国团队刷新全球蛋白质结构预测纪录
AlphaFold2 的纪录,刚刚被刷新了。
最新消息,全球持续蛋白质结构预测竞赛 CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind 旗下 AlphaFold2 的纪录被刷新。
HeliXonAI,一个此前名不见经传的"新面孔",加冕第一。同时,在全球结构预测领域主要评价指标 lDDT(Local Distance Different Test)中,HeliXonAI 跑分也高达 83.5 分,连续四周排名第一,远超第二名的 70.2 分。
HeliXonAI 由此一鸣惊人,成为圈内热议焦点。但随着幕后团队浮出水面,如此成绩又被认为情理之中。
因为打造团队华深智药,正是生物计算领域大牛彭健的创业公司,也是张亚勤旗下清华 AIR 智能产业研究院首个公开的孵化项目。
超越 AlphaFold2 的 HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持续蛋白质结构预测竞赛,由瑞士生物信息研究所和巴塞尔大学联合举办,与 CASP 被认为是结构预测领域最重要的两项比赛。
但不同于 CASP 的是,CAMEO 的参赛者需要每周预测 20 个由世界范围内的结构生物学家最新破解出结构的蛋白质的结构,比赛的得分与排名也会每周实时更新。该竞赛吸引了全球生物计算领域的最顶尖选手。
诸如华盛顿大学蛋白质设计研究所的 David Baker 教授研发的 RoseTTAFold,百度开发的 PaFold,和腾讯研发的 tFold 等模型,都在其中竞逐。而华深智药的结构预测平台 HeliXonAI,已经连续四周在主要评价指标 lDDT(Local Distance Different Test)上达到 83.5 分,持续排名世界第一。
在 CAMEO 的结果中,越靠右表示预测的结构越多,越靠上表示预测的结构越准…… 而现在,牢牢地占据最右上角的就是 HeliXonAI。
更令人惊喜的是,在上一周 CAMEO 发布的 17 个目标蛋白质上,HeliXonAI 的平均 lDDT 预测精确度,达到了 84.0-- 意味着对 AlphaFold2 的超越。
之前 DeepMind 团队公开的 AlphaFold2 模型预测精确度,评分在 81.9。并且在另一评价指标 TM-score 上,也有一致的结果。
HeliXonAI 以 91.6 的评分,同样超越了 AlphaFold2 的 85.6。相比 RoseTTAFold 和 PaFold 的 76 分,更是数量级上的超越。
此外,在最新一周的标注为"困难"(hard) 的 7 个蛋白结构中,HeliXonAI 更是进一步拉开差距,在 TM-score 上比第二名 Alphafold2 高出 6 分之多。总之,不同层面的数据结果都在说明,全球蛋白质结构预测的王座,易主了。
HeliXonAI 如何炼成?
众所周知,蛋白质在理解生命科学与药物开发中的地位举足轻重。为了执行特定功能,蛋白质必须折叠成对应的结构。然而,理解蛋白质的三维空间结构一直是生物学中的重大挑战,已经困扰生物学家 50 多年…
直到 2020 年由 DeepMind 团队开发的 AlphaFold2 模型,在第十四届国际蛋白质结构预测竞赛(CASP14)上,几乎达到冷冻电子显微镜等实验技术的准确度。一石激起千层浪,引领计算生物领域的标志性变革。
但 AlphaFold2 实际也并非完美,例如在同源信号较弱的情况下预测的误差较大,对于抗体可变区域的预测也精度欠佳。华深智药团队,也是看到了可改进之处,着手开发人工智能药物开发平台 --HeliXonAI。该平台囊括了包含蛋白质结构预测在内的一整套生命建模算法体系,将被用于承接包含抗体设计,靶点发现等诸多挑战性任务。
同时,HeliXonAI 的蛋白质结构预测算法在 AlphaFold2 的基础上,提出了诸多改进。比如数据上利用数据蒸馏引入了更为庞大的无结构氨基酸序列数据库,并且在模型上设计了新颖的进化调整(Evolutionary Calibration)模块实现了对多比对序列的信息较正。又比如对于空间坐标的优化,HeliXonAI 引入了几何平滑(Geometric Smoothing)模块,利用几何深度学习的特性,和近一千层的深度,不断地将坐标优化到正确位置上。
这 2 大全新的模块的加入,能够迭代式地修复同源序列对比中的误差并相应地对所有原子几何位置做出对应的调整,这样就能更为有效地解决同源信号弱的问题,并在原子级别的细节上做出更精准的预测。最终,在 8 块 A100 显卡上,经过连续接近 3 个多月的训练,HeliXonAI 实现了模型预测能力指标上对 AlphaFold2 的超越。
当然,需要指出的是,如此成果并非只是 3 个月的冲刺,背后还有华深智药团队的多年积累。
华深智药打造者?
彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,生物计算领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。
他在博士期间设计的著名算法 RaptorX 以及在 UIUC 任教期间设计的 DeepContact 算法,多次在 CASP 比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。
彭健也因此在 2016 年获得有"诺奖风向标"之称的斯隆研究奖,并于 2020 年获得计算生物领域最高奖奥弗顿奖(Overton Prize)。此前,奥弗顿奖获得者包括 David Baker,Trey Ideker 以及 Aviv Regev 等计算生物学领军人物,而彭健教授也是该奖项 20 年来的唯一华人得主。
今年 6 月,看到了领域内正在发生的质变,在张亚勤旗下清华大学人工智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。
创办伊始,华深智药就明确要打造新一代人工智能科学计算平台,并结合自研高通量生物实验技术,为研发人员提供微观世界分子计算、模拟与设计的智能系统。彭健明确,在新药开发领域,特别是大分子药物开发,华深智药希望用创新性地使用 AI 重构药物开发流程,从而极大程度上提高新药研发速度和效率。而 HeliXonAI 平台,就是华深智药第一阶段的成果。
并且 HeliXonAI 平台的产业应用,也已经开始展现,因为该平台集成了包含蛋白质交互,蛋白质动态建模,抗体关键区域建模,靶点查询,蛋白质设计等一整套生命建模流程体系……
于是在针对新冠病毒变异株的抗体设计和免疫逃逸位点检测等任务中,也能发挥作用。
据说,相关成果已经进入产业转换阶段了。
CAMEO 传送门:
https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04
2022-05-06 15:02:40