AI 预测 RNA 结构登上 Science 封面,论文一作已成立药物公司
AI 在生物学领域再次立功了。
今天,Science 封面刊登了 AI 在预测 RNA 分子结构上的重大进展。
来自斯坦福大学的研究团队,使用一种叫做 ARES 的几何深度学习,在预测 RNA 三级结构上达到了前所未有的准确度。
一个月前,AlphaFold 2 预测人类 98.5% 的蛋白质,惊艳了全世界。
但是与蛋白质相比,同样是生物分子的 RNA,人类对它的研究主要还停留在二级结构上,对三级结构知之甚少。
加州大学欧文分校的药物学家 Robert Spitale 说,我们对大部分 RNA 结构几乎一无所知。
一无所知到什么程度呢?
人类基因转录为 RNA 的数量是蛋白质数量的 30 倍。迄今为止实验已经确定了数千种蛋白质的三级结构,而人类测定三级结构的 RNA 不到蛋白质的 1%,大约只有几十种。
现在 ARES 已经预测了 1500 种 RNA 分子结构,从过去的将精度提高了 4Å 左右(1Å 等于 0.1 纳米),平均误差为 12Å,当相比之前的方法有了显著提升。
虽然和 AlphaFold 2 预测 35 种蛋白质相去甚远,也达不到原子级精度(大约 1Å),但这足以称为一项开创性研究。
因为斯坦福大学的科学家们的训练集只有 18 个结构数据,少得可怜,取得如此大幅的提升实属不易。
ARES 的出现,让 AI 预测 RNA 三级结构的细节成为可能。
论文的第一作者、斯坦福大学博士 Raphael Townshend 说:"结构生物学是对分子形状的研究,在生物学中有一句名言,即结构决定功能。"
因此,这项研究有助于科学家们去发现 RNA 的生物学功能,并为发现新型 RNA 靶向药物铺平道路。
为何要研究 RNA
为什么要研究 RNA 呢?
这与它在整个生命活动中发挥的重要作用离不开关系。
在生物体内,RNA 具有十分重要的细胞功能,包括合成蛋白质、催化反应、调节基因表达、调节先天免疫和感知小分子等。
一方面,RNA 是遗传信息表达的重要一环。
只有通过 RNA 的转录、翻译,DNA 中的信息才能在蛋白质中表达。
▲ RNA 转录
另一方面,RNA 还能调节一些重要生命活动。
核糖 RNA 可以催化肽链的生成,为转移 RNA 提供结合位点,参与核糖体大小亚单位的结合、校正阅读等等功能。
而且,参与遗传信息表达的 RNA 只占 RNA 总量的 20% 不到,这意味着有大部分遗传信息都还没有被表达出来。
还有一些病毒是以 RNA 作为遗传信息的载体,比如引起新冠肺炎的 SARS-CoV-2,就是一种 RNA 病毒。
因此,研究 RNA 是探索生命奥秘的必经之路。
除了研究层面,在实际应用上 RNA 能发挥的作用也越来越多。
依据致病基因的序列信息,科学家开发出了 RNA 药物、RNA 疫苗。
它们可以从基因层面就发挥作用,靶向抑制致病蛋白的表达,在医学领域具有非常广泛的应用前景。
RNA 研究难点在哪
结构生物学有一个信条,即结构决定功能,RNA 也不例外。
在知道 RNA 对生命活动发挥如此大作用后,科学家首先要做的,就是探究 RNA 的结构。
这也是 RNA 研究的一大难点。
不同于 DNA 稳定的双链结构,RNA 绝大多数情况下都以单链形式存在。
但是单链 RNA 可以通过折叠形成双链结构,再折叠形成三级结构。
而且 RNA 的糖环上有 3 个自由烃基,而 DNA 由于脱氧只有两个,所以 RNA 的化学性质也更加活泼,也就是更容易发生反应。
此外,RNA 还更容易被自己的分解酶降解。
这些原因使得 RNA 在实验过程中操作难度也更高。
事实上,到目前为止人类已知的 RNA 结构只有几十种。既然实验难以测定,所以科学家开始把目光放在了 AI 预测 RNA 结构上。
和 AlphaFold 2 的不同
近来深度学习技术的重大进展,往往都需要大量数据来进行训练。
但是可以给 ARES 预测的 RNA 结构只有 18 种,这些数据显然不足以使用传统方法。
斯坦福的科学家们想到了几何深度学习,开发了 ARES(Atomic Rotationally Equivariant Scorer)。
顾名思义,这种方法并非直接针对 RNA 的特殊情况,而是细化到分子中的原子,参数只给出原子坐标和元素类型。
ARES 被输入一小组已知 RNA 的真实结构,以及这些 RNA 的大量替代(不正确)结构。
在这个过程中,ARES 了解每个原子的功能、几何排列以及这些元素相互之间彼此定位。神经网络中逐渐从原子级小尺度学习到分子大尺度的特征。
就这样,ARES 一开始并不了解 RNA,随着训练过程的进行,它学会了 RNA 的碱基配对模式、RNA 螺旋的最佳几何形状。
接下来还有个问题,人类已知 RNA 种类太少,如何去评估 ARES 的预测未知 RNA 能力呢?
斯坦福大学的研究人员编制了一个基准数据集,包含七年来在结构预测竞赛 RNA-Puzzles 中获胜的作品。
根据 RNA-Puzzles 的规则,当科学家通过实验发现新的 RNA 结构时,他们不会公开细节,直到 RNA-Puzzles 参与者提交了他们的预测结果,然后将二者的结果进行对比。
经过测试集的检验,ARES 对 4 种 RNA 结构的预测全都达到了最高准确度。
接下来,科学家使用采样软件生成了至少 1500 个 RNA 结构模型。然后,他们用 ARES 和其他三种软件对模型进行预测。
当使用 ARES 时,有 62% 结果接近原生 RNA 模型(平均误差 < 2Å),而 Rosetta、RASP 和 3dRNAscore 分别只有 43%、33% 和 5% 的结果接近。
在 ARES 生成的 10 个最好模型中包括至少一个接近原生模型的有 81%,而 Rosetta、RASP 和 3dRNAscore 分别只有 48%、48% 和 33%。
虽然 ARES 还没有达到能精确预测靶点、辅助药物研发的精度,但研究人员说,他们的算法还有进步的空间。
未来,他们计划输入除原子坐标和元素类型之外的更多信息,增加信息或许能进一步提高 ARES 的性能。
通过与低温电子显微镜等实验数据结合,ARES 也可能得到进一步改进。
另外,本文的第一作者 Raphael Townshend 已经创立了一家生物学 AI 公司 Atomic AI,使用 AI 技术设计药物分子。
Townshend 刚刚在个人 Twitter 上发布了招聘信息,看来他是准备在 AI 药物领域大展拳脚了。
2022-05-06 12:07:32