生物学领域也有DALL-E 2 模型:大卫·贝克用AI为蛋白质生成精确设计

标签:生物AI
分享到:

最近,我们看到像 OpenAIDALL-E2这样的文本到图像的人工智能模型不断涌现。它们经过“特殊”训练,可以生成几乎任何你想要的图片,无论是怪异的,还是美丽的。由于表现亮眼,这些模型在时尚、电影制作等创意行业掀起了不小的热潮。

鲜为人知的是,这些项目背后的技术,同样也能应用在生物技术实验室中,而且潜力巨大。

这种技术被称为扩散模型(diffusion model),许多实验室已经开始使用这种生成式人工智能技术,尝试设计自然界中从未出现过的新型蛋白质。

(来源:STEPHANIE ARNETT/MITTR; ENVATO, ALPHAFOLD)

近日,有两个实验室先后宣布了各自的新项目,都是使用扩散模型来设计精确程度比以往任何时候都高的新蛋白质。

总部位于波士顿的初创公司 Generate Biomedicines 公布了一个名为 Chroma 的项目,该公司称其为“生物学领域的 DALL-E 2 模型”。

与此同时,由生物学家大卫·贝克(David Baker)领导的华盛顿大学团队也成立了一个类似的项目,叫做 RoseTTAFold Diffusion。

在最近发布的一篇预印本论文中,贝克和他的同事们表明,他们的模型可以为新的蛋白质生成精确的设计,然后在实验室中实现。

RoseTTAFold 的联合开发者之一布莱恩·特里佩(Brian Trippe)说:“我们生成的蛋白质与现有的蛋白质几乎没有相似之处。”

这些蛋白质生成器可以直接用于设计具有特定特性的蛋白质,譬如指定的形状、大小或功能。

实际上,这使得根据特定的任务来制作新的蛋白质成为可能。研究人员希望,这将最终帮助开发新的、更有效的药物。

“用数百万年进化得到的东西,我们可以在几分钟内发现,” Generate Biomedicines 的首席技术官盖沃格·格里戈里扬(Gevorg Grigoryan)说道。

位于美国马萨诸塞州的微软研究院的生物物理学家艾娃·阿米尼(Ava Amini)认为,这项工作最值得注意的一点是,可以根据“想要的限制条件来生成蛋白质”。

(来源:GENERATE BIOMEDICINES)

蛋白质是生命系统的基石。在动物身上,它们控制着消化食物、收缩肌肉、探测光线、驱动免疫系统等等。当人们生病时,蛋白质也会起到一定的作用。

因此,蛋白质是药物开发的重点关注对象。今天的许多最新药物,本身都是基于蛋白质的。

“大自然里的各种东西都在使用蛋白质,”格里戈里扬说,“用它提供治疗干预的前景真的很巨大。”

但药物设计者目前只能使用由天然蛋白质组成的“设计列表”,而用计算机模型生成更多蛋白质的目标是,将这个列表扩展到几乎无限大。

设计蛋白质的计算技术并不新鲜,但是以前的方法在设计大型蛋白质或蛋白质复合物方面进展缓慢。蛋白质复合物可以被理解成,由多个蛋白质偶联在一起组成的分子机器,而这些蛋白质通常对治疗疾病至关重要。(来源:IAN C HAYDON / UW INSTITUTE FOR PROTEIN DESIGN)

(来源:IAN C HAYDON / UW INSTITUTE FOR PROTEIN DESIGN)

最近宣布的这两个项目,并非人们第一次尝试使用扩散模型来生成蛋白质。

在过去的几个月里,由 Amini 等人开展的一系列研究表明,扩散模型是一种很有前途的技术,但他们都属于概念验证的原型。

Chroma 和 RoseTTAFold Diffusion 则是建立在这些研究成果的基础上,他们是第一个成熟的、可以产生各种精确设计的蛋白质的程序。

南拉塔·阿南德(Namrata Anand)在 2022 年 5 月共同开发了蛋白质生成的第一个扩散模型,他认为 Chroma 和 RoseTTAFold Diffusion 的重要意义在于他们采用了这项技术并扩大了它,使其能在更多的数据和计算机上进行训练。

她说:“这开始越来越像 DALL-E,因为他们已经扩大了规模。”扩散模型是经过训练的神经网络,可以从输入中去除数据中的随机干扰,也就是所谓的“噪声”。给定随机的像素点,扩散模型可以将其变成可识别的图像。

在 Chroma 中,噪声是通过解开由蛋白质组成的氨基酸链而添加的。给定这些链的随机簇,Chroma 会试图将它们放在一起形成一种蛋白质。

在对结果的特定约束的指导下,Chroma 可以生成具有特定特性的新蛋白质。

贝克的团队则采用了一种不同的方法,尽管最终的结果是相似的。该团队的扩散模型从一个更混乱的结构开始。

另一个关键的区别是,RoseTTAFold Diffusion 利用了关于蛋白质片段如何结合的信息,该信息由一个单独的、被训练来预测蛋白质结构的神经网络提供(就像是 DeepMind的AlphaFold所做的那样)、它指导了整个蛋白质生成过程。

Generate Biomedicines 和贝克的团队都展示了一系列令人印象深刻的成果。他们能够产生具有多种对称性的蛋白质,包括圆形、三角形、六边形的蛋白质。

为了证明其程序的多功能性,Generate Biomedicines 生成了形状像 26 个拉丁字母和数字 0 到 10 的蛋白质。这两个团队还可以生成蛋白质片段,将新的部分与现有的结构相匹配。

这些演示中展示的蛋白质结构在实践中没有任何作用。但是,因为蛋白质的功能是由其形状决定的,所以能够根据需要产生不同的结构是至关重要的。

在电脑上产生奇怪的设计是一回事,而把这些设计变成真正的蛋白质则是另一回事,后者才是最终目标。

Generate Biomedicines 提取了一些设计的序列,去组成蛋白质的氨基酸串,并通过另一个人工智能程序执行。

他们发现,其中 55% 的蛋白质被预测会折叠成由 Chroma 产生的结构,这表明这些蛋白质设计是可行的。

贝克的团队也进行了类似的测试,他们在评估其模型方面比 Generate Biomedicines 做得更多。

他们在实验室里制造了一些 RoseTTAFold Diffusion 的设计。对此,Generate Biomedicines 公司表示,它也在进行实验室测试,但还没有准备好公开结果。

“这不仅仅是概念的证明,”特里普说,“我们实际上是在用它来制造非常好的蛋白质。”

对贝克来说,最重要的结果之一是产生了一种新的蛋白质,它可以附着在甲状旁腺激素上,这种激素控制着血液中的钙水平。

他说:“我们基本上只将甲状旁腺激素作为了模型的输入,而没有其他东西,然后告诉它制造一种可以与该激素结合的蛋白质。”

当在实验室里测试这种新蛋白质时,他们发现它与激素的结合比使用其他计算方法产生的任何蛋白质都更紧密,而且也比现有的药物更紧密。贝克说:“我们的模型是凭空想出这种蛋白质设计的。”

格里戈里扬承认,发明新蛋白质只能算是第一步。“我们是一家制药公司,”他说,“本质上,我们最关心的是能否制造出有效的药物。”

以蛋白质为基础的药物首先需要通过量产这一关,然后在实验室中进行测试,最后才能在人体上进行测试。这可能需要数年时间。但他认为,他的公司和其他人会找到加快这些步骤的办法。

贝克说:“虽然科学的进步是断断续续的,但现在的我们正处于一场所谓的‘技术革命’之中。”

继续阅读
AI时代可能来的有点早,这些职业危险了!

《流浪地球2》中的550系列量子计算机给人印象深刻,能在极短的时间内以人类无法比拟的效率完成巨大的行星发动机的3D打印工作。甚至,还进化出了人工智能:MOSS。

“裁掉人工,雇佣AI”,ChatGPT开始替代人类

只要在ChatGPT的聊天框里把自己的写作需求告诉AI,等上几十秒后,一篇整合大数据、纯原创、观点鲜明的文章就新鲜出炉了。

AI时代下,设计行业的未来

AI人工智能正在越来越多领域中被应用,那么除了AI绘画,在设计领域里,AI人工智能还能在哪些领域发挥功能?在本篇文章里,作者便发表了他的看法,对AI未来在设计领域可发挥的作用进行了总结,一起来看一看吧。

生成式AI已掀起浪潮,但还没走出伦理困境

近来,AIGC(生成式人工智能)火了、而且是爆红。在《Science》此前发布的2022年度科学十大突破中,AIGC就赫然在列,并且在诸多大厂、相关机构的2023年科技趋势预测中,AIGC也成为了继NFT、元宇宙、Web3之后,俨然又一个“出圈”的风口。

当AI不再是人工智障,人工智能会取代人类吗?

无论是“小破球”中的Moss,还是最近爆火的ChatGPT,既让人对人工智能的前景充满浪漫想象,同时也令人对其细思极恐。

精彩活动