全球尼帕病毒binder设计大赛揭榜,幻觉模型「爆冷」称霸de novo赛道
如果你拥有一台超级计算机和最先进的AI,你会选择“重新发明轮子”,还是把现有的轮子打磨得更圆?
最近结束的全球尼帕病毒(Nipah Virus)蛋白质设计大赛,给出了一个充满戏剧性的答案:有人靠“魔改”大自然拿了总冠军,而有人用几百行代码和“小众”技术,羞辱了风头正劲的扩散模型。
1
致命病毒与全球极客的对决
本次竞赛的对手是尼帕病毒(Nipah virus)——一种致死率高达40%至75%的病原体。它被WHO列为优先研究对象,至今尚无特效药。
Adaptyv Bio发起的这项挑战赛目标简单而硬核:设计一个全新的蛋白质,能够死死“咬住”尼帕病毒表面的G糖蛋白(NiV-G),并阻断其与人Ephrin-B2/B3受体的结合,使病毒无法打开人类细胞的大门。
这场战役吸引了全球680多名计算生物学家和AI极客,累计提交了超过10,000个设计方案。最终,Adaptyv Bio挑选了1,200个分子进入湿实验环节,真刀真枪地测试AI的设计能力。
2
战报
AI解决了“折叠”,但卡在了“功能”
实测数据的公布,给狂热的AI生物学泼了一盆冷水,也带来了一丝希望。
表达已基本解决:令人欣慰的是,86%的设计(881个)在实验室中成功表达。这证明AlphaFold时代的模型已经彻底搞定了“如何设计一个稳定存在的蛋白”。
结合是重大挑战:但在功能性上,现实很骨感。仅有9.6%(99个)的蛋白显示出与病毒靶点的亲和力。从“稳定”到“有用”,中间仍有一道巨大的鸿沟。
中和并非易事:结合只是第一步。在对亲和力最强的16个分子进行的竞争性实验中,50%的分子未能阻断病毒与人类受体的结合。也就是说,它们虽然能“粘”在病毒上,但没能挡住病毒入侵的路。仅6个分子与Ephrin-B2蛋白发生完全竞争。
特异性基本达标:好消息是,所有测试分子均未与人血清白蛋白(HSA)发生非特异性结合。AI已经学会了“指哪打哪”,不再乱枪打鸟。
尽管结合率不到一成,但顶尖选手的表现依然惊艳。InstaDeep员工Miles McGibbon的冠军设计,亲和力达到了恐怖的370 pM,且具备完全的中和能力。
然而,正是这个冠军设计,在社区里引发了一场关于“原创性”的激烈辩论。
3
冠军风波
“抄袭”自然,“理性设计”的胜利?
当InstaDeep的冠军设计序列公布后,眼尖的同行立刻发现了“华点”。
生物科技专家Sharrol Bachas在领英上率先“开炮”。他将冠军序列与PDB数据库中的2VSM(即尼帕病毒的天然受体Ephrin-B2)进行了比对,结果令人咋舌:
“相似度高达91%,只是缩短了一个Loop环。”
Sharrol直言不讳地指出:“这是有人第二次在binder设计比赛中通过改造阳性对照(Positive Control)拿走第一名了。我觉得应该取消那些与阳性对照高度相似的参赛资格。Ephrin-B2本身就有60 pM的超强亲和力,稍微改改就能拿奖,这不意外,但很无趣。”
编者注:上次Adaptyv Bio蛋白设计大赛的冠军是Cradle,也由阳性分子改造而成。
这引发了社区的疯狂吃瓜和站队:
“实用”派:阿斯利康的Leonardo Castorina评论道:“这确实有点‘鸡贼’,但比赛规则只限制了(与已知序列的)最小距离,他们确实没违规。”既然天然受体本身就能结合,基于它进行优化本来就是最稳妥的策略。他认为之后的比赛单独设一个“从头设计”赛道会更公平。
“嘲讽”派:Lior Zimmerman的评论则饱含对“从头设计”算法亲和力不尽人意的讽刺。:“真滑稽。一个AI公司竟然不靠生成式AI、而是靠‘理性设计’(Rational Design)赢了比赛。这是否说明AI从业者们自知,从头设计其实不如传统蛋白质工程靠谱?”
虽然“魔改”版天然蛋白拿了总榜第一,但在大家最期待的“从头设计(De Novo)”——即不依赖天然模板,完全由AI凭空创造蛋白质的赛道上,真正的黑马出现了。
而这位黑马的武器,竟然是被很多人认为已经“过气”的小众技术——幻觉模型。
4
从头设计赛道爆冷
“幻觉”击败“扩散”夺魁
在本次大赛的从头设计(De Novo)组别中,Nick Boyd(Escalante Bio联创)展现了绝对的统治力,包揽了该类别的前三名,其最佳设计亲和力达到了1.4 nM。最让人跌破眼镜的,不是他赢了,而是他如何赢的。
在当今的蛋白质设计界,以RFdiffusion、BoltzGen为代表的扩散模型是绝对的顶流。大家都认为,要设计新蛋白,首选是用扩散模型生成结构、用MPNN设计序列、再用折叠模型验证序列-结构一致性。然而,Nick Boyd反其道而行之,使用了一种被称为“幻觉”(Hallucination)的方法。
PXDesign技术报告显示,扩散模型产生有效样本的效率远高于幻觉模型,但Nick却用极低的成本赢得了比赛。据他透露,他仅用Modal平台为本次大赛提供的$500免费算力额度就完成了binder设计的所有步骤(大约80 GPU-hours)。这是怎么做到的呢?
Nick的“夺冠秘籍”极简到令人发指:
无需模型训练:Nick没有训练庞大的生成模型,而是直接利用了预测模型(Boltz-2)的梯度来优化binder的序列。简单来说,就是把随机的一串其实序列,扔给Boltz-2预测结构。如果Boltz-2觉得它能结合病毒,就保留;如果不行,就顺着梯度的方向修改序列。不断重复,直到Boltz-2“确信”这个序列能结合病毒。这是“幻觉”模型的基本原理。
“内化”序列生成:传统“幻觉”计算流程,在结构生成后仍然需要序列设计+筛选的步骤(见上图)。这要求设计者先设计大量的结构和序列,再通过多种打分模型进行筛选过滤,计算量较大。Nick直接将“序列设计”这一步内化到了“幻觉”模型中,他将逆折叠损失项加入到了幻觉目标中,让序列朝着“逆折叠后与自身差距更小”的方向移动。这样一来,模型想象出的序列就不再需要经过逆折叠,而可以直接进入筛选阶段。
极简打分模型:BindCraft、BoltzGen等模型的代码库中堆放着令人眼花缭乱的各种过滤函数,而Nick只用了最简单的两个指标进行打分筛选:(1)refolding ipTM ipSAE;(2)单体和复合物折叠后结构的一致性。
为什么“幻觉”赢了?
Nick在他的技术博客中深入分析了他的“幻觉”设计流程在本次比赛中拔得头筹的原因。
优化vs采样:扩散模型本质上是在学习蛋白质的分布。它的目标是生成“看起来像真实蛋白质”的结构。而幻觉模型(Hallucination)本质上是在做优化。它的目标非常功利,紧紧围绕主办方公布的核心标准——Boltz-2 ipSAE(这项打分最高的分子会被挑选进入湿实验)。这就好比在艺术生的入学考试中,幻觉模型能直接根据阅卷老师的喜好调整画作,即使最终作品在艺术家眼里会有些普通甚至怪异,但只要能踩中得分点,就是胜利。
不指定结合表位+设计大binder:在几乎所有人选择在设计时指定结合表位时,Nick选择了不指定表位,让模型将分子结合到它最有信心的位置;同时,他还调大了分子长度,使分子尽可能接触靶点上更多氨基酸。Nick设计的分子结合到了NiV-G的茎部(stalk domain)而非负责与Ephrin-B2互作的头部(head domain)。这里的卷曲螺旋(coiled-coil)表面积大、在PDB中常见,非常适合进行AI设计。
编者注:正是因为没有指定结合表位,Nick设计的蛋白未能通过(0/2)中和实验。为实现特定的生物功能,指定表位进行设计仍然是非常重要的。
5
结语:AI制药的祛魅时刻
这场尼帕病毒挑战赛,就像一次AI制药的“祛魅”仪式。
它告诉我们:
不要神话“从头设计”:在现阶段,基于现有高亲和力蛋白进行微调(冠军的策略),依然是获得高亲和力分子最稳妥的路径。
不要迷信“最新模型”:在特定场景下,简单的逻辑+对底层原理的理解(Nick的策略),比盲目套用最时髦的模型更有效。
比赛虽然已经落幕,但关于“模仿”与“创造”、“采样”与“优化”的争论,才刚刚开始。
参考资料:
1.https://www.linkedin.com/posts/adaptyvbio_the-results-of-the-nipah-protein-design-competition-activity-7419986040251355136-Aar2/
2.https://blog.escalante.bio/winning-the-de-novo-portion-of-the-adaptyv-nipah-binder-competition/
3.https://blog.escalante.bio/180-lines-of-code-to-win-the-in-silico-portion-of-the-adaptyv-nipah-binding-competition/
作品展示详见(复制以下链接进浏览器查看):
https://mp.weixin.qq.com/s/tFqwAkrdEYKV8DQCeKt6gw
苏公网安备32021402002828