[AI]AlphaFold2
基于AI的抗体药物设计
在抗体药物的开发流程中,人工智能可以做什么?
一、抗体序列/结构数据库
抗体药物开发中,通常需要考虑抗原靶向能力和功能特性,包括抗原结合能力、靶向特异性、生物效力和可开发性,这些能力和性质由抗体序列和结构决定。因此,掌握抗体序列、结构及其相关性质的信息对新型抗体的设计是非常有用的。
抗体由重链和轻链组成,每个链由多个基因片段(V、D和J片段)编码,这些片段通过V(D)J重组拼接成完整的抗体序列。据估算,人体B细胞可产生10的13次方个独特的抗体序列。基于已有的抗体药物信息和测序获得的抗体序列信息以及抗体结构数据,目前已建立了各种各样的公开的数据库。例如数据库OAS收集了20亿条抗体可变区的序列,SAbDab囊括了所有的公开的抗体结构数据,PIRD收集了大量的T细胞与B细胞受体序列信息,AbDb包含了大量从数据库RCSB PDB与SACS中提取的Fv区域的结构信息,Thera-SAbDab可提供WHO发布的抗体与纳米抗体治疗药物的结构信息,SKEMPI可提供抗体突变引起的自由能变化数据,AB-Bind可提供抗体结合自由能变化数据,Cov-AbDab是一个聚焦冠状病毒靶向抗体的数据库。
二、抗体性能预测
这些数据库为基于人工智能的抗体性能预测提供了可能,如特异性运亲和性的预测,可开发性的预测(包括免疫原性、可溶性、聚集倾向、粘度、半寿期等)。目前已建立了一系列的生物信息学平台,如AbDiver可以将设计的抗体序列与抗体数据库中的天然抗体进行比较,从而指导抗体药物的开发;TAP是一个评估抗体药物理化性质的生物信息学平台;Camsol与SOLart可以评估抗体的可溶性;SOLart与AGGRESCAN 3D可用于评估抗体的聚集性;IEDB-AR是一个预测与分析抗体药物免疫表位的平台;Hu-mAb可以区分人源与非人源的Fv片段;而BioPhi更是一个综合性的抗体分子设计与人源化评估的生物信息学平台。
三、基于AI的抗体药物设计
基于深度学习的抗体结构模拟
抗体结构信息对于理解设计抗体的特性(如特异性和亲和力)至关重要,抗体分子六个CDR中的五个(H1、H2、L1、L2和L3)的结构多样性受到限制并且通常遵循规范构象;相反,CDR-H3环具有很高的构象多样性,即使在序列相似性很高的情况下也是如此,因此,CDR-H3建模是一个受约束程度明显较低、更困难的问题。
基于实验的抗体设计通常会产生大量的抗体序列信息,但是对每一个新设计的抗体进行结构测定是不现实的。从这个角度,基于计算的抗体结构预测大有用武之地。对于抗体结构预测来说,传统的基于物理的模拟方法有分子动力学模拟与同源模建,或者是二者的结合MODELLER。如今,计算机辅助的深度学习模型也应用于抗体结构模拟中。如ABodyBuilder是一种自动化抗体同源性建模平台,遵循四个步骤(模板选择、定向预测、CDR环建模和侧链预测)进行抗体结构的预测。ABlooper基于图形神经网络,可以直接处理结构文件中的三维坐标数据,以预测六个CDR环的所有骨架原子的位置。来自Gray组的DeepAb可以预测抗体的不变特征,然后基于Rosetta重建结构。DeepAb在H3环预测方面达到了2.33Å的精度,而ABlooper和ABodyBuilder分别实现了2.49Å和3.25Å的精度。但是DeepAb基于Rosetta原理,预测速度比较慢(10分钟1个结构)。而Gray组开发的基于蛋白质语言的IgFold,可达到1分钟1个结构的预测速度。
尽管这些结果显示了抗体结构分子建模的显著进步(主要由深度学习技术驱动),但仍需要更多的工作,并且抗体/抗原复合物结构的可靠建模仍然是一个未解决好的问题。尤其是,CDR-H3环的建模仍然是一个挑战,因为生物学家已经发现,有时序列相似的CDR-H3环具有迥异的分子结构。在蛋白质结构预测领域,AlphaFold2是具有革命性的进步。它基于多序列比对,并结合现有的抗体结构为所预测模型提供进一步的结构约束。在抗体设计中,由于AlphaFold2依赖于同源序列的多序列比对,由于可用数据库中有限的抗体结构以及CDR-H3环的高度的多样性,AlphaFold2不适用于CDR-H3的建模。为此,目前已有工作尝试使用单个序列进行抗体结构的建模。Genetech®的EquiFold在抗体结构上表现良好。AlphaFold2 Multimer利用输入的抗体和抗原的序列生成各种可能的复合结构,从中选择最可靠的,但目前AlphaFold2 Multimer的表现仍不是最好的。此外,基于Rosetta抗体包的方法,如DeepAb,受到其内置评分函数、蛋白质系统能量的数学模型的准确性的限制。最后,由于与抗原的结合可能导致抗体构象变化,因此在预测Fv或CDR-H3环结构时,扩展现有模型以包括抗原信息至关重要。
深度学习已被证明有助于抗体筛选。例如,使用基于3D卷积的神经网络来生成结合分数,DLAB可以确定抗体和抗原的界面。但这些模型存在很多的局限,如必要的离散化、存在显著信息丢失的可能性、对接算法限制和数据集限制等。
深度学习模型用于抗体的设计与性能分析
通常,机器学习(machine learning)应用于抗体设计分为两类。首先,有一些模型试图通过生成3D坐标来为CDR-H3设计逼真的主链骨架。例如,IG-VAE模型通过变分自编码器(Variational Auto Encoder)法生成包括所有3D坐标的完整主干;该编码器经过训练,能够从学习到的潜在空间(latent space)准确重建3D坐标、扭转角和距离图。
在第二类中,有深度学习模型试图单独从其序列中了解抗体的总体特征。这些模型的核心是了解抗体序列中氨基酸残基的相互依赖性;自回归或生成模型(autoregressive or generative models)的兴起使得上述策略成为可能。在收集蛋白质序列信息上,ProtBERT和ESM-1b是非常成功的。在OAS数据库中,40%的序列缺失15个或更多个氨基酸残基,而AbLang模型在预测这些缺失的氨基酸残基上表现强劲。AntiBERTy是一种基于抗体特异性的BERT模型,该模型对5.58亿个抗体序列进行了训练。Immunoglobulin Language Model在生成新的免疫球蛋白序列取得了巨大成功。自然语言处理(natural language processing)模型可以在没有任何明确的目标抗原模型的情形下,将抗体序列优化至临床级别的亲和力;从某种意义上说,它们可以自行优化抗体,这是一个令人惊讶的结果。
当然,综合利用结构信息与序列信息的建模可能是基于人工智能的抗体药物设计的未来解决方案。下一代氨基酸预测是建立在抗体结构的颗粒化呈现和抗体结构中已有氨基酸的基础上的。这种预测是基于概率的,并且可以实时生成相应的三维结构以进行评估优化后的抗体的性能,这种方案可能在CDR-H3环的设计方面大放异彩。
最后,着眼于用深度学习进行一般蛋白质设计,使成功的技术应用于抗体设计,也是非常重要的。最近还成功地将幻觉技术(hallucination technique)应用于一般蛋白质设计。通过选择随机的蛋白质序列,使用现有的深度学习模型将其“折叠”成3D结构(通过骨架α-碳距离图预测)。基于这种结构,通过蒙特卡洛过程(Monte Carlo process)引入突变,从而使蛋白质变得更符合天然构象。此外,扩散概率模型(diffusion probabilistic models)已成功应用于蛋白质骨架设计。最近,RFdiffusion和Chroma已经能够生成新蛋白质的所有原子坐标。Chroma创建了具有数千个氨基酸的蛋白质。很明显,这些方法为未来CDR区域的设计提供了广阔的想象空间。
-
如何将新颖的深度学习方法从研究转化为生物制药行业的实际应用?
-
基于深度学习的蛋白质设计方法的最新进展是否会带来治疗性抗体设计的相应改进?
-
AlphaFold2在蛋白质结构预测的里程碑式的成功能否撬动抗体的建模和设计?
-
现有的解决抗体设计子课题的深度学习方法能否有效整合成一个综合性的抗体工程平台?
-
为了有效整合深度学习技术,现有的方法应该作哪些改进?
AlphaFold2
https://www.alphafold.ebi.ac.uk/
查询AlphaFold2已经预测好的结构 如上所述,Deepmind团队已经使用Alphafold2预测过了人类蛋白组结构。其实除了人类蛋白组外,诸如常见的模式生物如小鼠、斑马鱼、植物中的水稻、拟南芥、微生物如大肠杆菌等的蛋白组都已经被预测过了,如果我们需要预测的蛋白结构已经被预测过了,那我们就不必做重复劳动。
通过搜索找到你想要的蛋白,然后进入详情页,跳转到Structure栏即可看到:
需要注意的是,仅部分常见物种的部分蛋白结构可以通过查询得到,更多的结构则需要自己预测
使用AlphaFold2在线预测
对于大多数做生物的同学,其实并不关心AlphaFold2的原理,也没有使用服务器的条件,只想简单方便地预测一个蛋白质的结构。那谷歌的Colaboratory也提供了在线使用版本: 直接使用谷歌搜索AlphaFlod Colab,选择第一个搜索结果即可,或使用下面的链接跳转:
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
进入Colab界面后,只需要输入自己想预测的序列和项目名称,即可:
预测蛋白-蛋白互作模型
其实早在AlphaFold2尚未正式推出这一功能之前,就已经有人通过简单的修改来实现这一功能了:只需用一段长linker将两个互作的蛋白连接起来,再输进AlphaFold2当成一个蛋白去预测就可以了。
若要在Colab中使用这一功能,只需要在query_sequence中输入需要预测的多个蛋白序列,蛋白与蛋白之间用英文冒号 : 分隔即可,可以用这一功能预测同源多聚体,也可以预测异源的蛋白互作。
注意:在Colab使用AlphaFold2预测蛋白有长度限制,总长度最好不要超过1000个氨基酸,若超过这一长度则很容易预测失败;使用本地服务器运行则无这一限制
笺評 (issue)