您好!欢迎访问武汉德崇生物科技有限公司网站!
全国咨询热线:18942903551
热门关键词:
行业新闻
您的位置: 首页 >> 行业新闻 >> 正文内容

AI辅助LYTAC(溶酶体靶向嵌合体)开发 之四---AI驱动的LYTAC分子筛选与三元复合物预测

作者:dechong 浏览量:2 时间:2026-06-13 20:44:58

                                              1.png

4.1 三元复合物结构预测的深度学习模型

4.1.1 DeepPROTACs:基于活性数据的降解预测

在LYTAC(以及PROTAC)的开发中,准确预测一个候选分子能否有效诱导目标蛋白降解是至关重要的。传统的依赖实验筛选的方法耗时且成本高昂。为了解决这一问题,Fenglei Li等人于2022年提出了DeepPROTACs,这是一个基于深度学习的靶向降解预测模型,旨在从PROTAC分子的结构中预测其降解活性。尽管该模型最初是为PROTAC设计,但其核心原理和方法论对LYTAC的开发同样具有极高的参考价值。DeepPROTACs的输入信息非常全面,它不仅仅考虑了PROTAC小分子本身的化学结构,还整合了其与目标蛋白和E3泛素连接酶形成的复合物的结构信息。具体来说,模型将PROTAC分子拆解为五个部分:靶蛋白的结合口袋(POI pocket,即靶蛋白上距离warhead 5Å范围内的区域)、warhead(靶蛋白配体)、E3泛素连接酶的结合口袋(E3 pocket,即E3连接酶上距离E3配体5Å范围内的区域)、E3配体和连接子(linker)。

这种结构化的输入方式使得模型能够同时学习到蛋白质-配体相互作用以及PROTAC分子各部分之间的化学关系。在模型架构上,DeepPROTACs采用了多分支神经网络的设计。其中,靶蛋白口袋和E3连接酶口袋的特征通过图卷积网络(Graph Convolutional Network, GCN)进行提取,以捕捉口袋内原子间的拓扑和化学环境信息;PROTAC分子的warhead和E3配体的特征同样由GCN处理;而连接子(linker)由于其序列特性,则通过双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)来提取其结构特征。这五个分支提取的特征向量最终被整合在一起,输入到一个多层感知器(MLP)中,用于预测PROTAC的降解活性。为了简化预测任务并使其更具鲁棒性,研究人员将基于半数最大降解浓度(DC50)和最大降解量(Dmax)的连续活性数据转化为一个二元分类问题,即预测一个PROTAC是”好的降解剂”(DC50 ≤ 100 nM)还是”差的降解剂”(DC50 > 100 nM)。

DeepPROTACs在测试集上表现出色,平均预测准确率达到了约78%,ROC曲线下面积(AUROC)约为0.85。更重要的是,该模型展现了良好的泛化能力。在一个外部实验数据集上(针对雌激素受体ER的PROTACs),预测准确率达到了68.75%(11/16)。对于在训练集中未出现过的靶点(如EZH2, STAT3, eIF4E, FLT-3),其预测准确率也维持在65%至80%的范围内。这表明DeepPROTACs学习到了一些超越特定靶点或E3连接酶的、关于降解活性的普适性规律。尽管DeepPROTACs主要关注PROTAC,但其核心思想——即通过深度学习模型整合三元复合物的结构信息来预测降解活性——可以直接应用于LYTAC。通过将LYTAC的LTR配体、靶蛋白配体和连接子的结构信息,以及它们与相应蛋白质的结合口袋信息作为输入,可以构建类似的深度学习模型来预测LYTAC的降解效率,从而为LYTAC的高通量虚拟筛选和理性设计提供强有力的计算工具。

模型名称

核心架构

输入信息

预测任务

性能指标

DeepPROTACs

多分支网络 (GCN + BiLSTM)

靶蛋白口袋, Warhead, E3口袋, E3配体, Linker

二元分类 (好/差降解剂)

准确率: ~78%, AUROC: ~0.85

LightGBM

梯度提升决策树

PROTAC分子描述符

二元分类 (降解活性)

AUROC: 0.877

DeepTernary

SE(3)-等变图神经网络 (Encoder-Decoder)

靶蛋白, E3/LTR, 降解剂序列/结构

三元复合物3D结构预测

DockQ: 0.65 (PROTAC)

AlphaFold3

改进的Evoformer + Diffusion

氨基酸序列, 配体SMILES

复合物3D结构预测

RMSD < 4Å: 46/62

Chai-1

类似AlphaFold3的架构

氨基酸序列, 配体SMILES

复合物3D结构预测

性能与AF3相当

Table: Comparison of key AI models for ternary complex prediction and degradation activity prediction in the context of targeted protein degradation.

4.1.2 DeepTernary:端到端三元复合物结构预测

尽管DeepPROTACs等模型能够预测降解活性,但它们并未直接输出三元复合物的三维结构,而理解三元复合物的精确结构对于理性设计降解剂至关重要。为了解决这一”从结构到功能”的核心难题,Huang等人于2025年提出了DeepTernary,这是一个基于SE(3)-等变图神经网络(GNN)的端到端深度学习框架,能够直接从单个组分的序列和结构信息出发,预测由PROTAC或分子胶(MGD)诱导形成的靶蛋白-E3连接酶-降解剂三元复合物的三维结构。DeepTernary的提出是TPD领域的一个里程碑,因为它首次实现了对这类复杂、动态且训练数据稀缺的三元复合物结构的快速、准确预测。该模型的核心创新在于其精巧的架构设计。它采用编码器-解码器(Encoder-Decoder)结构。编码器部分是一个SE(3)-等变的图神经网络,这意味着模型在处理分子图时,其输出会随输入分子的旋转和平移而相应地变换,从而保证了预测结果的物理合理性。该编码器能够同时处理三个输入图(靶蛋白、E3连接酶/受体和降解剂),并通过创新的三元内部图注意力机制(ternary inter-graph attention mechanism)来学习三个组分之间复杂的相互作用关系。

为了训练DeepTernary,研究团队构建了一个名为TernaryDB的高质量数据集,专门用于三元复合物结构预测。解码器部分则是一个基于查询的口袋点解码器(query-based Pocket Points Decoder),它从编码器学习到的三元嵌入表示中提取信息,并直接生成最终的结合三元复合物的三维坐标。在性能评估方面,DeepTernary在现有的PROTAC基准测试上展现了最先进的准确性(state-of-the-art accuracy)和速度。其在预测结构上的平均DockQ分数达到了0.65,显著优于之前的方法。DockQ是一个综合衡量蛋白质-蛋白质对接质量的指标,分数越高表示预测结构与真实结构越接近。更重要的是,DeepTernary的预测不仅仅是结构上的准确,还具有生物学上的相关性。研究人员发现,从DeepTernary预测的三元复合物结构中计算出的蛋白-蛋白界面埋藏表面积(Buried Surface Area, BSA)与实验测得的降解效力相关指标(如DC50)之间存在显著的相关性。这一发现证实了DeepTernary的预测结果能够反映真实的生物学功能,为其在降解剂设计中的应用提供了坚实的理论基础。在更具挑战性的分子胶(MGD)基准测试中,DeepTernary在盲对接协议下也取得了显著的准确性,证明了其对不同类型降解剂的广泛适用性。与AlphaFold3和Chai-1等通用结构预测工具相比,DeepTernary在专门处理PROTAC和MGD三元复合物方面表现出更优的泛化能力,尤其是在处理训练时未见过的PROTAC结构时。

4.1.3 AlphaFold3与Chai-1在降解剂复合物预测中的评估

随着AlphaFold3(AF3)和Chai-1等通用生物分子结构预测模型的发布,科学界对这些强大工具在处理特定类型复杂复合物(如PROTAC/LYTAC介导的三元复合物)时的能力产生了浓厚兴趣。这些模型通过在海量的蛋白质、核酸和小分子结构数据上进行训练,学会了预测生物大分子及其复合物的三维结构。AlphaFold3通过其改进的Evoformer架构和扩散模块,能够联合处理蛋白质、核酸、配体等多种生物分子,为复合物预测提供了新的可能性。Chai-1作为另一个强大的开源模型,也展现了与AF3相媲美的性能。然而,这些通用模型在处理PROTAC这类具有高度灵活性和协同结合效应的三元复合物时,其性能如何,仍需通过严格的基准测试来评估。

2026年,Haoyu Chen等人发表了首个针对PROTAC三元复合物预测的深度学习工具基准研究,系统性地比较了Chai-1、AlphaFold2、AlphaFold3和Protenix这四种工具的性能。研究结果表明,这四个预测工具在预测三元复合物整体结构方面均表现出令人满意的准确性,其中Chai-1、AlphaFold3和Protenix在超过一半的测试案例中表现更优然而,研究也揭示了所有工具在预测特定细节方面面临的重大挑战。具体来说,在准确预测靶蛋白(POI)和E3连接酶的相对取向(以Cα-RMSD < 10 Å为标准)以及小分子PROTAC的位置(以RMSD < 5 Å为标准)方面,所有模型都存在较大困难。另一项由Rovers和Schapira进行的研究也 benchmarked 了包括AF3和Boltz-1在内的方法,发现尽管这些引擎在提供配体信息时能达到近天然精度,但AF3在配体姿态预测上始终更准确。在使用最佳设置时,AF3在62个PDB结构中,有33个结构的RMSD < 1 Å,46个结构的RMSD < 4 Å,表明其具有近天然精度。这些benchmarking研究强调,虽然通用AI结构预测工具取得了显著进步,但在处理PROTAC/LYTAC这类高度动态和复杂的系统时,仍面临挑战。DeepTernary等专门为TPD设计的模型,通过其针对性的架构和训练数据,在特定任务上展现了更优的性能和泛化能力。

4.2 基于AI的分子对接与动力学模拟

4.2.1 增强采样与构象探索

分子对接(Molecular Docking)和分子动力学(Molecular Dynamics, MD)模拟是计算药物设计中的两大基石,在LYTAC的开发中扮演着至关重要的角色。分子对接用于快速预测小分子配体(如LTR配体或靶蛋白小分子配体)与受体蛋白的结合模式和亲和力,而MD模拟则用于研究生物大分子系统在时间维度上的动态行为。然而,传统的MD模拟在时间和空间尺度上存在固有的局限性,难以捕捉到LYTAC诱导的三元复合物形成过程中的大规模构象变化,如蛋白质的相对取向调整或linker的折叠与伸展。这些过程往往发生在毫秒甚至更长的时间尺度上,超出了常规全原子MD模拟(通常局限于微秒级别)的能力范围。为了克服这一挑战,增强采样(Enhanced Sampling)技术应运而生,并与AI方法相结合,为探索LYTAC系统的复杂构象 landscape 提供了强大的工具。

增强采样技术,如元动力学(Metadynamics)、伞形采样(Umbrella Sampling)和加权系综(Weighted Ensemble, WE)方法,通过在模拟过程中引入偏置势或智能地分配计算资源,来加速对稀有事件(如高能垒构象转变)的采样。在LYTAC的研究中,这些方法被用于模拟三元复合物的形成和稳定化过程。例如,一项研究采用了一种多步模拟流程来评估降解剂的质量:首先,使用加权系综(WE)模拟来驱动三元复合物的形成,从分离的靶蛋白和”连接酶-降解剂”二元复合物出发,通过迭代优化轨迹变异来生成多样化的三元复合物构象。随后,应用副本交换分子动力学(HREMD)模拟对已结合的三元复合物进行更深入的结构探索,生成其构象集合的详细图谱。最后,为了估计降解剂对靶蛋白泛素化的影响,研究将HREMD获得的三元复合物结构与完整的Cullin-RING连接酶(CRL)超分子组装体进行叠加,通过计算泛素与靶蛋白表面不同赖氨酸残基之间的距离分布,来评估不同赖氨酸位点被泛素化的概率。这种结合了增强采样和统计分析的计算流程,为从原子层面理解LYTAC的作用机制和设计更高效降解剂提供了深刻的见解。

4.2.2 自由能计算与结合亲和力预测

准确预测LYTAC分子及其形成的复合物的结合亲和力,是评估其活性和进行理性优化的关键。结合亲和力(通常用解离常数Kd或结合自由能ΔG表示)决定了LYTAC与靶蛋白和LTR结合的强弱,进而影响三元复合物的形成效率和稳定性。AI技术,特别是那些能够从分子动力学模拟轨迹中学习并预测热力学性质的模型,正在改变结合亲和力的计算方式。传统的自由能计算方法,如自由能微扰(Free Energy Perturbation, FEP)和热力学积分(Thermodynamic Integration, TI),虽然精确,但计算成本极高,难以用于大规模筛选。AI驱动的替代方法则通过从MD模拟数据中学习,能够以更低的成本提供快速且相对准确的结合亲和力预测。例如,Suriana和Dror提出了一种利用机器学习来增强配体构象采样和结合亲和力预测的方法,通过训练一个模型来学习配体在受体口袋中的有效势能面,从而加速对接过程中的构象搜索并提高打分函数的准确性。

在LYTAC的特定背景下,结合亲和力的预测变得更加复杂,因为它涉及到两个独立的结合事件(LYTAC与靶蛋白的结合,以及LYTAC与LTR的结合)以及一个协同的结合事件(三元复合物的形成)。AI模型可以被训练来整合这些多体相互作用的信息。例如,通过分析大量的MD模拟轨迹,AI可以学习到Linker的构象动态如何影响两个蛋白结合界面的稳定性和互补性。最近的研究还探索了将物理能量函数与图神经网络相结合,以实现对蛋白质-配体相互作用的精确预测。Hong等人开发的方法通过结合物理能量项和图神经网络,在预测结合亲和力方面取得了很高的准确性。对于LYTAC,这种混合方法可以用于分别预测LYTAC的两个配体与各自靶标的结合亲和力,并通过一个额外的模型来评估三元复合物的协同性(cooperativity)。这种分而治之再整合的策略,有望为LYTAC的亲和力预测提供一个全面的计算框架。此外,AI还可以用于开发专门的打分函数,用于在分子对接和虚拟筛选中快速评估LYTAC分子的结合潜力,从而从庞大的化合物库中筛选出最有希望的候选者进行更精确的计算和实验验证。

4.3 高通量虚拟筛选(HTVS)的AI加速

4.3.1 大规模化合物库筛选

高通量虚拟筛选(High-Throughput Virtual Screening, HTVS)是药物发现早期阶段的关键技术,它允许研究人员在计算机中快速评估数百万甚至数十亿个化合物与特定靶标的结合潜力,从而从庞大的化学空间中挑选出最有希望的”苗头化合物”(hits)。对于LYTAC的开发,HTVS可以被应用于筛选靶蛋白结合域(如小分子抑制剂或片段)以及LTR的小分子配体。传统的HTVS主要依赖于分子对接技术,虽然有效,但其速度仍然受限于对接算法的复杂性。人工智能,特别是深度学习和机器学习模型,为显著加速HTVS过程提供了可能。这些AI模型一旦被训练好,就能以极快的速度(每秒评估数千个分子)预测化合物与靶标的结合亲和力或活性,其速度比传统对接方法快数个数量级。例如,Receptor.AI平台在其LYTAC/PROTAC设计流程中,就集成了基于AI的虚拟筛选模块,用于对靶蛋白和E3连接酶/受体进行初步的化合物筛选

AI加速HTVS的流程通常如下:首先,需要构建或获取一个包含大量化合物(如来自ZINC、ChEMBL或Enamine等数据库)的虚拟库。然后,选择合适的AI预测模型。这些模型可以是基于配体的(Ligand-Based),如使用化合物的分子指纹或描述符作为输入的随机森林或支持向量机模型;也可以是基于结构的(Structure-Based),如使用蛋白质-配体复合物三维结构信息作为输入的3D卷积神经网络或图神经网络。在LYTAC的筛选中,基于结构的模型可能更具优势,因为它们能够利用靶蛋白的三维结构信息,预测化合物在结合口袋中的具体结合模式。在筛选过程中,AI模型会对化合物库中的每个分子进行打分,分数越高表示其与靶标结合的潜力越大。最后,根据打分排名,选择排名靠前的数千或数万个化合物作为候选的”hits”,进行更精确的计算(如分子对接、MD模拟)和实验验证。这种AI驱动的HTVS流程,能够将原本需要数周甚至数月的筛选工作缩短到数小时或数天,极大地提高了LYTAC早期发现的效率。

4.3.2 苗头化合物(Hit)的识别与优先级排序

在通过HTVS获得大量潜在的苗头化合物(Hits)后,接下来的关键步骤是对这些Hits进行识别、分析和优先级排序,以确定哪些化合物最值得进行后续的资源密集型的合成和生物活性测试。AI技术在这一环节同样发挥着重要作用,它能够帮助研究人员从多个维度对Hits进行综合评估,从而做出更明智的决策。除了预测与靶标的结合亲和力外,AI模型还可以同时预测化合物的其他关键性质,如溶解度、膜渗透性、代谢稳定性、毒性(hERG抑制、肝毒性等),即ADMET性质。通过在筛选阶段就考虑这些成药性相关的参数,可以尽早剔除那些虽然活性好但ADMET性质差的”成药性陷阱”化合物,避免后期开发中的失败。例如,Receptor.AI平台的二级筛选模型能够根据60多种ADME-Tox终点、理化性质和类药性指标来过滤候选化合物

AI还可以用于分析Hits的化学多样性和结构特征。通过聚类分析,可以将结构相似的Hits归为一组,帮助研究人员选择具有不同化学骨架的化合物进行后续研究,从而增加找到全新结构类型先导化合物的机会。此外,可解释性AI(Explainable AI, XAI)技术,如SHAP(SHapley Additive exPlanations)或注意力机制,可以揭示模型做出预测的依据,即化合物中哪些特定的亚结构或官能团对高活性预测贡献最大。这些结构-活性关系(SAR)的线索对于指导后续的化合物优化(Hit-to-Lead)至关重要。在LYTAC的特定背景下,对Hits的优先级排序还需要考虑其在双功能分子设计中的适用性。例如,一个作为靶蛋白配体的Hit,其结构上是否有一个合适的位置可以连接Linker而不影响其结合活性?同样,一个作为LTR配体的Hit,其化学性质是否与靶蛋白配体和预期的Linker兼容?AI模型可以被训练来预测这些合成和化学上的可行性,从而在早期阶段就评估一个Hit作为LYTAC构建模块的潜力。通过整合靶标亲和力、ADMET性质、化学多样性和合成可行性等多维度的AI预测,研究人员可以建立一个全面的Hits优先级排序系统,确保将有限的资源投入到最有希望的LYTAC候选分子上。


【服务 】

*泰克康得靶向降解技术:传统抗体药的逻辑是“占位阻断”,但面对众多不可成药靶点往往束手无策。泰克康得的靶向蛋白降解(TPD)技术另辟蹊径,采用双功能分子设计,一端锁定致病靶点,另一端引导至溶酶体进行彻底拆解。这种机制不仅突破了传统抗体仅能阻断信号传导的局限,更实现了致病蛋白的完全清除。在肿瘤免疫与自身免疫疾病研究中,这种高特异性的“清零式”精准蛋白调控工具,正让“从源头消除致病因子”从理论推演走向真实的实验室数据。

*德崇生物体内CAR-T技术:业内都清楚,传统体外制备CAR-T的痛点在于周期长、成本高、且极难穿透致密的实体瘤微环境。德崇生物的体内CAR-T(in vivo CAR-T)技术用工程化病毒样颗粒(VLP)破局——无需体外细胞分选与扩增,直接通过静脉注射在体内完成T细胞重编程。原本长达8周的定制化流程被压缩至3周,极大降低了临床转化门槛。更重要的是,该策略显著提升了实体瘤微环境的深度穿透力,为实体瘤免疫治疗提供了真正标准化、可重复的现货型工具平台。

*如果想进一步深挖泰克康得靶向降解技术在特异性降解上的底层机制,或是了解德崇生物体内CAR-T技术攻克实体瘤微环境壁垒的详细路径,请上网站:www.dechongbio.com;微信联系人:hyy18942903551