在生命科学的核心地带,始终横亘着一道“模态鸿沟”:我们既有海量的蛋白质序列(如来自测序数据),也有日益增多的三维结构(如来自AlphaFold2和冷冻电镜),还有描述其功能的自然语言文本(如来自UniProt数据库)。然而,传统的工具如BLAST、Foldseck等,如同只精通一种语言的专家,只能在序列或结构等单一模态内进行比对,无法发现序列、结构与功能之间的跨模态联系。
如何打破模态壁垒,构建一个能统一理解蛋白质序列、结构与功能的AI模型,成为了领域内的圣杯之一。
2025年10月2日,西湖大学原发杰、常兴教授团队联合香港科技大学(广州)卢泓远教授团队在Nature Biotechnology(IF=41.7)上发表了文章A tri-modal protein language model enables advanced protein searches,推出了三模态蛋白质语言模型Pro Trek。该模型首次将蛋白质的三种核心信息——氨基酸序列(一维)、三维结构(空间)和自然语言功能描述(语义)——融合于一个统一的语言模型中。
研究亮点
通过对比学习,将蛋白质的序列、结构和功能(文本)描述,映射到同一个统一的语义空间中
不同编码器分工合作(上图a),通过三模态对比学习,统一序列、结构和功能的语义空间。
序列编码器:采用在进化尺度上预训练好的ESM-2模型,精准捕捉氨基酸序列中蕴含的进化与结构信息。
结构编码器:创新性地使用Foldseck将三维结构转化为离散的“3Di序列”,再用BERT风格的模型进行编码,巧妙避免了直接处理3D坐标导致的数据泄露问题。
功能编码器:采用在生物医学文献上预训练的PubMedBERT,专门用于理解蛋白质功能的自然语言描述。
实现真正的“功能导向”搜索,突破同源进化局限
传统工具基于序列或结构相似性,本质是寻找“同源蛋白”。而Pro Trek基于语义理解,能够发现趋同进化的蛋白——即那些序列和结构迥异,却执行相似功能的蛋白。
以“锌离子结合”为查询时,Foldseck(基于结构)仅找到18个真实相关蛋白,而Pro Trek找到了198个。上图右侧的TM-score矩阵图清晰地显示,这些被Pro Trek找出的蛋白,结构多样性极高(TM-score很低),但它们都共享“锌离子结合”这一功能。
从“挖掘”到“设计”,闭环验证模型价值
这项研究没有停留在计算层面,而是通过湿实验完整验证了Pro Trek的实用价值。研究团队利用 ProTrek 从一个包含 2 亿蛋白质的数据库中,通过“序列-序列”和“文本-序列”两种模式并行搜索,寻找与人类尿嘧啶 DNA 糖基化酶(UDG)功能相似但可能效率更高的新蛋白。
对搜索到的Top候选蛋白进行工程化改造(模仿UDG的Y147A突变),并构建成新型碱基编辑器。实验证明,其中排名第一的蛋白变体 (V1) 在多个基因组位点展示了高于现有编辑器(如TSBES EK, gTBE)的胸腺嘧啶编辑效率,且脱靶率更低。
极致的效率与用户友好性
开箱即用的网页服务器ProTrek (http://www.search-protrek.com)已收录超过 50 亿蛋白质数据信息,处理速度比传统工具(Foldseck和MMseqs2)快 100 倍以上,可在数秒内完成海量数据库的检索。
翌圣助力产品
在该研究中,研究人员选择了翌圣Canace系列高保真PCR和Hieff Trans系列细胞转染试剂用于验证分析。
目前翌圣高保真PCR、细胞转染系列的产品已经荣登Nature、 Cell等多个顶级期刊,获得科研大牛们认可!以下仅展示部分助力发表的高分文章:
<上下滑动查看更多>
[1]Jiang Y, Dai A, Huang Y, et al. Ligand-induced ubiquitination unleashes LAG3 immune checkpoint function by hindering membrane sequestration of signaling motifs. Cell. 2025;188(9):2354-2371.e18. doi:10.1016/j.cell.2025.02.014.
[2]Wang WW, Ji SY, Zhang W, et al. Structure-based design of non-hypertrophic apelin receptor modulator. Cell. 2024;187(6):1460-1475.e20. doi:10.1016/j.cell.2024.02.004
[3]Xie F, Zhou X, Ran Y, et al. Targeting FOXM1 condensates reduces breast tumour growth and metastasis. Nature. 2025;638(8052):1112-1121. doi:10.1038/s41586-024-08421-w
[4]Yang X, Wang J, Qi X, et al. HLF and PPARα axis regulates metabolic-associated fatty liver disease through extracellular vesicles derived from the intestinal microbiota. Imeta. 2025;4(2):e70022. Published 2025 Apr 7. doi:10.1002/imt2.70022
[5] Jiang L, Xie X, Su N, et al. Large Stokes shift fluorescent RNAs for dual-emission fluorescence and bioluminescence imaging in live cells. Nat Methods. 2023;20(10):1563-1572. doi:10.1038/s41592-023-01997-7.
[6] Xia L, Zhang Y, Zhou Q. Structural basis for the recognition of HCoV-HKU1 by human TMPRSS2. Cell Res. 2024;34(7):526-529. doi:10.1038/s41422-024-00958-9
[7] Liang X, Gong M, Wang Z, et al. LncRNA TubAR complexes with TUBB4A and TUBA1A to promote microtubule assembly and maintain myelination. Cell Discov. 2024;10(1):54. Published 2024 May 21. doi:10.1038/s41421-024-00667-y
[8]Chai Q, Yu S, Zhong Y, et al. A bacterial phospholipid phosphatase inhibits host pyroptosis by hijacking ubiquitin. Science. 2022;378(6616):eabq0132. doi:10.1126/science.abq0132
[9]Liu R, Yang J, Yao J, et al. Optogenetic control of RNA function and metabolism using engineered light-switchable RNA-binding proteins. Nat Biotechnol. 2022;40(5):779-786. doi:10.1038/s41587-021-01112-1
[10]Luo J, Yang Q, Zhang X, et al. TFPI is a colonic crypt receptor for TcdB from hypervirulent clade 2 C. difficile. Cell. 2022;185(6):980-994.e15. doi:10.1016/j.cell.2022.02.010
[11]Chen S, Chen G, Xu F, et al. Treatment of allergic eosinophilic asthma through engineered IL-5-anchored chimeric antigen receptor T cells. Cell Discov. 2022;8(1):80. Published 2022 Aug 16. doi:10.1038/s41421-022-00433-y
特别推荐
长片段高保真PCR试剂-10166ES
长片段扩增:最长可扩增40kb片段。
快速延伸:5-10秒/kb延伸速度,省时高效。
保真性好:83×Taq。
适用性广:覆盖20-80%GC的片段,耐受好。
灵敏度高:可检测低至1 pg的λDNA,100pg的基因组DNA。
稳定可靠:可反复冻融30次。
新型高效转染试剂-40801ES
转染效率更高:可在原代细胞及293T、HeLa、MCF7、HepG2、A549、NIH3T3、RAW267.4、HCT116等细胞系中实现高效转染。
普适性更广:满足DNA、mRNA、siRNA、miRNA、ASO等多种类型核酸转染。
毒性更低:非脂质体、非PEI新型基因递送材料,毒性更低。
翌圣生物
翌圣生物科技(上海)股份有限公司成立于2014年,是一家聚焦生命科学产业链上游核心原料,从事核苷酸、蛋白、细胞和类器官四大品类生物试剂的研发、生产与销售的高新技术企业。公司兼备核心技术自主研发和规模化生产能力,核心产品数量达数千种,覆盖分子克隆、qPCR、NGS、体外转录、抗体、蛋白纯化及分析、细胞培养、转染、报告基因检测和类器官等多种系列,广泛应用于生命科学研究、诊断检测和生物医药等领域。
全部评论(0条)
梯度PCR仪(双模块) NA-2双槽梯度基因扩增仪(80491ES)
报价:面议 已咨询 152次
48通道自动化核酸提取仪 AP-48核酸自动制备系统(80511ES)
报价:面议 已咨询 122次
96通道自动化核酸提取仪 AP-96N核酸自动制备系统(80510ES)
报价:面议 已咨询 128次
梯度PCR基因扩增仪(单模块) ES-PCR96-1梯度PCR基因扩增仪
报价:面议 已咨询 134次
翌圣ES-PC30微孔板离心机 可调节转速离心机
报价:面议 已咨询 122次
迷你水平离心机 翌圣ES-HC13水平离心机
报价:面议 已咨询 123次
低速离心机(可调节转速) 翌圣ES-MC10低速离心机
报价:面议 已咨询 126次
2×Hieff Canace®高保真酶预混液|PCR Master Mix
报价:面议 已咨询 117次
①本文由仪器网入驻的作者或注册的会员撰写并发布,观点仅代表作者本人,不代表仪器网立场。若内容侵犯到您的合法权益,请及时告诉,我们立即通知作者,并马上删除。
②凡本网注明"来源:仪器网"的所有作品,版权均属于仪器网,转载时须经本网同意,并请注明仪器网(www.yiqi.com)。
③本网转载并注明来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
④若本站内容侵犯到您的合法权益,请及时告诉,我们马上修改或删除。邮箱:hezou_yiqi
参与评论
登录后参与评论