仪器网(yiqi.com)欢迎您!

| 注册2 登录
网站首页-资讯-话题-产品-评测-品牌库-供应商-展会-招标-采购-知识-技术-社区-资料-方案-产品库-视频

资讯中心

当前位置:仪器网>资讯中心> 商机> 正文

打造 IBM 自动化合成实验室的秘诀 (下篇)

来源:力扬企业有限公司 更新时间:2023-05-03 13:07:02 阅读量:426

——背景——

今天给大家介绍的是来自 IBM Research Europe 研究人员近三年发表的一系列关于人工智能应用于有机合成的相关工作。由于篇幅有限,本文分为上下两篇,主要概述其代表工作并由笔者整理归纳其整体工作思路,仅供参考。

640 (10).png


图 1  IBM RXN for Chemistry 主要工作及其整体思路(笔者自己整理归纳,仅供参考)


IBM RXN for Chemistry 主要发表的工作包括: 1) 读取文献、专 利中的有机实验操作文本并转化为机器可读的操作元[1];2) 对反应数据进行预处理 (生成反应指纹[2-3]、数据增强[4]、数据降噪[5]、反应原料与产物的原子映射[6]);3) 有机反应正向预测[7-8];4) 逆合成反应预测[9];5) 反应产率预测[10];6) 将反应 SMILES "翻译" 成操作元[11]。(以上工作的源代码都开源)


以上这些工作构成了 IBM RXN 的云服务,同时也训练了一整套基于 Transformer 的人工智能模型,从读文献学习实验操作,到学习有机反应规律,学会正向反应、逆合成反应及评判反应产率高低,最 后学会对某一条新反应自己设计合成实验,一定程度上实现了 "基于云服务与 AI 驱动的自动化有机合成实验室" 的构想。


上一期已经介绍了前半部分的工作,讲解了 "读文献" 生成实验操作元与有机反应数据的预处理,本期将继续介绍学习有机反应数据后进行的三项预测任务以及预测新反应的实验操作。


——预测正向反应的产物——

对于人类化学家,刚开始学习有机化学时遇到最常见的题目是根据反应物、试剂和反应条件写出产物。那么对于人工智能也可以利用各种算法学习有机反应的规律,实现对有机反应产物的预测。在这一领域,IBM Research Europe 的研究人员先是在 2018 年发表了一种基于循环神经网络 (RNN) 与注意力机制的 sequence to sequence 模型来预测反应产物[7]。在 2019 年发表了 "Molecular Transformer" (如图 2 所示) —— 一种基于 Transformer 的模型来预测反应产物,其表现优于 RNN 模型,在 USPTO_MIT 数据集上 Top1 准确率为 90.4%[8]。此外,在一些杂环的芳香亲电反应中,它的表现优于基于量子化学计算的 RegioSQM,能更准确地预测反应的区域选择性。

640.jpg

图 2  Molecular Transformer 示意图[8]


——逆合成反应预测——

仅仅是学会预测正向反应的产物是不够的,在有机化学中我们遇到更多的问题是有一个目标分子需要我们找到合成路线,也就是需要找到一步接一步的反应来实现目标分子的合成。其实这个问题和前一节的问题正好反过来,即知道产物,需要预测反应物 (与试剂)。


IBM Research Europe 的研究人员在 2020 年发表的工作,就是基于 Transformer 模型预测一步逆合成反应,再结合超图探索策略 (hyper-graph exploration strategy) 找到合适的逆合成路线,如图 3 所示[9]。

640 (1).jpg

图 3  从预测逆合成反应到寻找合成路线的流程示意图[9]


在预测逆合成反应时,为了验证与评估预测表现,研究者应用了上一节所提及的正向反应预测模型,构建了一个逆合成反应预测 + 正向反应预测的循环。当逆合成反应预测出目标分子的 N 个备选反应物后,再分别对这 N 个备选反应物进行正向预测得到 N 个产物。研究者对此定义了两个指标,一个是循环准确率 (Round-Trip Accuracy),即 N 个产物中再次回到目标分子的比例,另一个是覆盖率 (Coverage),即 N 个产物中至少有一个回到目标分子的比例。结合上一篇文章中提到的数据降噪处理方法,逆合成反应预测的覆盖率可以达到 97.1%,循环准确率可以达到 86.2%,此外还考虑了预测逆合成反应的类别多样性与类别相似性。


在超图探索过程中,研究人员采用了 Coley 等人在 2018 年发表的 SCScore (一种分子合成复杂性的打分)[12],再结合类贝叶斯概率来决定图扩展的方向,最 终找到由 eMolecules 数据库提供的可用的分子。在合成路线设计的评估方面,目前还没有 benchmark,只能说体现了一定的潜力,可以为人工设计合成路线提供思路与启发,尚且无法处理复杂天然产物分子,对少数类别反应 (氧化还原、酯化皂化等) 的学习还不到位,容易得到不符合逻辑的逆合成切断策略。


——预测反应产率——

在挑选逆合成反应来组成合成路线时,一个反应的产率是能直观体现反应的效用,也是给合成路线打分的重要因素。IBM Research Europe 研究人员在 2021 年发表了 Yield-BERT 模型来预测反应产率,如图 4 所示[10]。研究人员在一些高通量反应数据集与专 利反应数据集分别进行训练与测试,在某一特定反应 (例如 Buchwald–Hartwig 反应与 Suzuki–Miyaura 反应) 的高通量数据集上,Yield-BERT 的 R2 可以达到 0.95 与 0.81,比一些基于 one-hot 或者 DFT 算符作为输入的方法表现更好。在专 利反应数据集 (克级与亚克级) 上的表现都很一般,R2 不到 0.2,可能原因是相似度 (反应指纹) 接近的不同类别反应的产率差别较大 (一致性较差),模型在预测时会得到一个平均值。因此,对于产率预测问题,数据的质量很重要,同时对于其他类似的有机反应回归问题,例如预测反应活化能等,也可以尝试使用这种模型框架。

640 (11).png

图 4  Yield-BERT 示意图[10]


——生成反应实验操作——

在确定了有机合成路线后,就需要针对每一步反应设计具体实验条件与操作。针对这个问题,IBM 的研究人员在 2021 年发表了 《Inferring experimental procedures from text-based representations of chemical reactions》 的工作,介绍了将有机反应 SMILES "翻译" 成有机合成实验操作的模型 smiles2actions,以及为了训练模型而生成的数据集,如图 5 所示[11]。

640 (12).png

图5  smiles2actions数据集生成与模型示意图[11]


研究者用了机器学习模型与基于 Transformer 的模型 (Transformer 与BART) 进行类似机器翻译的任务,然后用机器翻译常用的序列相似性打分 BLEU,以及操作元 100%、90%、75% 和 50% 准确率来评估模型表现,结果如表 1 所示[11]。此外研究人员还找了有机合成领域的专家来评估预测结果的完整性。针对 500 条反应,研究者向有机化学家提供了真实合成操作与预测的合成操作进行盲评,其中专家认为 62% 的预测结果是合理的,认为 60% 的真实结果是合理的,这反映了预测结果在人为评估中的表现与真实结果接近。不过在原文献中,研究人员并没有报道实际应用预测的实验操作来合成某一分子的实例。

640 (13).png

表1  各模型预测合成操作的结果


——总结与讨论

本篇介绍了 IBM Research Europe 在有机合成与有机反应相关工作的后半部分 —— 预测反应、设计合成路线以及预测合成实验操作。就目前而言,IBM Research Europe 已经在 IBM RXN for Chemistry 的网站上发布了逆合成路线设计的功能,有机化学家可以在家中提交目标分子,得到 AI 预测的合成路线,再对合成路线中的每一步反应设计具体实验条件与操作,提交给 IBM 的 RoboRXN 服务器,那么就会有机器 (如图 6 所示) 帮你完成分子的合成实验 (目前机器合成服务还没开放)。通过云服务与 AI 辅助的路线设计,可以解放化学家于重复性劳动中,从而能有更多时间与精力去设计新分子,创造新事物。


640 (14).png

图 6  IBM RoboRXN 示意图 (摘自官网介绍视频)


而在未来,IBM 将进一步实现基于云服务与 AI 驱动的自动化实验室,围绕我们上下两篇文章所介绍的这些工作,从自动读文献学习合成实验操作,到预处理反应数据进行正向反应预测、逆合成路线设计,再到预测合成反应的实验条件与操作。理想情况下可以实现针对目标分子的全自动合成,但是目前来看,笔者认为有两大难点还需攻克,一个是逆合成路线设计的能力有限,还需要人工参与路线的挑选优化,并且对复杂结构的分子 (例如一些多环天然产物) 还是束手无策的;另一方面是根据反应设计实验条件与操作的实际应用效果还有待检验,在原文献中还未报道相关应用,并且针对效果不佳的合成实验还需要设计反馈机制来优化反应条件与操作 (可能衍生到有机方法学的探索,借助高通量反应机器来筛选最 优合成条件),甚至可能需要更换合成路线。总之一旦结合了自动化合成实验的反馈,AI 辅助的逆合成路线设计也会有更具实际意义的进步方向。


400-633-7656
留言咨询
{"id":"22816","user_id":"2845","company_id":"1884","name":"力扬企业有限公司"}

参与评论

全部评论(0条)

相关产品推荐(★较多用户关注☆)
你可能还想看
  • 资讯
  • 技术
  • 百科
  • 应用
  • 实验室效率翻倍秘诀:详解土壤冻干机的自动化与批处理功能
    实验室土壤样本前处理是环境监测、农业科研、地质勘探等领域的核心环节,但传统105℃烘干法存在显著缺陷——据《土壤学报》2023年《土壤样本干燥方法对有机质及微生物活性的影响》,该方法会导致土壤有机质损失22%-31%,真菌、细菌存活率不足40%,无法满足高精度检测需求。冷冻干燥(冻干)技术虽能最大程
    2026-04-0140阅读 土壤冷冻干燥机
  • 多功能自动进样器:实验室自动化的理想选择
    确保结果的精确性和一致性自动进样器在进样过程中可以精确控制样品体积和流速,避免了手动操作可能带来的误差。这种高精度的进样方式能确保每次实验结果的一致性,对于需要高重复性数据的研究来说至关重要。
    2025-10-21155阅读 自动进样器
  • 合成多肽的方法
    合成肽技术用化学手段将氨基酸依次定向地缩合成多肽或蛋白质的技术。大多数天然多肽和蛋白质都由a-氨基酸构成。氨基酸分子内可有3个化学活泼的基团即侧链、氨基及羧基,与α-碳原子共价连接。
    2025-10-211128阅读
  • 氯化钡的生产合成工艺
    将20mL浓盐酸用等体积的水稀释,取20g(0.1mol)的碳酸钡,在搅拌下一点点地加入稀盐酸中。放出二氧化碳并形成氯化钡的水溶液。过滤,除去不溶组分,将滤液在水浴上加热浓缩
    2025-10-194937阅读 氯化钡(BaCl2)
  • DNA合成流程
    在体外人对双链DNA分子合成的技术,即是基因合成基因合成和其他人工方法合成基因的技术相比,不需要模板,所以基因来源不会对其起限制作用,其为获取基因的方法之一,是使用人工方法合成基因的技术。
    2025-10-202583阅读
  • 查看更多
版权与免责声明

①本文由仪器网入驻的作者或注册的会员撰写并发布,观点仅代表作者本人,不代表仪器网立场。若内容侵犯到您的合法权益,请及时告诉,我们立即通知作者,并马上删除。

②凡本网注明"来源:仪器网"的所有作品,版权均属于仪器网,转载时须经本网同意,并请注明仪器网(www.yiqi.com)。

③本网转载并注明来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。

④若本站内容侵犯到您的合法权益,请及时告诉,我们马上修改或删除。邮箱:hezou_yiqi

热点资讯
预算181万元 西南大学 采购园艺作物人工气候室
灭菌剂原料化验 成分分析 配方还原 元素鉴定
补充剂成分鉴定 原料剖析 配方还原 元素化验
废有机溶液成分分析 元素鉴定 原料化验 异物剖析
塑料培养皿使用方法及实验注意事项
预算600万元 清华大学 采购极低温强磁场多功能综合探针显微镜系统
预算69.95万元 厦门大学公共卫生学院 采购旋转蒸发仪等一批设备
预算50万元 中国科学院昆明植物研究所 采购超临界萃取系统
预算300万元 山东大学齐鲁医院 采购麻醉机、麻醉监护仪
预算123.7万元 清华大学 采购闪射法导热仪
近期话题
相关产品

在线留言

上传文档或图片,大小不超过10M
换一张?
取消