北京时间2019年4月19日,来自北京大学分子设计实验室的MDL团队获得 “默克”杯逆合成反应预测大赛的总决赛冠军。该比赛包括初赛、复赛和总决赛,吸引了来自高校、中国科学院相关研究所和从事人工智能研发的公司和专业人士组成的371支参赛队伍参加。
在传统的化学合成研究中,化学家们设计反应路线耗时耗力:需先从目标产物的分子式开始分析,再利用Scifinder等工具搜索相似的结构和文献报道过的合成路径,确认需要的试剂和反应条件,甚至要依据自己的化学合成经验知识制定几十个化学反应,通过这些反应逐步生成目标产物。传统的合成路线设计对合成人员化学知识背景要求很高,而一个准确实用的逆合成分析程序,可以大大节省化学家的时间和精力。现有的逆向合成程序中以默克的Synthia表现最为突出。Synthia所使用的7万多个化学反应规则数据库是由人类专家经过长年积累编写的,数据库需要耗费很多人力物力进行更新,且不能通过学习来预测新的反应类型。近年来,人工智能 (AI)新技术在化学和制药领域崭露头角,也逐渐被用于预测化学反应产物和逆向合成路线分析,有望突破现有逆向合成分析技术的瓶颈。
本次大赛由默克集团(Merck KGaA)旗下默克生命科学主办,和鲸科技(前身科赛)协办。比赛使用的数据分为训练集和测试集两部分,分别包含609,946和238,282个反应。
北京大学MDL团队由前沿交叉学科研究院定量生物学中心博士生徐优俊、化学与分子工程学院博士研究生林康杰和北京望石智慧科技有限公司的殷实秋组成。他们利用深度学习方法发展了逆合成反应预测模型 DeepRetroReact,通过学习大量的化学反应数据来预测反应物,并基于反应规则预测可能的候选反应物,再对候选的反应物进行打分,选取最佳的反应物组合。MDL团队使用了最新的自然语言处理技术 Transformer 作为核心框架,根据产物和反应物来预测化学反应的反应类型标签,并考虑了反应式中原子信息特征以使预测结果更加合理且有效。
北京大学化学与分子工程学院来鲁华教授和北京大学前沿交叉学科研究院定量生物学中心裴剑锋研究员是该团队的指导老师。北京大学分子设计实验室(MDL)负责人为来鲁华教授,由来自化学与分子工程学院和前沿交叉学科研究院定量生物学中心的教师和研究生及博士后组成,主要研究方向为药物设计和蛋白质设计,近年来将人工智能用于化学信息学和药物设计研究,取得了系列进展。