2024年诺贝尔物理学奖表彰的工作是“使用人工神经网络进行深度学习的基础性发现和创新”。 基于人工神经网络的机器学习不仅改变了我们的日常生活,也带来了新的科研范式,推动着各个领域的科技创新。在本次讲座中,高毅勤教授分享了他对生命过程的解析工作,以及如何通过人工神经网络与分子计算加深对此的理解。
2024年10月9日下午4点,本学期第二期“周三茶座”有幸邀请到了北京大学理学部副主任、JCTC杂志副主编、新基石研究员高毅勤教授主讲本次茶座:“人工智能时代的机遇和挑战-通过分子计算理解生命过程”。李新征教授主持了此次茶座。中国科学院院士韩启德教授参加了本次茶座。
主讲人高毅勤教授
高毅勤教授首先介绍了他对生命系统的理解。随后以染色质三维结构为例,介绍他们对解析生命过程调控机制的研究。此外,为了根据染色质三维结构挖掘蛋白质互作信息,他们开发了EvoGen、ColabDock等工具。最终他也向我们展望了未来的工作方向:多层次端到端生命大模型。
调控对生命过程具有重要意义
高毅勤教授认为生命过程中具有多尺度、多层次的时空调控。例如一个分子是否会影响细胞,可能取决于某个特定的原子。研究时需要我们在纳米尺寸下进行皮秒时长的模拟。而如果想探究细胞命运对于生物整体的影响,这需要我们将这个生物饲养几周再观察。
为了研究生命过程中复杂的调控,需要总结其中规律。高毅勤教授向我们介绍了生命的中心法则:DNA复制,遗传信息从DNA模板合成新的DNA分子;转录,以DNA为模板合成RNA的过程;翻译,以RNA为模板合成蛋白质的过程。然而,高教授认为中心法则,更多地在强调生物中的化学意义,即生命中物质成分的变化。但一团物质之所以被称作生命,是因为其存在时空调控机制。因此,中心法则内不该仅仅是RNA、蛋白质的合成,还应包括蛋白质、RNA对复制、转录、翻译的调控。高教授认为我们也应该沿着这个脉络进行研究。
高毅勤介绍生命过程中的调控机制
染色质三维结构能够调控生命过程
高毅勤教授向我们介绍染色质的三维结构在生命过程中的调控中扮演着重要角色。DNA 分子有大约两米长,但为了适应细胞核内的空间,它必须缠绕起来。这一过程中,DNA 甲基化能够影响组蛋白的修饰,RNA 也参与染色质的调控。此外,信号转导蛋白和命运决定蛋白也影响DNA之间的相互作用。因此,高毅勤教授认为染色质的三维结构对基因表达调控和细胞命运决定具有重要意义。
传统的电子显微镜和晶体学方法无法解析染色质的三维结构。Hi-C 技术通过交联 DNA 并进行高通量测序,能够获得DNA之间的交互关系,并通过计算解读出染色质的三维结构。染色质结构具有多尺度性质,包括Loop、TA和Compartment等。染色质的三维结构与基因序列、基因表达等存在多尺度关联。例如,CpG 岛的密度与染色质的三维结构特征相关联,表明DNA序列决定染色质三维结构。
Hi-C方法虽然可以获得DNA交互信息,但存在信号不准和噪音大的问题。高毅勤教授通过基于扩散模型的算法CTG(Hi-C to Geometry)能够从实验数据中更清晰地揭示三维结构,提高了后续对染色质三维结构分析的可信度。
染色质的三维结构在癌症研究中也有重要应用。高毅勤教授发现染色质三维结构不仅可以甄别癌细胞,还可以刻画细胞的癌变程度。在医疗实践中,提取细胞染色质的三维结构并进行癌细胞甄别仅需一上午的时间。这将提高癌症检测的水平。
高毅勤教授介绍道,DNA在染色质中靠得更近时,它们更有可能被共同表达。而在三维空间中位置更接近的DNA片段往往功能更相关,它们编码的蛋白质发生互作的概率也更大。因此,高毅勤教授认为通过分析染色质的三维结构,可以更好地理解基因表达的调控机制,以及不同基因、蛋白质互作在癌症过程中的作用。
讲座现场掠影
利用人工智能预测蛋白质性质
高毅勤教授随后向我们介绍了他们利用人工智能预测蛋白质复合体结构,并获取蛋白质结合信息的研究工作。
与AlphaFold类似,给定蛋白质序列,通过搜索共进化序列信息和结构模版,他们的模型(ColabDock)就可以完成结构预测。目前结构预测模型在蛋白质复合体预测上存在不足,但高毅勤教授发现许多实验成本低廉,却能提供复合体结构的关键信息。通过训练,ColabDock可以从交联、核磁共振、突变扫描等实验中提取约束,优化自己的复合体预测,从而推断出更精确的蛋白质互作信息。而高毅勤教授发现,通过获取通过细胞内、原位、动态的交联信息,能够生成原位、动态复合物结构信息。这有助于我们进一步加深对生命过程的理解。
高毅勤教授也开发了其它基于人工智能与分子计算的模拟、设计平台。例如对蛋白质与小分子进行快速准确的柔性对接预测、通过人工智能生成神经网络力场参数,大幅提高分子动力学模拟的计算效率。这些研究工作对于靶点筛选、药物设计、生命研究有着重要帮助。
最终,结合这些计算工具和染色质三维结构中提示的信息,高毅勤教授找到了癌细胞特异的蛋白质互作。由此,他们筛选药物分子以干扰这个蛋白质互作,从而特异性杀伤细胞。他们的药物已通过初步实验验证,发现药物分子可以有效干扰LLPS的形成、抑制肿瘤类器官生长。
通过端到端模型理解生命过程
分子计算在理解生命过程中展现出了它的潜力,高毅勤教授认为未来的方向是发展端到端的模型。这些模型通过覆盖从小分子到复杂的组学信息,实现更全面的生命过程理解。为了构建这些模型,首先需要大量的前期实验积累数据用于确定参数。并通过模型端到端的特性,利用错误的梯度进一步学习。
随着单细胞测序技术的发展,细胞层面的研究也越来越精细。当前已有多种细胞预训练大模型,如CellPLM、scGPT、scBERT等,在这些模型之上,高毅勤教授提出了他设想的跨层级神经网络:为了在不同层次上进行跨越层级的生物分子研究,可以使用神经网络实现不同生物分子的压缩和特征保存。
小分子:首先生成离散的原子信息,继而生成连续的空间信息,最终形成特定的小分子结构。
蛋白质:通过ProToken将蛋白质结构压缩成一维序列,并使用语言模型进行离散编码。
高毅勤教授认为这样的模型可以借助语言大模型的方法进行训练,完成蛋白质设计任务,并有助于我们更近一步了解生命过程。
在讲座的末尾,高毅勤教授强调,虽然他在这次茶座中介绍了他们目前研究方向的价值与前景,但这并不是唯一的研究方案,甚至这可能是一个错误的方向,希望听众们能对讲座内容批判性接受。但高毅勤教授同样认为,即使这个方向未来可能会被认为没有意义,在这个方向上的探索也有足够价值。
讲座结束后,听众与高毅勤教授产生了激烈的讨论。
韩启德教授向高毅勤教授追问了DNA空间距离与基因表达和蛋白质互作之间相互影响的原因,希望能得到更直接的因果关系。然而,高毅勤教授表示目前还不能得到清晰的、逐条的机理,“这方面的具体知识可能只有上帝知道”。
主持人李新征教授说,我们常见的研究方法是还原论,将系统不断还原到只有一两种关系的最简态。而人工智能是另一种研究方法。李新征教授抛出了他的疑问,能否说还原论仅是人脑无法理解多种关系时的分析方法,面对复杂问题时,还原论不再适用。复杂的、还原论分析不了的世界才是真正的世界。
高毅勤教授认为使用人工智能解决复杂问题和还原论是两种解决问题的方法,需要结合具体情况使用。而即使借助人工智能解决复杂问题,也需要输入人类在科学实践中积累的知识。例如人工神经网络在结构预测任务上的突破也离不开人们对结构的认知: “序列决定结构”、“结构信息存在于共进化信息中”。如果抛开通过还原论得到的先验知识,人工智能也无法解决复杂问题。
有老师问到能否像通过蛋白质序列预测蛋白质三维结构一样,通过DNA序列预测DNA三维结构?高毅勤认为这很难。首先DNA结构不单独由DNA决定,需要结合组蛋白等其它部件稳固结构,导致DNA序列不是唯一决定结构的因素。其次蛋白质一般只有几千个氨基酸,但DNA长度过长,只能粗粒化计算,导致预测效果不佳。
听众与高毅勤教授讨论
随后李新征教授代表前沿交叉学科研究院和听众对高毅勤教授的精彩演讲表示了衷心感谢并赠送了周三茶座纪念品。而值得一提的是,就在讨论期间2024年诺贝尔化学奖揭晓,一半授予David Baker,以表彰其在计算蛋白质设计方面的贡献,另一半则共同授予Demis Hassabis和John M. Jumper,以表彰其在蛋白质结构预测方面的贡献。这近一步肯定了人工智能在生命科学领域的价值。
李新征教授与高毅勤教授合影留念