作为一种新的科研范式,AI for Science不仅有助于提升科研效率、突破研究瓶颈,还可能改变现有的学科体系和知识共同体结构。它的发展动力从何而来?发展状态怎样?前景又如何?回答这些问题的意义已超越科学研究本身的范畴,更是研究个体、机构及其所在国家把握时代机遇的前提。
2022年9月28日下午4点,本学期第一期“周三茶座”有幸邀请到了中国科学院院士、北京大学国际机器学习研究中心主任、北京科学智能研究院院长、北京大学数学科学学院教授鄂维南为大家讲解“AI for Science”。中国科学院院士、北京大学物理学院王恩哥教授主持了此次茶座。
主持人王恩哥教授介绍主讲人
本次茶座从科学研究的基本范式切入,结合科学研究的最新进展,展现了AI for Science的重大价值,并结合北京科学智能研究院的情况,讨论了新形势下建立新科研基础设施、确立研究课题和目标、开拓工业制造新业态的路径。
主讲人鄂维南教授
一、AI for Science之前:牛顿范式和开普勒范式
科学研究的基本目的是寻求基本规律和解决世纪问题,并由此产生了两种科学研究的方法,即开普勒范式和牛顿范式。两种范式各有优势,刺激了科学研究的发展,但也存在各自的困境与瓶颈。
开普勒范式是从数据中直接总结规律以解决实际问题。该范式高效,但其内在逻辑却不易解释,且数据和数据分析方式的缺乏严重影响其效能。
牛顿范式是通过寻求基本原则解决实际问题。该范式深刻,可以把行星运动规律变成一个数字(微分方程)问题,使物理学成为自然科学、工程科学的基础,并在流体力学、量子力学和空气动力学等领域获得了运用和突破性进展。其中,量子力学的建立宣告寻求基本原理的任务已经基本完成,剩下的主要任务是解决量子力学基本方程所带来的数学问题,由此,物理(科学)问题变成了数学(微分)问题。但是,牛顿范式却难以用来解决实际问题,且面临着模型本身不可靠和算法不够有效等问题,理论研究的场景与实际问题的场景距离太远,且实际问题只能通过经验和试错的办法解决。
讲座现场掠影
二、AI for Science进行时:两个时代
(一)第一时代:“电子计算机+经典数值方法”
两大基本方法的困境促使科学研究者探索解决的方式,并催生了自20世纪50年代以来“电子计算机+数值方法”的突破。该范式的基本出发点是用(分片)多项式有效逼近一般函数,运用差分方法、有限元方法和谱方法等,第一次大规模地实现了直接用基本原理解决实际问题,并在结构力学、航空航天、天气预报和石油勘探与开成等领域带来巨大影响,成为现代工业和技术赖以生存的基本。然而,该范式也还存在诸多未解决的问题,如材料的形式与设计、燃烧问题、化学反应、催化剂设计、分子、药物的性质及设计,等等。究其原因,时间尺度和多个自由度的问题是造成这种困难的关键,多个自由度带来了维数灾难。
(二)第二时代:AI驱动的方法
深度学习在图像识别、人脸照片生成和AlphaGo围棋竞技等领域获得了多元进步,其本质是在解决某个高维数学问题,对高维函数提供了有效的逼近方法。正是由于函数是最基本的数学工具(之一),所以深度学习能够产生如此深远的影响。同样,我们也可以借助于深度学习来解决物理模型中碰到的高维问题。这种方法的有效实施,推动牛顿范式进入了新的阶段。但深度学习应用到物理模型与通常AI的应用有所不同:首先,不能违反基本物理规律,所以需要设立特殊的网络架构;要使机器学习帮助构造有效、可靠、可解释的物理模型,就需要使其具备可扩展性,从物理原理出发并遵循物理规律(对称性、守恒律等)。
其次,数据的来源带来新的问题。比方说分子动力学里势能函数的模型需要用到的数据通常是通过量子力学模型计算出来。但是这样的计算都非常耗时。所以要得到高效、可靠的势能函数模型就需要有高效的自适应的数据获取方法。
开普勒范式新阶段的典型案例则是DeepMind的蛋白质折叠算法。通过新的机器学习算法,并深挖蛋白质序列空间的结构,DeepMind 的AlphaFold 2 一举解决了困惑科学界多年的蛋白质结构问题。这是到目前为止,AI for Science 最醒目的成果。
讲座现场掠影
AI for Science 的方法究竟能够走多远?要回答这个问题,我们需要研究一下我们有哪些数据?可以整理出哪些数据?以及有哪些新的数据收集方法?首先,在生命科学、天文学、地理学、化学和材料科学等领域,我们需要梳理一下已有的数据资源。其次,我们应该探索以采集数据为目标的实验设计,形成新的实验手段,包括谱学数据分析能力、计算、自动化合成以及高通量成像技术等;再次,做好数据管理和利用工作,建立数据共享平台和数据库,如形成开源社区,实现从单个软件到软件矩阵的升级。
另一方面,量子多体问题是几乎所有物理模型的基础,尤其是在微观领域。量子多体问题算法上的突破是AI for Science 范式的另外一个重要基础。
2018年夏天,AI for Science会议在燕园举办。这是国际上首次运用该名称的研讨会。经过4年的发展,AI for Science已经成为一种具有普遍性和共识性的理念。主讲人带领团队成员,建立北京科学智能研究院,在构建开源社区和垂直整合团队方面取得巨大突破,使科学研究能够直面实际问题。
2018年由鄂维南和汤超策划组织的讨论会中,AI for Science这一概念首次被明确提出
三、AI for Science的未来
AI for Science未来发展潜力巨大。首先,能够推动下一代工业制造;其次,将科学研究从“小农作坊”向“安卓”模式转变,使建立新的平台科技,推动“社区建设”成为重要趋势;最后,由此形成彻底的交叉科学文化,即打破学科界限,打破理论、计算和实验之间的界限,打破科研与产业之间的界限。
鄂维南教授的演讲不仅带领听众追溯了科学研究发展的各个阶段,也引发听众对科学研究的未来展开激烈讨论。韩启德教授、汤超教授、朱彤教授、王杉教授、李新征教授、俞孔坚教授等与会嘉宾针对AI for Science的现状,结合发言人的研究领域,讨论了从开普勒和牛顿范式的承接关系到机器学习对数据偏差的处理,从AI for Science与新一代工业制造的具体案例到交叉科学实践的可能性等问题,再一次带领听众徜徉于科学研究的历史与未来、宏观与微观海洋中,彰显出AI for Science的影响之广阔、意义之深远。
互动与交流
最后,王恩哥教授代表前沿交叉学科研究院和现场听众对鄂维南教授表示衷心感谢并赠送了纪念海报,本次讲座在暮色中落下帷幕。
赠送纪念海报
文字:谭萌、鄂维南
图片:冯慧敏