人工智能时代的科学发现
人工智能(AI)正日益被整合到科学发现中,以增强和加速研究,帮助科学家生成假设、设计实验、收集和解释大数据集,并获得使用传统科学方法可能无法获得的见解。在此,我们探讨了过去十年中的一些突破性进展,包括自监督学习(允许模型在大量未标记数据上进行训练)和几何深度学习(利用关于科学数据结构的知识来提高模型的准确性和效率)。生成式AI方法能够通过分析不同的数据模态(包括图像和序列)来设计如小分子药物和蛋白质等。我们讨论了这些方法如何帮助科学家贯穿科学过程的各个阶段,同时指出尽管有这些进展,仍然存在的核心问题。AI工具的开发者和使用者需要更好地理解哪些方法需要改进,而劣质数据质量和数据管理的挑战仍然存在。这些问题跨越了科学学科,需要开发能够自主或通过算法方法来贡献科学理解的基础性方法,使这些问题成为AI创新的关键领域。
科学洞察和理论形成的基础在于数据的收集、转换和理解方式。深度学习在2010年代初的兴起显著扩展了这些科学发现过程的范围和野心。人工智能(AI)正越来越多地应用于各个科学领域,以整合海量数据集、精细化测量、指导实验、探索符合数据的理论空间,并提供可操作且可靠的模型,与科学工作流程集成以实现自主发现。
数据收集和分析是科学理解与发现的基础,这也是科学的两个核心目标。定量方法和新兴技术(如显微镜等物理仪器到引导式抽样等研究技术)长期以来一直被用来实现这些目标。20世纪50年代数字化的引入为计算技术在科学研究中的普遍应用铺平了道路。自2010年代以来,数据科学的崛起使人工智能能够通过从大型数据集中识别出具有科学意义的模式,为研究提供宝贵的指导。
尽管科学实践和程序在科学研究的不同阶段有所差异,AI算法的发展却跨越了传统上相对孤立的学科(见图1)。这些算法能够增强科学研究的设计和执行,逐渐成为研究人员不可或缺的工具。它们通过优化参数和功能、自动化收集、可视化和处理数据的过程、探索广泛的候选假设空间以形成理论,并生成假设并估计其不确定性,从而为提出相关实验提供支持。
图1 | 人工智能时代的科学。科学发现是一个包含多个相互关联阶段的多面过程,包括假设形成、实验设计、数据收集和分析。人工智能通过增强和加速研究过程,有望在科学发现的每个阶段重新塑造科学探索。这里展示的原则和示例性研究突出了人工智能对增强科学理解与发现的贡献。
自2010年代初以来,由于大数据集的可用性大幅增加,加上快速且大规模的并行计算与存储硬件(如图形处理单元和超级计算机)的支持,以及新算法的应用,人工智能方法的能力得到了极大提升。后者包括深度表示学习(见框1),尤其是多层神经网络,能够识别出科学问题所需的关键、紧凑特征,进而解决一系列相关任务。在这些方法中,几何深度学习(见框1)已被证明有助于整合科学知识,通过物理关系、先验分布、约束条件以及其他复杂描述(如分子几何结构)等数学表达,支持科学问题的研究。自监督学习(见框1)使得在有标签或无标签数据上训练的神经网络能够将学习到的表示迁移到仅有少量标签数据的不同领域。例如,通过预训练大型基础模型并将其适应于不同领域的任务,以解决跨领域任务。此外,生成式模型(见框1)能够估计复杂系统的底层数据分布,并支持新的设计。与其他AI应用不同的是,强化学习方法(见框1)通过探索多种可能的场景,制定环境策略,并根据如实验信息增益等指标对不同动作分配奖励。
在由AI驱动的科学发现中,可以通过使用适当的归纳偏置(见框1)将科学知识融入AI模型中。这些归纳偏置是一种假设,以紧凑的数学形式表达结构、对称性、约束和先验知识。然而,应用这些规律可能会导致方程过于复杂,即使使用传统的数值方法人类也难以求解。一种新兴的方法是将科学知识融入AI模型中,包含有关基本方程的信息,如物理定律或分子结构和蛋白质折叠中结合的原理。这些归纳偏置可以通过减少达到同等精度所需的训练样本数量,并将分析扩展到广阔的未探索科学假设空间,从而增强AI模型的效果。
在科学创新和发现中使用AI带来了独特的挑战,与AI应用于其他人类活动领域有所不同。其中最大的挑战之一在于科学问题中假设空间的广阔,使得系统性探索变得不可行。例如,在生物化学中,估计有约10^60种药物分子可供探索。AI系统有可能通过加速过程和提供近似实验精度的预测来革新科学工作流程。然而,为AI模型获得可靠的标注数据集也是一个挑战,因为这往往涉及耗时且资源密集的实验和模拟。尽管面临这些挑战,AI系统仍然能够实现高效、智能且高度自主的实验设计和数据收集,能够在人工监督下运行并对结果进行评估、分析和反应。这些功能推动了人工智能代理的发展,使其能够在动态环境中持续交互,例如在平流层气球的导航中进行实时决策。AI系统在解释科学数据集以及以通用方式从科学文献中提取关系和知识方面也起到了重要作用。最近的研究结果显示,未经过专门训练的语言AI模型具有捕捉复杂科学概念的潜力,例如元素周期性和功能材料的应用,暗示了关于未来发现的潜在知识可能已经嵌入到过去的出版物中。
最近的进展,包括成功破解了50年未解的蛋白质折叠问题和通过AI驱动的数百万粒子分子系统模拟,展示了AI在应对科学难题方面的潜力。然而,这些非凡的发现前景也伴随着“科学AI”(AI4Science)新兴领域所面临的重大挑战。与任何新技术一样,AI4Science的成功依赖于我们将其整合到日常实践中的能力,以及对其潜力和局限性的理解。AI在科学发现中的广泛应用仍面临许多障碍,包括发现过程各阶段所特有的内部和外部因素,以及关于方法、理论、软件和硬件的效用及潜在误用的担忧。我们探讨了AI4Science的最新发展,并围绕科学实践、传统的怀疑态度和实施挑战等关键问题展开讨论。
一、人工智能辅助的科学研究数据收集和整理
实验平台所收集的数据集规模和复杂性不断增加,导致科学研究越来越依赖于实时处理和高性能计算,以便在高速生成的数据中有选择性地存储和分析数据。
1、数据选择
一个典型的粒子碰撞实验每秒生成超过100 TB的数据。这类科学实验正在推动现有数据传输和存储技术的极限。在这些物理实验中,超过99.99%的原始仪器数据代表了背景事件,必须实时检测并丢弃,以管理数据速率。为了识别未来科学研究中的罕见事件,深度学习方法取代了预编程的硬件事件触发器,采用算法搜索异常信号,以检测可能被忽视的未预见或稀有现象。
一个典型的粒子碰撞实验每秒会生成超过100 TB的数据。这类科学实验正不断挑战现有的数据传输和存储技术的极限。在这些物理实验中,超过99.99%的原始仪器数据是背景事件,必须在实时中检测并丢弃,以有效管理数据速率。为识别科学研究中的稀有事件,深度学习方法取代了预编程的硬件触发器,使用算法搜索异常信号,从而检测压缩过程中可能被忽略的意外或罕见现象。
背景过程可通过生成式深度自编码器建模(见框1)。自编码器对未见过的信号(即稀有事件)返回更高的损失值(异常分数),这些信号超出了背景分布范围。与有监督的异常检测不同,无监督异常检测无需数据注释,且已广泛应用于物理学、神经科学、地球科学、海洋学和天文学等领域。
术语 | 解释 |
---|---|
主动学习 | 通过选择最具信息量的训练点来提高AI模型的效果,尤其当数据标注代价高昂时。贝叶斯优化是一种顺序策略,常用于优化昂贵的黑箱函数,通常与主动学习结合,以确定下一次查询黑箱函数的最佳问题。 |
自编码器 | 一种神经结构,学习无标签数据的压缩表示,由编码器(将数据映射到表示)和解码器(从表示中重构数据)组成。 |
数据增强 | 通过生成来自现有数据的新样本,增强模型的鲁棒性和泛化能力。这种过程可以包括替换序列中的标记、更改图像的视觉方面或调整位置等,以保持信息的本质。这种技术不仅增加了数据的多样性,也增加了数据量,从而有助于模型的训练。 |
分布漂移 | AI模型应用中的常见问题,指算法最初训练的数据的底层分布与实际应用过程中遇到的数据分布不一致的现象。 |
端到端学习 | 使用可微组件(如神经网络模块),直接连接输入和输出,避免手动输入特征,支持直接从输入预测结果。 |
生成模型 | 估计数据的概率分布,并从该分布中生成新样本。示例包括变分自编码器、生成对抗网络、归一化流、扩散模型和生成式预训练变换器。 |
几何深度学习 | 处理几何数据(如图或流形)的机器学习分支,通常保留几何数据在变换中的结构,并可应用于3D结构。 |
归纳偏置 | 一组假设或偏好,用于指导AI模型的决策过程,如卷积神经网络中的平移不变性。 |
逆问题 | 一种科学或数学挑战,目标是解密导致观察结果的根本原因或参数。与从原因到结果的直接问题不同,逆问题通过观察推断原因,解决多义性和不稳定性。 |
物理信息AI | 指将物理规律融入AI模型作为一种先验知识的技术。 |
强化学习 | 通过序列决策进行学习的过程,表示为马尔可夫决策过程,包括一个代理人、状态集、动作空间、环境和奖励函数。强化学习的代理人被训练为基于某个状态选择能带来最大累计回报的最优动作。 |
表示学习 | 使用自动化方式生成数据的表示,如图像、文档、序列或图形的表示。这些表示通常是密集的、紧凑的向量,可用于嵌入或提取输入数据的关键信息。 |
自监督学习 | 一种从未标注数据中学习的训练策略。生成式自监督学习如预测数据的一部分,另一种对比式自监督学习定义正负视图并将其分开,提升模型在无标签数据上学习有意义特征的能力。 |
代理模型 | 分析上可处理的模型,用于逼近复杂系统的特性。 |
对称性 | 描述函数的对称性,类似于物理学中的协方差。等变函数保持不变性,例如从特定群体执行相同的变换时输出保持不变的函数。 |
变换器 | 一种神经结构,通过一系列步骤使用注意力机制对序列数据进行并行处理。每一步,注意力机制选择并组合前一步信息,为序列中的每个位置生成新的可微、柔性表示。 |
弱监督学习 | 利用有限、部分或噪声标签数据训练AI模型的学习方法,适用于标注稀缺或标签不可靠的情况。 |
2、数据标注
训练监督学习模型需要带有标注标签的数据集,这些标签提供监督信息,用于指导模型训练,并从输入中估计目标变量的函数或条件分布。伪标签和标签传播是较为吸引人的自动标注替代方案,可以基于少量准确标注的数据自动标注大量未标注数据集。在生物学中,为新鉴定的分子分配功能性和结构性标签的技术对于监督模型的下游训练至关重要,因为实验生成标签的难度很大。例如,尽管下一代测序技术的广泛应用,已测序蛋白质中标注有生物学功能的不到1%。另一种数据标注策略利用在手动标注数据上训练的代理模型对未标注样本进行标注,并使用这些预测的伪标签来监督下游预测模型的训练。相对而言,标签传播通过基于特征嵌入的相似图,将标签扩散到未标注样本。此外,主动学习可以识别最具信息量的数据点进行人工标注或选择最有价值的实验来执行,从而减少模型训练所需的专家提供标签的数量。这种方法允许模型在标签较少的情况下进行训练。数据标注的另一种策略是开发利用领域知识的标注规则。
3、数据生成
深度学习的性能会随着训练数据集的质量、多样性和规模的提升而提高。 一种有效的方法来创建更好的模型是通过自动数据增强和深度生成模型来生成额外的合成数据点,以扩充训练数据集。除了手动设计的数据增强方法之外,强化学习方法可以自动发现适应于不同下游模型的增强策略。
深度生成模型,包括变分自编码器(VAE)、生成对抗网络(GAN)、正则化流模型和扩散模型,能够学习数据的底层分布,从而从优化的分布中采样训练点。特别是生成对抗网络(GAN)在科学图像生成方面已被证明具有优势,因为它们可以在多个领域中合成逼真的图像,例如粒子碰撞事件、病理切片、胸部X光、磁共振成像(MRI)对比度、三维(3D)材料微结构、蛋白质功能以及基因序列。
生成建模中的一种新兴技术是概率编程,在该技术中,数据生成模型被表示为计算机程序。
4、数据优化
高精度仪器,如超高分辨率激光和非侵入性显微系统,能够直接测量物理量或通过计算实际物体来进行间接测量,产生高度精确的结果。AI技术显著提高了测量分辨率,降低了噪声,并消除了测量圆整中的错误,使高精度测量在不同地点保持一致性。
AI在科学实验中的应用示例包括:可视化黑洞等时空区域、捕捉粒子碰撞、提高活细胞图像的分辨率、以及在生物学上下文中更好地检测细胞类型。利用算法进展(如光谱解卷积、灵活稀疏性和生成能力)的深度卷积方法可以将低质量的时空测量转换为高质量、超分辨率且结构化的图像。
在多种科学学科中,去噪是AI的重要任务,旨在区分有意义的信号与噪声,并学习去除噪声。去噪自编码器可以将高维输入数据投射到更紧凑的表示上,保留关键特征,这些自编码器通过最小化未损坏输入数据点与重建噪声数据表示之间的差异来实现去噪。
其他形式的自编码器,例如变分自编码器(VAE;见框1),也常被使用。VAE通过潜在自编码学习出一个随机表示,保留重要数据特征并忽略非必要的变化源,可能地减少了随机噪声。例如,在单细胞基因组学中,优化计数基向量的自编码器在数百万细胞中改进了基因激活的分析,常用于蛋白质-RNA表达分析。
二、学习科学数据的有效表示
深度学习可以在不同的抽象层次上提取科学数据的有效表示,并对其进行优化,以更好地指导研究,通常通过端到端学习实现。高质量的表示应尽可能多地保留数据信息,同时保持简洁易用。科学上有意义的表示应具备紧凑性、判别性,能够分离数据中的潜在变化因素,并编码出可在多个任务中推广的底层机制。本文介绍了三种满足这些要求的新兴策略:几何先验、自监督学习和语言模型。
1、几何先验
在学习表示中引入几何先验被证明是有效的,因为几何和结构在科学领域中起着核心作用。对称性是几何学中的一个重要概念,它可以用不变性和等变性来描述(用于描述数学函数在一组变换下的行为,比如神经网络的特征编码器在 SE(3) 刚体动力学群下的表现)。分子系统的次级结构内容、溶剂可及性、残基紧凑性和氢键模式等关键结构特性在空间方向上保持不变。
在科学图像分析中,物体在图像中发生平移时不会改变,这意味着图像分割掩码在像素平移时保持平移等变性。因此,将对称性纳入模型可以有效利用有限的标注数据集(如3D RNA和蛋白质结构),通过增强训练样本,改进模型对新输入的外推预测能力,使其能够应对训练过程中未遇到的不同情况。
2、几何深度学习
图神经网络(Graph Neural Networks, GNNs)已经成为在具有几何和关系结构的数据集上进行深度学习的一种领先方法(图2a)。广义上讲,几何深度学习旨在发现关系模式,并为神经网络模型引入归纳偏差,使其明确利用图结构和变换群中局部信息的编码。这些编码通过神经消息传递算法实现。根据具体的科学问题,开发了不同的图表示方法,以捕捉复杂系统的特性。比如,方向边能够帮助模拟玻璃系统的物理模型;具有多节点连接的超图则用于染色质结构的理解;基于多模态图训练的模型被用于基因组学中的预测。此外,不规则和高度关联的稀疏图也被应用于大强子对撞机(Large Hadron Collider)中的多个物理任务,包括从探测器读数中重建粒子以及将物理信号与背景过程区分开来。
3、Self-supervised learning(自监督学习)
当只有少量标记样本可用于模型训练,或者为特定任务标注数据成本过高时,监督学习可能不足以应对这种情况。在此情形下,结合标记数据和未标记数据可以提升模型的性能和学习能力。自监督学习是一种使模型能够在不依赖明确标签的情况下,学习数据集一般特征的技术。有效的自监督策略包括预测图像中被遮挡的区域、预测视频中的过去或未来帧,以及通过对比学习来训练模型区分相似与不同的数据点。自监督学习可以作为一个重要的预处理步骤,从大型未标记数据集中学习可迁移的特征,然后在小型标记数据集上进行微调以执行下游任务。这些预训练模型通过对科学领域的广泛理解,成为通用的预测器,能够适应多种任务,从而提升标记效率,并超越单纯的监督学习方法。
4、语言建模
语言建模
掩码语言建模(Masked-language modelling)是一种广泛用于自然语言和生物序列自监督学习的方法(图2c)。将原子或氨基酸(即“标记”)排列成特定结构以实现分子和生物功能,这与字母组成单词和句子以表达文档含义的方式相似。随着自然语言处理和生物序列处理的不断发展,两者相互启发,共同进步。在训练过程中,目标是通过双向序列上下文预测序列中的下一个被掩码的标记。
蛋白质语言模型可以编码氨基酸序列,以捕捉其结构和功能特性,并用于评估病毒变体的进化适应性。这些表示形式可以在多个任务中迁移应用,包括从序列设计到结构预测。在处理生化序列时,化学语言模型使得在广阔的化学空间中进行高效探索成为可能。它们已被用于预测化学性质、规划多步骤合成以及探索化学反应空间。
图2:
图 2 | 学习科学数据的有意义表示
a. 几何深度学习通过利用图结构和神经消息传递策略,集成科学数据的几何、结构和对称性信息,例如分子和材料。通过在图中沿边进行神经消息的交换,同时考虑其他几何先验条件,如不变性和等变约束,这种方法生成了潜在表示(嵌入)。因此,几何深度学习能够将复杂的结构信息整合到深度学习模型中,使得对底层几何数据集的理解和操作更加深入。
b. 为了有效地表示多样化的样本(例如卫星图像),至关重要的是既能捕捉它们的相似性又能捕捉它们的差异性。自监督学习策略,如对比学习,通过生成增强对照样本并对齐正样本,同时分离负样本来实现这一目标。这个迭代过程增强了嵌入的表达能力,产生了更有信息量的潜在表示,从而提高了下游预测任务的表现。
c. 掩码语言建模(Masked-language modelling)有效捕捉了序列数据(如自然语言和生物序列)的语义。这种方法通过将输入的被掩码元素送入转换器(Transformer)模块来进行处理,该模块包含了诸如位置编码等预处理步骤。自注意力机制通过灰色线条表示,线条的颜色强度反映了注意力权重的大小,结合了未掩码输入的表示,以精确预测被掩码的输入。该方法通过在输入的多个元素上重复这种自动完成过程,生成高质量的序列表示。
5、Transformer架构
Transformer是一种神经网络架构模型,能够通过灵活地建模任意标记对之间的交互关系来处理标记序列,超越了之前基于递归神经网络进行序列建模的尝试。Transformers在自然语言处理领域占据主导地位,并成功应用于多种问题,包括地震信号检测、DNA和蛋白质序列建模、序列变异对生物功能的影响建模,以及符号回归等。
尽管Transformers将图神经网络和语言模型进行了统一,其运行时间和内存占用会随着序列长度的增加呈指数级增长,导致效率上的挑战。为了应对这些问题,研究者引入了长程建模和线性化注意力机制来提升效率。因此,非监督或自监督的生成预训练Transformer,以及随后基于参数高效微调的方式,已被广泛应用。
6、神经算子
标准神经网络模型在科学应用中可能表现不佳,因为它们通常假设固定的数据离散化。这种方法不适用于许多科学数据集,这些数据集往往在不同的分辨率和网格上进行采集。此外,数据通常是从连续域中的物理现象中采样的,例如地震活动或流体流动。神经算子通过学习函数空间之间的映射,获得对离散化不敏感的表示形式。神经算子具备离散化不变性,这意味着它们可以处理任何形式的输入离散化,并随着网格细化而收敛。一旦神经算子被训练完成,就可以在任何分辨率下进行评估,而无需重新训练。相比之下,当部署时数据的分辨率与模型训练时不同,标准神经网络的性能可能会大幅下降。
三、基于人工智能的科学假设生成
可验证的假设是科学发现的核心。它们可以有多种形式,从数学中的符号表达式到化学中的分子,以及生物学中的遗传变异。构建有意义的假设可能是一个艰苦的过程,比如约翰内斯·开普勒,他花了四年时间分析恒星和行星数据,最终提出了发现行星运动定律的假设。人工智能方法在这个过程中多个阶段都能提供帮助。它们可以通过从噪声观察中识别出候选符号表达式来生成假设,还可以帮助设计物体,例如能够与治疗靶标结合的分子,或者用来推翻数学猜想的反例,从而建议实验室中的实验评估。此外,人工智能系统可以学习假设的贝叶斯后验分布,并利用它生成与科学数据和知识相兼容的假设。
1、科学假说的黑箱预测器
要确定有前景的科学研究假说,需要有效地筛选大量候选项,并选择那些能够最大化后续模拟和实验产出的假说。在药物研发中,高通量筛选可以评估数千甚至数百万种分子,而算法可以优先挑选出哪些分子值得进行实验性研究。模型可以被训练来预测实验的效用,例如相关的分子性质,或者是符合观察数据的符号公式。然而,针对这些预测器的实验性“真值”数据对许多分子来说可能并不存在。因此,可以使用弱监督学习方法(见Box 1)来训练这些模型,使用噪声较大、有限或不精确的监督信号作为训练数据。这些方法作为从人类专家处获取注释或进行昂贵的计算或高精度实验的经济高效的替代方案(参见图3a)。
基于高保真模拟训练的人工智能方法已被用于有效筛选大规模的分子库,例如160万个有机发光二极管(OLED)材料候选项和110亿种基于合成基团的配体候选项。在基因组学中,利用Transformer结构训练以从DNA序列预测基因表达值,可帮助优先选择基因变异。在粒子物理学中,识别质子中的内在粲夸克涉及筛选所有可能的结构,并将实验数据与每个候选结构进行拟合。
为了进一步提高这些过程的效率,AI挑选出的候选项可以通过中、低通量实验进行验证,并利用实验反馈不断精化候选项。这些结果可以通过主动学习和贝叶斯优化反馈给AI模型,使算法得以不断优化预测,聚焦于最有前景的候选项。
当科学假说涉及到像分子这样复杂的对象时,人工智能方法变得不可或缺。例如,在蛋白质折叠领域,AlphaFold2 可以从氨基酸序列预测蛋白质的3D原子坐标,精度达到原子级,甚至对于训练数据集中不存在的蛋白质结构也能做到。这一突破促进了各种AI驱动的蛋白质折叠方法的发展,如RoseTTAFold。
除了正向问题外,AI方法也越来越多地用于解决旨在理解因果关系的逆向问题。这些问题涉及理解产生某一观测集的原因,例如逆向折叠或固定骨架设计。对于这类问题,AI可以通过训练基于数百万种蛋白质结构的黑箱预测模型,从蛋白质的骨架3D原子坐标预测出氨基酸序列。然而,这些黑箱AI预测器虽然减少了对现有科学知识的依赖,却需要大量的训练数据集,且在可解释性方面存在一定局限。
2、探索组合假设空间
尽管对所有与数据相符的假设进行全面采样是一项艰巨的任务,但一个可行的目标是寻找一个优秀的假设,这可以被转化为一个优化问题。相比于依赖人工设计规则的传统方法,AI策略可以被用来估计每次搜索的回报,并优先选择那些具有更高回报的搜索方向。通常,这些策略由通过强化学习算法训练的智能体来实现。智能体在搜索空间中采取行动,以最大化回报信号,这个回报信号可以被定义为反映生成假设的质量或其他相关标准。
为了解决优化问题,可以通过符号回归任务来实现,这个过程可以使用进化算法完成。进化算法首先生成符号法则作为初始解集,并在每一代中对候选解施加微小的变化。算法会检查这些修改是否产生了比之前更符合观测数据的符号法则,保留最好的解用于下一代。然而,强化学习方法正逐渐替代这一标准策略。强化学习通过神经网络逐步生成数学表达式,依次从预定义的符号词汇中添加数学符号,并使用学到的策略决定下一个要添加的符号。数学公式被表示为解析树,学到的策略使用解析树作为输入,确定需要扩展的叶节点以及从词汇中添加的符号(如图3b所示)。
另一种利用神经网络解决数学问题的方法是将数学公式转换为符号的二进制序列。神经网络策略可以以概率方式逐个字符生成二进制序列。通过设计一种奖励机制来衡量反驳猜想的能力,这种方法可以在对数学问题缺乏先验知识的情况下找到反驳猜想的证据。
组合优化也适用于例如发现具有理想药物特性的分子之类的任务,其中分子设计的每一步都是一个离散的决策过程。在这个过程中,将部分生成的分子图作为输入给学习到的策略,该策略进行离散选择,决定在何处添加新原子以及在分子的选定位置添加哪种原子。通过反复执行这一过程,策略可以生成一系列可能的分子结构,并根据其在目标性质上的适应性进行评估。搜索空间过于庞大,无法探索所有可能的组合,但强化学习可以有效地引导搜索,优先考虑最有前景的分支,以进行进一步的探索。
强化学习方法可以通过一种训练目标来进行优化,该目标鼓励策略从所有合理的解决方案中进行采样(具有高回报),而不是像传统的强化学习中的奖励最大化那样,只关注找到一个单一的最佳解决方案。这些强化学习方法已成功应用于多种优化问题,例如最大化蛋白质表达、规划水电工程以减少亚马逊流域的环境影响,以及探索粒子加速器的参数空间。
AI智能体学习到的策略往往包含一些具有前瞻性的行动,这些行动起初看似不合常规,但最终证明是有效的。例如,在数学领域,监督学习模型可以识别数学对象之间的模式和关系,从而帮助引导直觉并提出猜想。这些分析揭示了以前未知的模式,甚至提出了对世界的新模型。然而,强化学习方法在训练过程中可能难以对未见过的数据进行良好的泛化,因为智能体一旦找到某些有效的动作序列,可能会陷入局部最优解。为提高泛化能力,需要引入探索策略,收集更广泛的搜索路径,这有助于智能体在新的或变化的环境中表现得更好。
3、优化可微分假设空间
科学假设通常表现为离散的对象,例如物理中的符号公式或在制药和材料科学中的化学化合物。虽然组合优化技术在解决这些问题中取得了一些成功,但可微分空间也可以用于优化,因为它适合基于梯度的方法,能够有效找到局部最优解。
为了能够使用基于梯度的优化,通常有两种方法。第一种方法是使用如变分自编码器(VAE)等模型,将离散的候选假设映射到潜在的可微分空间中的点。第二种方法是将离散假设松弛为可微分对象,以便在可微分空间中进行优化。这种松弛可以通过多种形式实现,例如将离散变量替换为连续变量,或者使用原始约束的软版本。
符号回归在物理学中的应用使用了语法变分自编码器(grammar VAEs)。这些模型将离散的符号表达式表示为解析树,使用上下文无关文法将这些解析树映射到可微分的潜在空间中。然后,利用贝叶斯优化在符号法则的潜在空间中进行优化,同时确保生成的表达式在语法上是有效的。
在相关研究中,Brunton及其同事提出了一种方法,通过为预定义的基函数分配可训练的权重来区分符号法则。稀疏回归被用于选择基函数的线性组合,这些基函数能够准确地代表动态系统,同时保持紧凑性。不同于使用预定义归纳偏置来强制对称性的等变神经网络,这种方法可以通过发现对称性来揭示某一领域的特征行为。例如,Liu和Tegmark描述了将不对称性作为平滑损失函数的方法,并最小化该损失函数以提取先前未知的对称性。这一方法被应用于揭示黑洞波形数据中的隐藏对称性,发现了意想不到的时空结构,这些结构在历史上一直是难以发现的。
在天体物理学中,变分自编码器(VAEs)被用于基于预训练的黑洞波形模型来估计引力波探测器的参数。这种方法的速度比传统方法快六个数量级,使得捕捉瞬时引力波事件成为可能。
在材料科学中,热力学规则与自编码器结合,用于设计可解释的潜在空间,以识别晶体结构的相图。在化学领域,类似于简化分子输入线条系统(SMILES)的VAE模型可以将SMILES字符串(即分子结构的化学符号表示)转换为一个可微分的潜在空间,便于通过贝叶斯优化技术进行优化(见图3c)。通过将分子结构表示为潜在空间中的点,我们可以设计可微分的目标,并利用自监督学习对这些目标进行优化,以基于分子的潜在表示来预测分子属性。这意味着我们可以通过AI预测器的梯度反向传播来优化离散的分子结构,从而将分子结构从离散值表示转换为连续值表示。解码器则可以将这些分子表示近似地转换回相应的离散输入。这一方法被应用于蛋白质和小分子的设计中。
在潜在空间中进行优化可以比在原始假设空间中的机制性方法更灵活地对底层数据分布进行建模。然而,在假设空间中稀疏探索的区域进行外推预测时,效果可能并不理想。在许多科学领域,假设空间往往远远大于实验可以实际探索的范围。例如,据估算,可能存在约 1 0 60 10^{60} 1060种不同的分子,而即便是最大的化学库也只包含不到 1 0 10 10^{10} 1010种分子。因此,迫切需要一些方法来有效地对这些广泛未探索的区域进行深入搜索,并识别出高质量的候选解。
图3:
图3 | AI引导的科学假说生成
a. 高通量筛选中,使用训练于实验生成数据集上的AI预测器,可以从大量对象中挑选出具备理想特性的少数经过筛选的对象,从而将候选对象的总数减少几个数量级。这种方法可以利用自监督学习在大量未经筛选的对象上进行预测器的预训练,然后在带有标注结果的筛选对象数据集上对预测器进行微调。实验室评估和不确定性量化可以进一步优化该方法,以简化筛选流程,使其更具成本效益且节省时间,从而加快对候选化学化合物、材料和生物分子的识别。
b. AI导航器(AI Navigator)利用强化学习智能体和设计准则(如奥卡姆剃刀)预测的奖励,集中关注候选假设中最具前景的部分,在符号回归过程中进行探索。图中展示了一个推导牛顿引力定律的例子,得分较低的搜索路径以符号表达树中的灰色分支表示。在预测的最高奖励引导下,这一迭代过程逐渐收敛到与数据一致并满足其他设计准则的数学表达。
c. AI区分器(AI Differentiator)是自编码器模型,可将离散对象(如化学化合物)映射到可微分的、连续的潜在空间中。这个空间可以用于优化这些对象,例如从一个庞大的化学库中选择那些能最大化特定生化终点的化合物。理想化的潜在空间图显示了学习到的潜在空间,其中深色区域表示富含高预测得分对象的区域。利用这一潜在空间,AI区分器可以有效地识别出能够最大化特定目标属性的对象(红色星标所示)。
四、AI驱动的实验和模拟
通过实验评估科学假说是科学发现的关键。然而,实验室实验通常成本高昂且不具备可行性。因此,计算机模拟逐渐成为一种有前景的替代方案,提供了更高效、更灵活的实验可能性。虽然模拟依赖于手工设定的参数和启发式方法来模仿真实世界的场景,但相较于物理实验,它们在精度和速度之间需要权衡,这要求我们理解其背后的机制。
随着深度学习的发展,这些挑战正在逐步被解决。AI可以有效地识别和优化假说,从而提高实验测试的效率,并借助计算机模拟将观测结果与假说建立联系。
1、科学假说的高效评估
AI系统提供了实验设计和优化工具,这些工具能够增强传统科学方法,减少所需的实验次数并节约资源。具体而言,AI系统可以辅助实验测试中的两个关键步骤:规划和引导。在传统方法中,这些步骤通常需要反复试验,这不仅效率低下、成本高昂,有时甚至会危及生命。AI规划提供了一种系统化的方法,用于设计实验、优化实验效率并探索未知领域。同时,AI引导可以将实验过程引向高产出的假说,使系统能够从先前的观测中学习并调整实验方向。
这些AI方法可以是基于模型的,使用模拟和先验知识来引导实验;也可以是无模型的,仅依赖于机器学习算法来进行优化。
AI系统可以通过优化资源的使用并减少不必要的实验,帮助规划实验的设计。与假说搜索不同,实验规划关注的是科学实验设计中涉及的步骤和流程。
一个典型的例子是化学中的合成规划。合成规划涉及找到一系列步骤,通过这些步骤将目标化学化合物从可用的化学物质中合成出来。AI系统可以设计合成目标化合物的路线,从而减少人工干预的需求。主动学习也被用于材料的发现和合成过程中。主动学习通过与实验反馈进行反复交互和学习来优化和精化假设。材料合成是一个复杂且资源密集的过程,要求高效地探索高维参数空间。主动学习利用不确定性估计来探索参数空间,并以尽可能少的步骤来减少不确定性。
在进行实验时,决策往往需要实时适应不断变化的情况。然而,依靠人类经验和直觉来进行此类决策可能既困难又容易出错。强化学习提供了一种替代方案,可以持续响应动态环境的变化,最大化实验的安全性和成功率。例如,强化学习方法已被证明在托卡马克等离子体的磁控中有效,算法与托卡马克模拟器交互,以优化控制过程的策略(见图4a)。
在另一项研究中,一个强化学习智能体利用实时反馈(例如风速和太阳高度角)来控制平流层气球,并找到有利的风流用于导航。在量子物理学中,实验设计需要动态调整,以确定复杂实验的最佳实现方式,这些选择有时可能违反直觉。强化学习方法可以通过反复设计实验并从中获得反馈来克服这一问题。例如,强化学习算法已被用于优化量子系统的测量和控制,从而提高实验的效率和准确性。
2、通过模拟从假设推导可观测量
计算机模拟是一种强大的工具,可以从假设中推导出可观测量,使得那些无法直接测试的假设也可以被评估。然而,现有的模拟技术在很大程度上依赖于对被研究系统的潜在机制的人类理解和知识,这往往不够高效,甚至可能是次优的。AI系统可以通过更精准和高效的学习来增强计算机模拟,比如更好地拟合复杂系统的关键参数、求解控制复杂系统的微分方程、以及模拟复杂系统中的状态变化。
科学家们通常通过创建涉及参数化形式的模型来研究复杂系统,这需要领域知识来确定参数的初始符号表达。例如,分子力场就是一个例子,虽然它们具有可解释性,但在代表广泛的功能上有限,并且需要通过诱导性偏置或科学知识来生成。为了提高分子模拟的准确性,一种基于AI的神经势已经被开发出来,用于替代传统的力场。这种势能够很好地拟合昂贵但精确的量子力学数据。此外,不确定性量化被用于定位高维自由能表面中的能量屏障,从而提高了分子动力学的效率(见图4b)。对于粗粒度分子动力学,AI模型被用于减少大系统的计算成本,通过确定系统需要从学习到的隐藏复杂结构中进行粗化的程度。在量子物理学中,由于灵活性和数据拟合的准确性,神经网络已经取代了手动估计的符号形式,用于参数化波函数或密度泛函。
微分方程在模拟复杂系统的时空动态中至关重要。与传统数值代数求解器相比,基于AI的神经求解器可以更无缝地整合数据与物理知识。这些求解器结合了物理学和深度学习的灵活性,通过将神经网络与领域知识相结合来实现(见图4c)。这些方法已被应用于多个领域中的微分方程求解,包括计算流体动力学、玻璃态系统结构的预测、刚性化学动力学方程的求解,以及求解光线方程以表征地震波的传播时间。
在动力学建模中,连续时间可以通过神经常微分方程来建模。神经网络可以在时空域中使用物理引导的损失来参数化纳维-斯托克斯方程的解。然而,标准卷积神经网络在建模解的精细结构特征方面存在局限性,这个问题可以通过学习运算符来解决,该运算符能够通过神经网络建模函数之间的映射。此外,求解器还必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合来实现,通过图划分来离散化任意结构。
3、利用统计建模对复杂系统进行全面描述
统计建模是一种强大的工具,通过对复杂系统中状态分布的建模,提供了这些系统的全面定量描述。由于其捕捉高度复杂分布的能力,深度生成建模最近在复杂系统模拟中成为了一种有价值的方法。其中一个著名的例子是基于归一化流的玻尔兹曼生成器(见Box 1)。归一化流可以通过一系列可逆的神经网络,将任何复杂分布映射到一个先验分布(例如简单的高斯分布),再返回至原始分布。虽然计算开销较高(通常需要数百甚至数千个神经层),但归一化流能够提供精确的密度函数,从而实现采样和训练。
与传统的模拟不同,归一化流可以通过从先验分布直接采样并应用神经网络来生成平衡态,这使得计算成本固定。该方法增强了晶格场和规范理论中的采样效率,并改善了马尔可夫链蒙特卡洛方法的收敛性,避免因模态混合而无法收敛的问题。
微分方程在模拟复杂系统的时空动态中至关重要。与数值代数求解器相比,基于AI的神经求解器可以更无缝地整合数据和物理知识。这些神经求解器通过将神经网络与领域知识结合,融合了物理学和深度学习的灵活性(见图4c)。这些方法已广泛应用于解决不同领域中的微分方程,包括计算流体力学、预测玻璃态系统的结构、解决刚性化学动力学问题、以及求解光线方程以表征地震波的传播时间。
在动力学建模中,连续时间可以通过神经常微分方程来建模。神经网络能够在时空域中使用物理引导的损失函数来参数化纳维-斯托克斯方程的解。然而,标准的卷积神经网络在建模解的精细结构特征方面存在局限性,这一问题可以通过使用学习算子来解决,该学习算子可以通过神经网络来建模函数之间的映射。此外,求解器还必须能够适应不同的领域和边界条件,这可以通过结合神经微分方程和图神经网络,通过图划分来对任意系统进行离散化来实现。
统计建模是一种强大的工具,通过对复杂系统中的状态分布进行建模,提供了全面的定量描述。由于其捕捉高度复杂分布的能力,深度生成建模最近成为了复杂系统模拟中的一种重要方法。其中一个著名的例子是基于归一化流的玻尔兹曼生成器(参见Box 1)。归一化流可以通过一系列可逆的神经网络,将任意复杂分布映射到一个先验分布(例如简单的高斯分布),然后再映射回原始分布。尽管计算开销较大(通常需要数百或数千层神经网络),归一化流可以提供精确的密度函数,从而实现采样和训练。
与传统模拟不同,归一化流可以通过直接从先验分布中采样并应用神经网络来生成平衡状态,而这种过程的计算成本是固定的。这种方法增强了晶格场和规范理论中的采样效率,同时改进了马尔可夫链蒙特卡洛方法,使其在通常因模态混合而可能不收敛的情况下也能收敛。
五、重大挑战
为了利用科学数据,必须结合模拟和人类专长来构建和应用模型。这种整合为科学发现带来了新的机遇。然而,为了进一步扩大AI在各科学领域中的影响,在理论、方法、软件和硬件基础设施方面仍需要取得显著进展。跨学科合作对于实现通过AI推动科学进步的全面且实用的方法至关重要。
1、实际考量
由于测量技术的限制,科学数据集往往无法直接用于AI分析。这些限制会导致数据集不完整、读数偏差或冲突,以及由于隐私和安全问题而导致的访问受限。因此,需要采用标准化和透明的数据格式,以减轻数据处理的工作负担。模型卡片和数据表是记录科学数据集和模型运行特性的努力的例子。此外,联邦学习和加密算法可以用来防止在公共领域发布具有高商业价值的敏感数据。
利用开放的科学文献、自然语言处理和知识图谱等技术,可以促进文献挖掘,从而支持材料发现、化学合成和治疗科学。
深度学习的应用对“人机协同”的AI驱动设计、发现和评估带来了复杂的挑战。为了自动化科学工作流程、优化大规模模拟代码并操作设备,自动化机器人控制可以利用预测结果,在高通量合成和测试线上执行实验,从而打造“自我驱动”的实验室。生成模型在材料探索中的早期应用表明,可以找到数百万种具备目标特性和功能的潜在材料,并对它们的可合成性进行评估。
例如,King等人将逻辑AI与机器人结合,自动生成关于酵母的功能基因组学假设,并通过实验室自动化来验证这些假设。在化学合成中,AI优化候选合成路径,随后由机器人引导化学反应,完成预测的合成过程。
AI系统的实际应用涉及复杂的软件和硬件工程,需要一系列相互关联的步骤,包括数据整理与处理、算法实现、用户和应用接口的设计等。即使是实现过程中的细微变化也可能导致性能上的显著差异,进而影响AI模型在科学实践中的成功整合。因此,数据和模型的标准化至关重要。
AI方法往往会因模型训练的随机性、模型参数的变化以及训练数据集的演化而面临可重复性问题,这些数据依赖和任务相关的问题使得结果难以复现。标准化的基准测试和实验设计可以缓解这些问题。另一种提高可重复性的方向是通过开源倡议,发布开放的模型、数据集以及教育项目。
2、算法创新
要为科学理解作出贡献,或者自主获取科学知识,算法创新是必不可少的。它能够建立一个基础生态系统,并提供最合适的算法来贯穿整个科学研究过程。
分布外泛化是AI研究的前沿挑战之一。神经网络在特定数据环境中训练时,可能会识别出某些规律,但这些规律在分布发生变化的环境中却未必有效。尽管许多科学规律不是普遍适用的,但它们通常具有广泛的适用性。与当今最先进的AI相比,人类在适应新环境和应对分布变化方面表现得更迅速、更灵活。一种有趣的假说是,这是因为人类不仅构建了对观测现象的统计模型,更建立了因果模型——一个包含各种统计模型的集合,并且能够对不同的干预(例如不同的初始状态、行动策略或环境)进行推理。
在AI中融入因果性仍是一个前沿且具有巨大潜力的研究方向,仍有许多工作需要完成。自监督学习等技术在科学问题中具有巨大潜力,因为它们能够利用海量无标签数据,并将这些知识迁移到数据稀缺的情境中。然而,当前的迁移学习方法往往缺乏系统的理论支持,在底层数据分布发生变化时也容易受到影响。虽然已有一些初步研究尝试解决这些问题,但仍然需要进一步探索,以系统地评估跨领域的迁移能力,并减少负迁移的风险。
为了应对科学家在实际研究中面临的挑战,AI方法的开发和评估必须在现实世界的场景中进行。例如,化学合成路径的可行性设计,以及通过精准的不确定性估计来评估模型的可靠性,这些都是实现AI在真实世界中应用的关键步骤。
科学数据往往具有多模态特性,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热老化)、序列数据(如生物序列)、图结构(如复杂系统)以及3D结构(如蛋白质-配体的构象)。例如,在高能物理领域,喷注是由高能条件下产生的夸克和胶子形成的颗粒流。通过分析这些颗粒流的辐射模式,可以帮助科学家们探索新的物理现象。喷注的子结构可以用图像、序列、二叉树、一般图以及张量集等方式进行描述。
尽管使用神经网络来处理图像的研究已经取得了很大进展,但单独依靠粒子图像处理并不足够。同样,孤立地使用喷注子结构的其他表示形式(如序列或图)也无法提供对复杂系统的整体理解和集成视角。尽管多模态数据的集成仍面临挑战,但神经网络的模块化特性意味着,不同的神经网络模块可以将各种不同类型的数据转换为通用的向量表示,这为多模态数据处理提供了可能性。
科学知识,例如分子中的旋转等变性、数学中的等式约束、生物学中的疾病机制以及复杂系统中的多尺度结构,都可以被纳入人工智能模型中。然而,目前仍不明确的是哪些知识和原则在实际应用中最有帮助和最具可行性。由于AI模型通常需要大量数据来进行训练,尤其是在数据量较少或注释稀疏的情况下,整合科学知识可以有效帮助模型学习。因此,研究必须建立系统的方法,将科学知识有效地整合进AI模型中,并深入理解领域知识与基于测量数据学习之间的取舍与平衡。
人工智能(AI)方法常被视为“黑箱”,这意味着用户难以理解其输出的生成过程,以及哪些输入对结果产生了关键影响。这种“黑箱”特性会降低用户对预测的信任,并限制其在某些领域的应用,尤其是在需要对模型输出有深入理解以便实际应用的情况下,例如太空探索或气候科学中的政策制定。尽管已有许多解释性技术,但深度学习模型的透明性仍然难以实现。
然而,人类大脑即便只能生成不完美的高层次解释,但其能力足以说服他人,这让我们看到了希望:通过以类似人类的高抽象水平对现象进行建模,未来的AI模型有望提供解释性强的输出,达到或超过人类大脑所能提供的价值。这也意味着研究人类高层次认知有可能为深度学习模型带来启发,帮助未来的AI不仅保留当前的深度学习能力,还能操控可语言化的抽象概念,进行因果推理,并实现超出训练分布的泛化能力。
3、科学及科研事业的进展
展望未来,对人工智能(AI)专业知识的需求将受到两大趋势的推动。首先,存在许多能够从AI应用中显著获益的问题,例如自动驾驶汽车等应用领域。其次,智能工具具备提升现有技术水平并创造新机遇的潜力,例如研究生物、化学或物理过程中那些难以通过实验直接观测的长时过程。基于这两大趋势,我们预期未来研究团队将会变得更加多样化,融入AI专家、软件与硬件工程师,并且会有新型的合作形式,涉及各级政府、教育机构和企业。
目前,最先进的深度学习模型仍在不断增长,它们包含数百万甚至数十亿个参数,且参数数量正以十倍的速度逐年增加。训练这些模型需要通过复杂的数学操作传递数据,并通过参数的更新来推动模型的输出接近期望的目标。然而,计算和数据的需求非常巨大,导致了极高的能耗和计算成本。因此,许多大型科技公司纷纷在计算基础设施和云服务上进行大量投资,以推动计算能力和效率的极限。
虽然营利性和非学术组织也能获得广泛的计算资源,但高等教育机构在多学科的整合上具有明显优势。此外,学术机构通常掌握着独特的历史数据集和测量技术,这些在其他地方可能无法获得,但对AI科研至关重要。这些补充性的资源帮助推动了新的行业-学术合作模式,并深刻影响了科学研究的方向及其目标的实现。
随着人工智能(AI)系统的性能逐步接近甚至超越人类,将其用于实验室的常规工作已经变得越来越可行。这种方法使得研究人员能够通过实验数据开发预测模型,并通过不断迭代来选择最佳实验,以改进结果,而无需手动执行繁重的重复性任务。为支持这一转型,各类教育项目应运而生,旨在培训科学家设计、实施和应用实验室自动化及AI于科学研究中。这些培训帮助科学家理解如何恰当地使用AI,避免对AI分析得出错误的结论。
AI工具的误用以及其结果的误解可能会导致严重的负面后果。由于AI应用范围广泛,这些风险可能会进一步扩大。然而,AI的误用不仅仅是技术层面的问题,还与引领AI创新和投资AI技术实施的机构的动机息息相关。建立伦理审查程序以及负责任的实施策略至关重要,其中包括全面评估AI的适用范围和应用场景。此外,还必须考虑与AI相关的安全风险,尤其是在算法更容易被重新用于双重用途的情况下。由于算法的高度灵活性,它们可能为一种用途开发,但最终却被应用于另一种用途,这带来了安全威胁和被滥用的可能性。
随着人工智能(AI)系统的性能逐步接近甚至超越人类,将其用于实验室的常规工作已经变得越来越可行。这种方法使得研究人员能够通过实验数据开发预测模型,并通过不断迭代来选择最佳实验,以改进结果,而无需手动执行繁重的重复性任务。为支持这一转型,各类教育项目应运而生,旨在培训科学家设计、实施和应用实验室自动化及AI于科学研究中。这些培训帮助科学家理解如何恰当地使用AI,避免对AI分析得出错误的结论。
AI工具的误用以及其结果的误解可能会导致严重的负面后果。由于AI应用范围广泛,这些风险可能会进一步扩大。然而,AI的误用不仅仅是技术层面的问题,还与引领AI创新和投资AI技术实施的机构的动机息息相关。建立伦理审查程序以及负责任的实施策略至关重要,其中包括全面评估AI的适用范围和应用场景。此外,还必须考虑与AI相关的安全风险,尤其是在算法更容易被重新用于双重用途的情况下。由于算法的高度灵活性,它们可能为一种用途开发,但最终却被应用于另一种用途,这带来了安全威胁和被滥用的可能性。
六、结论
人工智能(AI)系统能够促进科学理解,支持对其他方法难以可视化或探测的过程和对象进行深入研究。同时,AI通过结合数据建模、模拟和可扩展计算,系统地激发科学新想法。要充分实现这一潜力,我们必须通过负责任和审慎的技术部署来解决AI带来的安全和隐私问题。
为了在科学研究中负责任地应用AI,需要评估AI系统的不确定性、误差和实际效用。这样的理解对于准确解读AI的输出,并避免对可能存在缺陷的结果过度依赖至关重要。随着AI系统的不断演进,优先确保可靠的实施和适当的安全保障,是降低风险并最大化收益的关键。AI有着巨大的潜力,可以解锁那些过去难以企及的科学发现。
人工智能(AI)系统能够促进科学理解,支持对其他方法难以可视化或探测的过程和对象进行深入研究。同时,AI通过结合数据建模、模拟和可扩展计算,系统地激发科学新想法。要充分实现这一潜力,我们必须通过负责任和审慎的技术部署来解决AI带来的安全和隐私问题。
为了在科学研究中负责任地应用AI,需要评估AI系统的不确定性、误差和实际效用。这样的理解对于准确解读AI的输出,并避免对可能存在缺陷的结果过度依赖至关重要。随着AI系统的不断演进,优先确保可靠的实施和适当的安全保障,是降低风险并最大化收益的关键。AI有着巨大的潜力,可以解锁那些过去难以企及的科学发现。