展望：多模态融合与marker推断

技术进步使得利用高维、高通量、多尺度的生物医学数据从多个角度研究患者和疾病成为可能。在肿瘤学中，正在生成大量数据，从分子、组织病理学到临床记录。深度学习的引入极大地促进了生物医学数据的分析。然而，大多数方法都侧重于单一模态，导致整合互补数据类型的方法进展缓慢。开发有效的多模态融合方法变得越来越重要，因为单一模态不足以捕捉复杂疾病的异质性。现在，许多方案都侧重于整合这些不同的模态，以揭示癌症等疾病所涉及的生物学过程。然而，仍然存在许多障碍，包括缺乏可解释的发现。在这里，作者将介绍当前的挑战，并反思通过深度学习解决多模态可解释性。

来自：Multimodal data fusion for cancer biomarker discovery with deep learning，Nature Machine Intelligence，2023----perspectives

背景概述

医学正朝着收集多模态患者数据的方向发展，整合不同的数据模态可以增强我们对癌症的了解，并为精准医疗铺平道路，精准医疗有望实现个性化诊断、预后、治疗和护理。

新一代测序 (NGS) 的进步现在允许进行多靶点伴随诊断检测，这种检测正变得越来越普遍。成本的持续降低使得同时分析数千个基因组区域成为可能，这暗示多靶点可能很快就会以与单独测试五到十个靶点类似的价格运行。多靶点测试不仅节省时间，而且还有可能识别复杂的遗传相互作用，从而增强我们对肿瘤生物学的理解。Pacific Biosciences 和 Oxford Nanopore Technologies最近在临床环境中用于诊断罕见遗传病，诊断周期仅为 8 小时12。由于癌症往往由多种因素引起，精准肿瘤学领域从这些发展中受益匪浅。

同时，组织病理学和放射学一直是癌症管理过程中临床决策的重要工具。组织病理学评估可以研究组织结构，并且仍然是癌症诊断的金标准。最近，全切片成像 (WSI) 的显著进展已导致从传统组织病理学方法向数字病理学的转变。数字病理学是将传统切片“数字化”为虚拟图像的过程，与更传统的方法相比具有许多实际优势，包括速度、更直接的数据存储和管理、远程访问和可共享性以及高度准确、客观和一致的读数。另一方面是放射成像，这是一种检测和分类癌症病变的非侵入性方法。特别是，计算机断层扫描和磁共振成像 (MRI) 扫描可用于生成恶性病变的图像。

AI和ML技术的不断改进对这些癌症成像生态系统产生了重大影响，尤其是在诊断和预后。目前，组织病理学切片的注释依赖于专门的病理学家。利用基于图像的 AI 应用程序不仅可以减轻病理学家的工作量，而且还有可能进行更高效、可重复和准确的空间分析，从而捕获视觉感知之外的信息。放射组学和病理组学分别是指专注于放射学或组织病理学数字图像的定量分析，目的是提取可用于临床决策的定量特征。这种提取过去是用标准统计方法完成的，但现在可以使用更先进的深度学习 (DL) 框架（例如卷积神经网络、深度自编码器和视觉Transformer）来实现自动化、高通量的特征提取。除了量化已知的手工制作的显著特征，深度学习还能发现未知的特征和关系，从而提供生物学见解。一项著名的肺癌放射组学研究发现，深度学习特征捕捉到了肿瘤区域内外的预后特征，这些特征与细胞周期和转录过程相关。尽管深度学习具有多种能力，但主要挑战之一是需要大量数据集来训练、测试。但是，由于道德限制和注释临床图像的劳动强度，大多数研究只能有限地访问包含真实标记数据的队列。

近年来，人工智能功能在医疗应用中的整合度不断提高。目前研究者正在收集多模态数据，为生物标志物发现提供资源。对于癌症，生物标志物总是令人感兴趣。预后生物标志物（prognostic biomarkers）提供有关患者诊断和总体结果的信息，而预测生物标志物（predictive biomarkers）则提供有关治疗决策和反应的信息。

在此，作者认为，几种常规收集的医疗数据来源没有充分用于诊断和治疗癌症患者，因为它们的研究大多是孤立而非综合的。这些是：（1）电子健康记录-EHR，（2）分子数据，（3）数字病理学和（4）放射图像。如果结合起来，这些模态提供了大量互补的信息，可以利用这些信息更好地对患者群体进行分层并提供个性化护理（图 1）。在接下来的部分中，我们将讨论多模态生物标志物发现对癌症患者的挑战和机遇。主要介绍数据融合策略，并研究解决数据稀缺和模型可解释性的方法。

fig1

图1：在数据融合之前，需要通过不同的步骤将原始数据转化为每种模态的数据表示形式----例如，EHR、分子数据和医学图像。

用于marker发现的多模态融合

医学图像，无论是组织病理学中的二维图像还是放射学中的三维图像，都包含以多种尺度编码的密集信息。重要的是，它们具有高度的空间相关性，任何成功的方法都需要考虑到这一点。到目前为止，表现最佳的方法都是基于深度学习，特别是卷积神经网络。检测、分割、分类和空间表征的不断改进意味着这些方法正在成为癌症生物标志物发现的重要组成部分。

EHR 包含各种数据类型，从结构化数据（例如药物、诊断代码、生命体征或实验室测试）到非结构化数据（例如临床笔记、患者电子邮件和详细临床过程）。目前正在开发能够从结构化和非结构化 EHR 数据中提取有用临床信息的NLP算法。结构化 EHR 源最容易处理。通常，这些数据嵌入到低维向量空间中并输入到循环神经网络 (RNN)。虽然结构化 EHR 数据具有明显的价值，但与非结构化临床数据的见解相结合已被证明可以大大改善临床表型。幸运的是，NLP 的进步现在使得挖掘患者记录的非结构化数据成为可能。处理这些数据的一种方法是将自由文本转换为医学概念并创建低维“概念嵌入”。Word2Vec 和用于词表示的全局向量 (GloVe) 等较旧的方法几乎已被“上下文嵌入”所取代，例如ELMo 和BERT。BERT 基于 Transformer，这是一种自诞生以来就彻底改变了 NLP 领域的架构。

有效的融合方法必须整合高维多模态生物医学数据，从定量特征到图像和文本。以可行的格式表示原始数据仍然具有挑战性，因为 ML 方法不容易接受非矢量化的数据。不同的模态具有不同底层分布和不同不匹配特征。此外，并非所有模态的观测都具有相同的噪声或信息质量。通常，在数据融合过程之前或作为数据融合过程的一部分，需要使用高级特征提取方法（例如基于核的方法、图模型或神经网络）来降低维数，同时保留生物信号。有意义的特征描述是任何模型的关键支柱。

必须做出的一个主要决定是数据融合发生在哪个建模阶段：1.早期，2.中期还是3.后期（图 2）。早期融合的特点是连接不同数据模态的特征向量，并且只需要训练一个模型（图2a）。相反，后期融合则基于分别开发每个数据模态的模型，并将它们的单一预测与特定的平均、加权或其他机制相结合（图 2c）。后期融合不仅允许对每种模态使用不同的、通常更合适的模型，而且还可以更直接地处理数据中缺少某些模态的情况。然而，后期融合忽略了不同模态之间可能存在的协同作用。

虽然早期和后期融合方法都与模型无关，但它们并非专门为应对或充分利用多种模态而设计的。早期和后期融合之间的任何融合都被定义为中期或联合数据融合。中期融合不会合并输入数据，也不会为每种模态开发单独的模型，而是涉及开发推理算法以生成保留每个单独模态信号的联合多模态特征表示（图 2b）。虽然必须为每种模型类型开发专用的推理算法，但这种方法试图利用早期和后期融合的优势。目前没有决定性的证据表明哪一种融合策略更优越，并且特定方法的选择通常是根据现有数据和任务进行。
fig2

图2：a.原始数据被处理成可操作的格式。b.对于每种模态，使用专用编码器算法提取特征。c.早期融合。d.中期融合。e.后期融合。

尽管单一组学技术可以洞悉肿瘤的特征，但单靠一种技术无法完全捕捉到潜在的生物学特性。随着大量多组学癌症数据的收集越来越多，人们开始努力融合多组学数据以全面掌握肿瘤特征。TCGA 研究网络还发表了大量论文，研究多种癌症类型的基因组、转录组、表观基因组和蛋白质组数据的整合。例如，Cheerla 和 Gevaert 使用中期融合策略整合组织病理学、临床和表达数据，以预测多种癌症类型的患者生存率。对于每种模态，无监督编码器将数据压缩为每个患者的单个特征向量。这些特征向量被聚合成一个联合表示。同样，另一项研究提出了一种后期融合策略来对肺癌进行分类。使用 RNA 测序、microRNA 测序、WSI、拷贝数变异和 DNA 甲基化，它们获得的性能优于每种单独模态。

尽管深度学习具有巨大潜力，但其在临床环境中广泛应用的一个关键障碍是缺乏明确的解释。虽然深度学习可以从复杂数据中提取预测特征，但这些特征通常是抽象的。黑盒模型的解释是一个深入研究的课题，一些事后解释方法已被提出。在组织病理学中，大多数工作侧重于通过选择具有最高模型置信度的patches或可视化与最终预测最相关的patches来提取最具信息量的patches（图 3a）。为了以更高的分辨率解释模型预测，可以使用基于梯度的解释方法（例如Grad-CAM）突出显示最相关的区域（图 3b）。同样，对于分子数据，可以通过基于 Shapley 加法解释 (SHAP) 的方法确定和可视化预测特征（图 3d、e）。
fig3