论文浅尝 | KAM-CoT: 利用知识图谱进行知识增强的多模态链式推理（AAAI2024）

笔记整理：沈小力，东南大学硕士，研究方向为多模态大预言模型、知识图谱

论文链接：https://arxiv.org/abs/2401.12863

发表会议：AAAI2024

1. 动机

本文探索了知识图谱在扩展大语言模型的多模态能力的效果，提出了KAM-CoT框架。将CoT（Chain-of-Thought）推理、知识图谱（KGs）以及多种模态融入大语言模型，以促进对多模态任务的综合理解。在多模态视觉问答（VQA）任务上，该框架在较少的训练参数下达到了当前的SOTA效果。

KAM-CoT框架旨在应对多模态理解和幻觉问题的挑战，并力图用较低的可训练参数数量（280M）实现能与更大模型相比的高性能。KAM-CoT创新性地将知识图谱和CoT推理相结合：通过在推理过程中引入外部知识，提高了模型对复杂问题的解决能力和答案的质量。

如上图所示，该图展示了一个视觉问答任务，通过问题“这次推的方向是什么？”（选项：朝向或远离棍子），结合图中女孩用棍子打皮纳塔的场景，以及知识图谱中“推”和“拉”动作的语义关系（推对应远离，拉对应朝向），最终得出答案为“远离棍子”。知识图谱的加入，通过明确语义关系、消除歧义和强化理解，显著提高了视觉问答系统的理解和回答准确性。

2. 方法

下面介绍本文的核心想法，如下图所示：

KAM-CoT该模型接收三种模态的输入：

Text Encodinng模块：使用基于Transformer的语言编码器对文本信息进行编码。
Image Encoding模块：利用基于Transfomer的图片编码器对图片信息进行编码。
Graph Encoding模块：首先，该工作针对问题及其上下文抽取相关子图。该工作以ConceptNet作为知识源，根据问题的上下文抽取相关的三元组（triples），其中，三元组中的关系分为17种不同的类型，每种类型可以是前向或后向的，总共产生34种可能的边的类型。三元组之后被转化为句子，并存储为相应的句子模式。这些模式用于从问题、上下文和答案选项中提取节点。然后，通过考虑每个节点的一跳（1-hop）和二跳（2-hop）邻居节点，构建一个连接所有相关节点的图。子图提取完成后，该工作利用GNN对图数据进行编码。

此外，KAM-CoT框架采用了一个两阶段的输出过程：

第一阶段：生成推理（Rationale Generation），该阶段的目标是生成一个推理过程，帮助理解问题到答案的逻辑步骤。输入包括文本、图像和图特征，这些通过各自的编码器进行处理。然后，模型通过交叉注意力机制整合这些信息，最终通过Transformer解码器生成推理过程的文本。
第二阶段：答案识别（Answer Identification）。在此阶段，模型会使用第一阶段生成的推理过程作为额外的输入，来选择或生成正确的答案。具体而言，模型将第一阶段生成的推理文本与原始问题、上下文和答案选项一起作为输入。在这个过程中，模型会重复第一阶段的编码、交互和融合步骤，但这次会包含推理文本作为输入的一部分。最后，模型基于扩展的输入和融合的特征表示，使用Transformer解码器再次生成或选择正确的答案，并输出最终结果，该结果还会包含相应的解释或推理过程。

3. 实验

本文的主要实验结果如下图所示：

实验结果表明，在没有其他辅助模型的条件下，本文提出的KAM-CoT在300M的模型大小下优于所有其他已知的方法。其中：KAM-CoT在ScienceQA数据集上表现出色，平均准确率达到93.87%，分别超过了GPT-3.5（75.17%）18%和GPT-4（83.99%）10%。

作者对模型中不同组件对最终性能的具体影响进行了研究：结果显示，将标题作为上下文并用于节点提取可以提高模型的平均准确率。

此外，作者研究了不同图形编码器对实验结果的影响：对比CLIP，本文工作使用的DETR图形编码器达到了更高的准确率以及更高的RougeL分数：

作者还对使用不同数量的节点对结果的影响进行了研究：结果显示，更多的节点有助于模型更好地进行推理和选择正确答案：

4. 总结

该论文提出了KAM-CoT（知识增强的多模态链式思维推理），这是一种增强语言模型推理能力和答案质量的方法。KAM-CoT框架结合了链式思维（CoT）推理、知识图谱（KGs）和其他模态，以全面理解多模态任务。研究中提出了一些融合这些模态的方法，并发现将KG纳入两阶段训练过程中有助于减少幻觉（hallucinations）。尽管KAM-CoT仅使用了2.8亿个参数，但它在ScienceQA数据集上达到了93.87%的平均准确率，超越了GPT-3.5（75.17%）和GPT-4（83.99%），分别提高了18%和10%，显示出了其成本效益和有效性。

未来的工作方向包括进一步整合特定的知识密集型领域，探索高效的融合机制，并希望将此解决方案扩展到像LLaMA家族这样的更大规模的模型上。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。