笔记整理:沈小力,东南大学硕士,研究方向为多模态大预言模型、知识图谱
论文链接:https://arxiv.org/abs/2401.12863
发表会议:AAAI2024
1. 动机
本文探索了知识图谱在扩展大语言模型的多模态能力的效果,提出了KAM-CoT框架。将CoT(Chain-of-Thought)推理、知识图谱(KGs)以及多种模态融入大语言模型,以促进对多模态任务的综合理解。在多模态视觉问答(VQA)任务上,该框架在较少的训练参数下达到了当前的SOTA效果。
KAM-CoT框架旨在应对多模态理解和幻觉问题的挑战,并力图用较低的可训练参数数量(280M)实现能与更大模型相比的高性能。KAM-CoT创新性地将知识图谱和CoT推理相结合:通过在推理过程中引入外部知识,提高了模型对复杂问题的解决能力和答案的质量。
如上图所示,该图展示了一个视觉问答任务,通过问题“这次推的方向是什么?”(选项:朝向或远离棍子),结合图中女孩用棍子打皮纳塔的场景,以及知识图谱中“推”和“拉”动作的语义关系(推对应远离,拉对应朝向),最终得出答案为“远离棍子”。知识图谱的加入,通过明确语义关系、消除歧义和强化理解,显著提高了视觉问答系统的理解和回答准确性。
2. 方法
下面介绍本文的核心想法,如下图所示:
KAM-CoT该模型接收三种模态的输入:
Text Encodinng模块:使用基于Transformer的语言编码器对文本信息进行编码。
Image Encoding模块:利用基于Transfomer的图片编码器对图片信息进行编码。
Graph Encoding模块: 首先,该工作针对问题及其上下文抽取相关子图。该工作以ConceptNet作为知识源,根据问题的上下文抽取相关的三元组(triples),其中,三元组中的关系分为17种不同的类型,每种类型可以是前向或后向的,总共产生34种可能的边的类型。三元组之后被转化为句子,并存储为相应的句子模式。这些模式用于从问题、上下文和答案选项中提取节点。然后,通过考虑每个节点的一跳(1-hop)和二跳(2-hop)邻居节点,构建一个连接所有相关节点的图。子图提取完成后,该工作利用GNN对图数据进行编码。
此外,KAM-CoT框架采用了一个两阶段的输出过程:
第一阶段:生成推理(Rationale Generation),该阶段的目标是生成一个推理过程,帮助理解问题到答案的逻辑步骤。输入包括文本、图像和图特征,这些通过各自的编码器进行处理。然后,模型通过交叉注意力机制整合这些信息,最终通过Transformer解码器生成推理过程的文本。
第二阶段:答案识别(Answer Identification)。在此阶段,模型会使用第一阶段生成的推理过程作为额外的输入,来选择或生成正确的答案。具体而言,模型将第一阶段生成的推理文本与原始问题、上下文和答案选项一起作为输入。在这个过程中,模型会重复第一阶段的编码、交互和融合步骤,但这次会包含推理文本作为输入的一部分。最后,模型基于扩展的输入和融合的特征表示,使用Transformer解码器再次生成或选择正确的答案,并输出最终结果,该结果还会包含相应的解释或推理过程。
3. 实验
本文的主要实验结果如下图所示:
实验结果表明,在没有其他辅助模型的条件下,本文提出的KAM-CoT在300M的模型大小下优于所有其他已知的方法。其中:KAM-CoT在ScienceQA数据集上表现出色,平均准确率达到93.87%,分别超过了GPT-3.5(75.17%)18%和GPT-4(83.99%)10%。
作者对模型中不同组件对最终性能的具体影响进行了研究:结果显示,将标题作为上下文并用于节点提取可以提高模型的平均准确率。
此外,作者研究了不同图形编码器对实验结果的影响:对比CLIP,本文工作使用的DETR图形编码器达到了更高的准确率以及更高的RougeL分数:
作者还对使用不同数量的节点对结果的影响进行了研究:结果显示,更多的节点有助于模型更好地进行推理和选择正确答案:
4. 总结
该论文提出了KAM-CoT(知识增强的多模态链式思维推理),这是一种增强语言模型推理能力和答案质量的方法。KAM-CoT框架结合了链式思维(CoT)推理、知识图谱(KGs)和其他模态,以全面理解多模态任务。研究中提出了一些融合这些模态的方法,并发现将KG纳入两阶段训练过程中有助于减少幻觉(hallucinations)。尽管KAM-CoT仅使用了2.8亿个参数,但它在ScienceQA数据集上达到了93.87%的平均准确率,超越了GPT-3.5(75.17%)和GPT-4(83.99%),分别提高了18%和10%,显示出了其成本效益和有效性。
未来的工作方向包括进一步整合特定的知识密集型领域,探索高效的融合机制,并希望将此解决方案扩展到像LLaMA家族这样的更大规模的模型上。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。