计算机人工智能前沿进展-大语言模型方向-2024-09-22

计算机人工智能前沿进展-大语言模型方向-2024-09-21

引言:

全球最热销的国产游戏-《黑神话: 悟空》不仅给世界各地玩家们带来愉悦，而且对计算机人工智能研究也带来新的思考。在本期的论文速读中，我们带来一篇关于视觉语言模型（VLMs）应用于动作角色扮演游戏的研究论文。这篇论文探索视觉语言模型（VLMs）在玩动作角色扮演游戏时的优势与挑战，提出一个新颖的VARP（视觉动作角色扮演）智能体框架，包括动作规划系统和视觉轨迹系统。该框架展示了执行基本任务的能力，并在**90%**的简单和中等难度战斗场景中取得成功。

此外，在第7篇论文中，一种名为AgentCOT的新型框架被提出，通过将大型语言模型作为自主代理并采用多轮生成的方式，解决了传统链式思考提示在复杂推理任务中面临的幻觉问题、解释性限制和生成不可控的问题，并引入了增强策略来提升框架性能。

想要了解更多具体内容，欢迎查看本文后续相关内容。如果您对本系列感兴趣，欢迎三连击(点赞，关注和评论)，我们将持续为您带来计算机人工智能前沿-大语言模型研究-最新的学术论文速读内容。
在这里插入图片描述

1. RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models

Authors: Abhinav Jain, Chris Jermaine, Vaibhav Unhelkar
在这里插入图片描述

RAG-Modulo: 利用经验、批评者和语言模型解决顺序任务

摘要
大型语言模型（LLMs）最近作为解决具有动作和观测不确定性的机器人任务的有前途的工具出现。基于LLM的决策方法（也称为LLM代理）与适当的批评者配对，已显示出在解决复杂、长期任务方面的潜力，且交互次数相对较少。然而，大多数现有的LLM代理缺乏保留和从过去交互中学习的能力——这是基于学习的机器人系统的基本特征。我们提出了RAG-Modulo，一个框架，通过过去交互的记忆和整合批评者来增强基于LLM的代理，以评估代理的决策。记忆组件允许代理自动检索并将相关的过去经验作为上下文示例纳入，为更有信息的决策提供上下文感知反馈。通过更新其记忆，代理随着时间的推移提高了性能，从而表现出学习。通过在具有挑战性的BabyAI和AlfWorld领域进行实验，我们展示了任务成功率和效率的显著提高，表明所提出的RAG-Modulo框架优于最先进的基线。

创新点

RAG-Modulo框架：提出了一个基于LLM的代理框架，它通过构建经验数据库（交互记忆）来学习，而不是通过反向传播。
检索机制：使LLM代理能够从记忆中获取与当前任务相关的上下文感知交互作为上下文示例，自动调整提示并减少手动努力。
实验验证：在AlfWorld和BabyAI的挑战性任务中展示了RAG-Modulo框架的性能，通过最少的环境交互展示了改进的性能。

算法模型
RAG-Modulo算法模型包括以下几个关键部分：

交互记忆（M）：存储过去交互的数据库，用于在任务的每一步引导机器人决策。
检索机制：在每个决策步骤中，从记忆中检索与当前任务和情况最相关的交互，用作上下文示例。
批评者和反馈：包括语法、语义和低级策略批评者，提供关于LLM选择的动作的反馈。
存储和检索：成功完成任务后，将交互存储在记忆中，以便将来检索。

实验效果
BabyAI-Synth：成功率（SR）0.48 ± 0.1，不可执行数（InExec）5.18 ± 1.18，平均长度（Len）14.82 ± 2.14。
BabyAI-BossLevel：成功率（SR）0.57 ± 0.1，不可执行数（InExec）3.74 ± 0.78，平均长度（Len）12.48 ± 1.49。
AlfWorld-Seen：成功率（SR）0.52 ± 0.08，不可执行数（InExec）5.36 ± 1.39，平均长度（Len）20.54 ± 1.71。
AlfWorld-Unseen：成功率（SR）0.54 ± 0.09，不可执行数（InExec）7.17 ± 1.73，平均长度（Len）19.64 ± 1.75。

实验结果表明，RAG-Modulo在任务成功率和效率方面显著优于现有技术。

推荐阅读指数：
★★★★☆
推荐理由：
这篇论文提出了一个创新的框架，通过结合记忆组件和批评者反馈，显著提高了基于大型语言模型的机器人代理在复杂任务中的性能。其实验结果令人印象深刻，展示了在具有挑战性的环境中的有效性。

2. Autoformalization of Game Descriptions using Large Language Models

Authors: Agnieszka Mensfelt and Kostas Stathis and Vince Trencsenyi

利用大型语言模型自动形式化游戏描述

摘要
博弈论是一个强大的框架，用于推理策略互动，其应用范围从日常生活到国际政治。然而，在这些情境中应用正式推理工具是具有挑战性的，因为它们通常用自然语言表达。为了解决这个问题，我们引入了一个自动形式化博弈论场景的框架，该框架将自然语言描述转换为适用于形式化求解器的正式逻辑表示。我们的方法利用一次性提示和提供语法正确性反馈的求解器，允许大型语言模型（LLM）完善代码。我们使用GPT-4o和自然语言问题描述数据集评估了框架，实现了98%的语法正确性和88%的语义正确性。这些结果表明了LLM在弥合现实生活策略互动与正式推理之间差距方面的潜力。

创新点

自动形式化框架：首次提出一个将自然语言描述转换为博弈论场景的正式逻辑表示的框架。
一次性提示与反馈机制：利用一次性提示和求解器反馈，使LLM能够自动修正和完善代码。
数据集创建：开发了一个包含105个可以用博弈论建模的场景的自然语言描述的数据集，涵盖标准和非标准描述。

算法模型

LLM（大型语言模型）：使用GPT-4o进行自然语言到形式逻辑的转换。
求解器：提供语法正确性的反馈，辅助LLM进行代码修正。
自动形式化算法：通过迭代提示和求解器验证，生成特定游戏的形式化逻辑程序。

实验效果

语法正确性：98%的语法正确性，表明生成的Prolog程序在语法上是正确的。
语义正确性：88%的语义正确性，表明生成的程序在逻辑和策略上与自然语言描述相匹配。
实验数据：通过标准和非标准博弈场景的测试，验证了模型的泛化能力。

结论
研究表明，LLM可以作为现实生活策略互动与博弈论框架之间的桥梁，有助于在这些场景中使用正式工具找到最优策略。

推荐阅读指数：
★★★★☆

推荐理由：
这篇论文在博弈论和自然语言处理的交叉领域提供了有价值的见解，展示了如何利用最新的大型语言模型来自动形式化复杂的策略互动场景。

3. KnowFormer: Revisiting Transformers for Knowledge Graph Reasoning

Authors: Junnan Liu, Qianren Mao, Weifeng Jiang, Jianxin Li

KNOWFORMER: 重新审视用于知识图谱推理的Transformer

摘要
知识图谱推理在各种应用中扮演着重要角色，并受到了广泛关注。近期基于路径的方法取得了令人印象深刻的性能，但它们可能面临消息传递神经网络的限制，例如缺失路径和信息过度压缩的问题。在本文中，我们重新审视了Transformer在知识图谱推理中的应用，以解决基于路径的方法所面临的限制，并提出了一种新的方法KNOWFORMER。KNOWFORMER利用Transformer架构从消息传递的角度对知识图谱进行推理，而不是像以前的基于预训练语言模型的方法那样通过文本信息进行推理。具体来说，我们基于知识图谱推理的查询原型定义了注意力计算，便于构建和高效优化。为了将结构信息纳入自注意力机制，我们引入了结构感知模块分别计算查询、键和值。此外，我们提出了一种高效的注意力计算方法，以实现更好的可扩展性。实验结果表明，KNOWFORMER在传导性和归纳性基准测试中的性能均优于突出的基线方法。

创新点

结构感知的注意力机制：提出了一种新颖的注意力机制，专为知识图谱推理设计，能够捕获实体对之间的交互。
查询原型：基于实体对作为查询原型的可能性来计算注意力分数，减少了计算复杂性。
结构感知模块：引入了基于关系的消息传递神经网络，用于生成查询、键和值的表示，考虑了结构信息。
高效的注意力计算：提出了一种近似方法，保持了与实体数量成线性关系的复杂度，并提供了稳定性和表达性的理论保证。

算法模型

注意力机制：重新定义了自注意力机制，以基于实体对作为查询原型的可能性进行加权聚合。
结构感知模块：包括查询函数、值函数和核函数，用于生成区分查询原型的信息性表示。
近似方法：采用一阶泰勒展开近似指数函数，降低了计算复杂度。

实验效果

传导性基准测试：在FB15k-237、WN18RR、NELL-995和YAGO3-10数据集上，KNOWFORMER在多数情况下均优于现有技术。
归纳性基准测试：在FB15k-237、WN18RR和NELL-995数据集的不同版本上，KNOWFORMER在大多数指标上均展现出最高的性能。
消融研究：证明了所提出的注意力机制在KNOWFORMER中的重要性，以及结构感知模块对模型性能的贡献。

结论
KNOWFORMER通过引入结构感知的注意力机制和高效的计算方法，在知识图谱推理任务中取得了优异的性能。该方法在传导性和归纳性场景下均展现出强大的推理能力。

推荐阅读指数：★★★★☆
推荐理由：这篇论文针对知识图谱推理任务提出了一种新颖的Transformer架构，有效地解决了现有路径方法的局限性。论文的实验部分详细且全面，证明了KNOWFORMER在多种基准数据集上的有效性。对于从事知识图谱、自然语言处理和图神经网络研究的学者和工程师来说，这篇论文提供了有价值的见解和方法论。

4. Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case

Authors: Peng Chen, Pi Bu, Jun Song, Yuan Gao, Bo Zheng

视觉语言模型能玩动作角色扮演游戏吗？以《黑神话：悟空》为例
在这里插入图片描述

摘要
近期，基于大型语言模型（LLM）的智能体在多个领域取得了显著进展，尤其是在视频游戏中应用这些智能体已成为研究热点。传统方法通常依赖游戏API来获取游戏环境和动作数据，但这种方法受限于API的可用性，并且不反映人类玩游戏的方式。随着视觉语言模型（VLMs）的出现，智能体现在仅通过视觉输入就能与游戏互动，增强了它们的视觉理解能力。尽管如此，当前方法在动作导向任务中仍面临挑战，尤其是在动作角色扮演游戏（ARPGs）中，强化学习方法普遍存在但泛化能力差且需要大量训练。为了解决这些限制，我们选择ARPG游戏《黑神话：悟空》作为研究平台，探索现有VLMs在仅需要视觉输入和复杂动作输出的场景中的性能边界。我们在游戏内定义了12个任务，其中75%关注战斗，并结合了几种最先进的VLMs到这个基准测试中。此外，我们将发布一个包含游戏玩法视频和操作日志（包括鼠标和键盘动作）的人类操作数据集。此外，我们提出了一个新颖的VARP（视觉动作角色扮演）智能体框架，包括动作规划系统和视觉轨迹系统。我们的框架展示了执行基本任务的能力，并在90%的简单和中等难度战斗场景中取得成功。这项研究旨在为在复杂动作游戏环境中应用多模态智能体提供新的见解和方向。

创新点

VARP智能体框架：提出了一个新颖的VARP（视觉动作角色扮演）智能体框架，该框架直接利用游戏截图作为输入，通过视觉语言模型（VLMs）进行推理，最终生成可以直接操作游戏角色的键盘和鼠标动作。
任务定义和数据集：在《黑神话：悟空》游戏中定义了12个任务，其中75%与战斗相关，并创建了一个包含1000条记录的人类操作数据集，为未来研究提供了宝贵的资源。
自优化动作生成模块（SOAG）：提出了一个自优化动作生成模块，使智能体能够在战斗中总结敌人的行动，优化现有动作并生成新的动作来反击敌人的攻击。
可分解任务特定辅助模块（DTSA）：通过将大型任务分解为更小的子任务，提高了决策模块的准确性，减少了VLMs的遗忘和幻觉错误。

算法模型

VARP智能体框架：由动作规划系统和人类引导轨迹系统组成，能够执行复杂动作组合并从人类操作中学习。
动作规划系统：利用情境库和可更新的动作库作为知识检索基础，通过VLMs选择或生成适合当前情境的动作。
自优化动作生成模块（SOAG）：在战斗中总结敌人的行动，优化现有动作并生成新的动作。
可分解任务特定辅助模块（DTSA）：将大型任务分解为更小的子任务，提高决策模块的准确性。

实验效果
在这里插入图片描述

基准测试：在《黑神话：悟空》游戏中定义的12个任务上，VARP智能体在没有人类引导的情况下，与新手玩家相比，在前8个任务上取得了接近100%的成功率，在第9个任务上成功率为40%，在第10个任务上成功率为20%，在第11个任务上成功率非常低，而在自主导航任务（第12个任务）上的成功率为0%。
消融研究：移除SOAG模块会导致中等和困难任务的性能显著下降，而移除DTSA模块会导致在一些简单任务上的失败。

结论
本研究探索了当前视觉语言模型在复杂动作角色扮演游戏（ARPG）中的性能边界，并提出了VARP智能体框架，该框架通过视觉输入在ARPG环境中进行动作规划。VARP框架在基本和中等难度的战斗场景中取得了90%的成功率，表明VLMs可以有效地应用于传统上由强化学习主导的任务。

推荐阅读指数：
★★★★★

推荐理由：
这篇论文针对动作角色扮演游戏这一复杂领域，提出了一个新颖的VARP智能体框架，并通过实验验证了其有效性。研究不仅在理论上具有创新性，而且通过实际游戏任务的测试，展示了VLMs在游戏环境中的潜力.

5. Making Large Language Models into World Models with Precondition and Effect Knowledge

Authors: Kaige Xie, Ian Yang, John Gunerli, Mark Riedl

在这里插入图片描述
将大型语言模型转化为具有前提和效果知识的世界模型

摘要
世界模型封装了动作如何影响环境的动态，是智能体功能的基础。在这项工作中，我们探索了大型语言模型（LLMs）作为世界模型的潜力。尽管LLMs并非为模拟现实世界动态而设计，但我们展示了它们可以被诱导执行两个关键的世界模型功能：基于给定的世界状态确定动作的适用性，以及预测执行动作后的结果世界状态。这是通过微调两个单独的LLMs实现的——一个用于前提预测，另一个用于效果预测——同时利用合成数据生成技术。通过人类参与者研究，我们验证了我们的模型生成的前提和效果知识与人类对世界动态的理解一致。我们还分析了在我们合成数据上训练的世界模型推断出的状态空间在支持动作链创建方面的程度，这是规划的必要属性。

创新点

前提/效果推理模块：提出了一个能够从动作中推断出前提条件和效果的模块，这是构建世界模型的关键。
语义状态匹配：设计了两个独立的模块，分别用于有效动作预测和状态转换预测，通过语义匹配前提条件和效果与世界状态。
全局-局部提示技术：提出了一种生成高质量动作前提/效果语料库的技术，该技术结合了全局和局部的策略以确保行动链的显著性。
人类评估与自动化评估：结合人类评估和自动化评估来验证模型的准确性和可靠性。

算法模型

前提/效果推理模块：通过微调LLMs来预测动作的前提和效果。
语义状态匹配：使用LLMs进行语义匹配，以确定动作的有效性和执行动作后的状态转换。
全局-局部提示技术：一种生成具有显著行动链的高质量动作前提/效果语料库的方法。

实验效果

前提/效果推理模块：在自动评估指标上，如F1、BLEU-2/3、ROUGE-L和SMS，模型表现出与人类常识理解一致的准确性。
世界模型：在有效动作预测和状态转换预测任务上，模型展现出与人类评估一致的准确性，验证了其在创建健壮世界模型方面的有效性。
人类评估：在预测的前提条件和效果上，77%的预测前提条件和70%的预测效果与人类世界模型理解一致。
搜索空间分析：83.5%的未见动作在世界模型创建的搜索空间中是可满足的，平均每个可满足动作有9.7种不同的满足方式。

结论
本文展示了大型语言模型（LLMs）作为世界模型的潜力，通过预测有效动作和状态转换，这两个世界模型的基本方面。通过微调，我们使LLMs适应了推断动作的前提和效果，从而复制了模拟环境动态所需的关键功能。我们的方法依赖于使用合成数据生成来增强模型训练，这一技术通过人类参与者研究得到了验证，确认了LLM生成的前提和效果知识与人类对现实世界现象的理解一致。自动化评估进一步支持了我们方法在创建健壮世界模型方面的有效性和可靠性。

推荐阅读指数：
★★★★☆

推荐理由：
这篇论文提出了一种创新的方法，将大型语言模型转化为能够执行世界模型功能的模型，这对于自然语言处理和人工智能领域的研究者来说是一个有价值的贡献。通过结合人类评估和自动化评估，该研究验证了模型的有效性，为未来在更复杂场景中的应用提供了可能性。

6. Small Language Models are Equation Reasoners

Authors: Bumjun Kim, Kunha Lee, Juyeon Kim, Sangam Lee
在这里插入图片描述
小语言模型是方程推理者

摘要
本文探讨了小语言模型（sLM）在算术推理任务中表现不佳的原因，并提出自然语言格式的多样性为这些较小模型引入了高歧义性。基于这一假设，作者进行了仅包含方程的格式实验，将之前用自然语言格式表达的算术推理统一为数学方程。实验结果表明，仅包含方程的格式有效提高了sLM的算术推理能力，特别是在像T5-Tiny这样的非常小的模型中。

创新点

提出自然语言格式的多样性是导致小语言模型在算术推理任务中表现不佳的主要原因。
通过实验验证了仅包含方程的格式可以显著提高小语言模型的算术推理能力，特别是在资源受限的环境中。

算法模型

模型选择：使用了T5模型的不同变体（T5-Base, T5-Small, T5-Mini, T5-Tiny）。
数据处理：将算术问题从自然语言格式转换为仅包含方程的格式，以减少歧义。
实验设计：对比了自然语言格式和仅包含方程格式在不同大小的T5模型上的表现。

实验效果

数据：使用了Grade School Math 8K（GSM8K）数据集进行实验。
结论：在所有模型大小上，使用仅包含方程的格式相比于自然语言格式，算术推理的准确率有显著提升。例如，T5-Base模型的准确率从13%提高到17%，T5-Small模型从10%提高到14%。

推荐阅读指数：
★★★★☆

推荐理由：

本文针对小语言模型在算术推理任务中的性能提升提供了新的视角和方法，对于资源受限环境下的应用具有重要意义。
通过实验验证了仅包含方程的格式在提高小语言模型算术推理能力方面的有效性，这对于优化小模型在实际应用中的性能具有指导意义。
论文的研究方法和实验设计严谨，结果具有说服力，对于自然语言处理领域的研究者和实践者都有一定的参考价值。

7. Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation

Authors: Chen Liang, Zhifan Feng, Zihe Liu, Wenbin Jiang, Jinan Xu, Yufeng

在这里插入图片描述

多轮大型语言模型生成的文本化代理风格推理用于复杂任务

摘要
文章提出了AgentCOT，这是一个基于大型语言模型（LLM）的自主代理框架，用于通过多轮LLM生成以代理风格解决复杂问题。AgentCOT在每一步选择一个动作并执行，以产生带有支持证据的中间结果。此外，将步骤索引整合到推理过程中，形成复杂推理逻辑的图形结构。文章引入了两种新策略来增强AgentCOT的性能，并在六个常见基准测试上进行了广泛的实验验证，结果表明该方法在当前竞争性方法上带来了显著的改进。

创新点

提出了AgentCOT框架，通过多轮LLM生成以代理风格解决推理任务。
将步骤索引整合到推理过程中，形成隐式图形结构，以表示更多样化的推理逻辑。
引入了两种增强策略来提升AgentCOT的性能，包括增强的自洽性和集成学习策略。

算法模型

AgentCOT框架：将大型语言模型作为自主代理，通过与环境的交互来解决推理问题。
动作空间与选择：定义了一个与问答推理任务相关的有限动作集，代理在检测到环境变化时从中选择适当的动作。
动作执行：代理执行选定的动作并产生相应的中间结果和支持证据。
丰富的状态和隐式状态图：在每一步生成包含动作、动作描述、中间证据和中间答案的信息丰富的状态。
迭代过程：通过更新问题状态并重复代理响应，直到问题解决。
增强策略：包括自洽性增强和集成学习策略，以确保每一步生成的状态质量。

实验效果

数据集：在六个常见基准测试上进行实验，包括算术推理、常识推理和基于事实的多跳问答。
结果：AgentCOT在大多数数据集上都取得了最佳性能，平均准确率在不同的GPT模型版本上都有显著提升。
结论：AgentCOT通过逐步响应方法解决复杂任务，每个响应包含动作、动作描述、支持证据和中间结果，实验结果表明其在多个数据集上的性能优于当前的基准方法。

推荐阅读指数：
★★★★☆

推荐理由：

AgentCOT框架提出了一种新颖的方法来增强大型语言模型在复杂任务推理中的性能，特别是在处理需要多步骤推理的问题时。
通过将代理风格推理与增强策略相结合，AgentCOT在多个基准测试中显示出了优越的性能，这可能对NLP领域的研究人员和实践者具有吸引力。

8 Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels

Authors: Chaoqun Liu, Qin Chao, Wenxuan Zhang, Xiaobao Wu, Boyang Li, Anh Tuan
Luu, Lidong Bing

在这里插入图片描述

零到强的泛化能力：迭代地无金标准标签激发大型语言模型的强大能力

摘要
大型语言模型（LLMs）通过监督式微调或使用金标准标签的上下文学习表现出显著的性能。然而，这一范式受限于金标准标签的可用性，在某些场景下，LLMs可能需要执行对人类来说过于复杂而无法提供标签的任务。为了应对这一挑战，本研究探索了仅使用未标记数据是否能够激发出强大的模型能力。我们提出了一种称为“零到强泛化”的新范式。我们通过迭代地提示LLMs标注未标记数据并通过过滤保留高质量的标签。令人惊讶的是，我们观察到这一迭代过程逐渐解锁了LLMs在下游任务上的潜力。我们在广泛的分类和推理任务上的实验证实了我们提出的框架的有效性。我们的分析表明，这一范式对上下文学习和微调都有效，并且适用于各种模型尺寸。

创新点

提出了“零到强泛化”这一新范式，无需金标准标签或弱监督，通过迭代过程激发LLMs的潜力。
通过迭代选择最有信心的样本作为下一代的示例，逐步提升模型在任务上的性能。
证明了该范式不仅适用于上下文学习，也适用于模型微调和更大的模型。

算法模型

问题定义：在没有金标准标签的情况下，假设我们对问题有一定了解，例如分类问题的标签空间。
零到强泛化：包括示例构建、响应生成、样本选择和迭代演化。
- 示例构建：通过从标签空间随机抽样或手动生成输出来创建示例。
- 响应生成：将生成的示例作为LLMs的提示，生成训练集样本的伪标签及其置信度。
- 样本选择：根据置信度选择最有信心的样本进行下一轮迭代。
- 迭代演化：重复选择样本和生成响应的过程，旨在逐步提高性能。

实验效果