大模型日报|4 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.清华、北航团队推出多智能体代码异常处理框架 Seeker

在现实世界的软件开发中,异常处理不当或缺失会严重影响代码的鲁棒性和可靠性。异常处理机制要求开发人员按照高标准来检测、捕获和管理异常,但许多开发人员却在这些任务上苦苦挣扎,导致代码脆弱不堪。这个问题在开源项目中尤为明显,影响了软件生态系统的整体质量。

为了应对这一挑战,来自清华大学和北京航空航天大学的研究团队探索使用大语言模型(LLM)来改进代码中的异常处理。通过广泛的分析,他们发现了三个关键问题:对脆弱代码的不敏感检测、对异常类型的不准确捕捉以及扭曲的处理解决方案。这些问题在现实世界的代码库中普遍存在,表明鲁棒异常处理实践经常被忽视或处理不当。

为此,他们提出了一个多智能体框架 Seeker,其灵感来自于专家开发人员的异常处理策略。Seeker 使用 Scanner、Detector、Predator、Ranker 和 Handler 智能体来协助 LLM 更有效地检测、捕获和解决异常。他们的工作是利用 LLM 增强异常处理实践的第一项系统性研究,为未来提高代码可靠性提供了宝贵的见解。

论文链接:
https://arxiv.org/abs/2410.06949

2.清华、微软团队:通过优化控制为大语言选择数据

本研究探讨了如何从海量语料库中选择高质量的预训练数据,以提高语言模型的下游使用能力。

来自清华大学和微软的研究团队将数据选择表述为一个广义的最优控制(Optimal Control)问题,该问题可通过庞特里亚金最大化原理(Pontryagin’s Maximum Principle,PMP)从理论上求解,并得出一系列必要条件,这些条件描述了最优数据选择与 LM 训练动态之间的关系。基于这些理论结果,他们提出了基于 PMP 的数据选择(PDS),这是一个通过求解 PMP 条件来近似实现最优数据选择的框架。

在实验中,他们采用 PDS 从 CommmonCrawl 中选择数据,结果表明 PDS 选择的语料库加快了 LM 的学习速度,并在各种规模的下游任务中不断提高其性能。此外,PDS 的优势还扩展到了在 ~10T tokens 上训练的 ~400B 参数模型,测试损失曲线的 Scaling Laws 也证明了这一点。当预训练数据有限时,PDS 还能提高数据利用率,将数据需求降低 1.8 倍,从而缓解可用网络抓取语料的快速耗尽问题。

论文链接:
https://arxiv.org/abs/2410.07064
GitHub 地址:
https://github.com/microsoft/LMOps/tree/main/data_selection

3.Google DeepMind 提出 RAG 推理 scaling laws

推理计算的扩展释放了长文本大语言模型(LLM)在各种环境中的潜力。对于知识密集型任务,增加的计算量通常被分配用于纳入更多外部知识。然而,如果不能有效利用这些知识,仅仅扩展上下文并不总能提高性能。

在这项工作中,Google DeepMind 团队研究了检索增强生成(RAG)的推理扩展,探索了除单纯增加知识量之外的其他策略。他们重点关注两种推理扩展策略:上下文学习和迭代提示。这些策略为扩展测试时间计算(例如,通过增加检索文档或生成步骤)提供了额外的灵活性,从而增强了 LLM 有效获取和利用上下文信息的能力。他们要解决两个关键问题:(1)在优化配置的情况下,RAG 的性能如何从推理计算的扩展中获益?(2)通过对 RAG 性能和推理参数之间的关系建模,能否预测给定预算下的最佳测试时间计算分配?

观察结果表明,在优化分配的情况下,推理计算量的增加会导致 RAG 性能的近乎线性提升,他们将这种关系描述为 RAG 的推理 scaling laws。在此基础上。他们进一步开发了计算分配模型,以估计不同推理配置下的 RAG 性能。该模型预测了各种计算约束条件下的最佳推理参数,这些参数与实验结果非常吻合。通过应用这些最佳配置,证明与标准 RAG 相比,在基准数据集上,长文本 LLM 的推理计算扩展可实现高达 58.9% 的增益。

论文链接:
https://arxiv.org/abs/2410.04343

4.Google Deepmind 提出新型自动编码方法 ε -VAE

在生成模型中,token 化将复杂数据简化为紧凑的结构化表示,从而创建一个更高效、可学习的空间。对于高维视觉数据,token 化可以减少冗余并强调关键特征,从而实现高质量的生成。目前的视觉 token 化方法依赖于传统的自动编码器框架,即编码器将数据压缩为潜在表示,解码器重建原始输入。

在这项工作中,Google Deepmind 团队提供了一个新的视角,将去噪作为解码,从单步重建转向迭代完善。具体来说,他们用一个扩散过程来代替解码器,在编码器提供的潜像指导下,迭代细化噪声以恢复原始图像。他们通过评估重建(rFID)和生成质量(FID)来评估他们的方法,并将其与 SOTA 自动编码方法进行比较。

论文链接:
https://arxiv.org/abs/2410.04081

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1560094.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

全网最详细k8s搭建部署

目录 Kubernetes的功能: Kubernetes的特点: 1. 安装要求 2. 部署内容 1、系统环境准备 2、所有禁用swap和本地解析 3、仓库配置,所有安装docker 4、所有节点设定docker的资源管理模式为systemd 5、所有阶段复制harbor仓库中的证书并…

python中计算分布的分位数及累积概率

本文讨论python中怎样计算分布的分位数及累积概率 ⭐️ 根据累计概率获取分位数 在 Python 中,你可以使用 scipy.stats 中的 ppf(percent point function)来根据累积概率获取分位数。ppf 是逆累积分布函数,也就是根据给定的累积…

前端笔记(一):父传子,子传父,获取DOM对象或组件,别名路径联想设置,elemntPlus

一、父传子 二、子传父 三、获取DOM对象或组件 把子组件的属性暴露给父组件 四、别名路径联想设置 1.jsconfig里只做联想配置; 2.vue.config.js里做实际转换,把转为src; 五、elemntPlus 1.按需导入 ①npm install element-plus --sav…

适合高新技术企业的内外网文件交换系统

在科技前沿的战场上,数据的快速和安全流通是企业维持竞争优势的关键。随着企业业务的全球化和科技的持续进步,内外网文件交换的需求不断增长,这同时也带来了一系列挑战。本文将讨论科技前沿领域在内外网文件交换中所面临的挑战,并…

【技术支持】家里智能电视不能联网重置小米路由器之路

问题现象 最近家里的路由器出现一点问题,现象是手机和电脑连接wifi后,都可以正常打开网页看视频。 但是小爱同学和小米盒子,都出现网络问题,不能正常播放音乐或者视频。 这是小米盒子的网络问题截图 这是和小米盒子连接的智能电…

AI时代大厂AI项目管理学习路线

AI时代避免被裁员,大厂AI项目管理学习路线主要包括: 1、AI项目管理基础技能。 2、项目管理AI技术知识。 3、数据分析与决策。 4、AI项目管理工具。 5、AI项目管理知识扩展。 01 AI项目管理基础技能。 AI项目管理基础技能构成了项目管理的骨架&…

Spring WebFlux 核心原理(2-1)

1、Spring 响应式编程 1.1、早期响应式解决方案 响应式编程是构建响应式系统的主要候选方案。Spring 4.x 引入了 ListenableFuture 类,它扩展了 Java Future,并且可以基于 HTTP 请求实现异步执行操作。但是只有少数 Spring 4.x 组件支持新的 Java 8 Com…

VScode连接服务器配置c、c++编程环境

在 VS Code 中配置远程服务器的 C/C 编程环境,可以使用 VS Code 的 Remote-SSH 扩展来通过 SSH 连接到远程服务器,并在服务器上编写、编译和调试 C/C 代码。 以下是详细的配置步骤: 1. 在本地机器上安装 VS Code 和扩展 安装 VS Code&#…

360度评估与绩效考核的深度融合,助力员工提升自我

客户背景 该零售业企业是一家集水果采购、种植支持、采后保鲜、物流仓储、标准分级、营销拓展、品牌运营、门店零售、信息科技、金融资本、科研教育于一体的大型连锁企业。 在当今快速变化的商业环境中,企业对于人才管理的要求日益提高,传统的绩效考核方…

WPF 为button动态设置不同的模板

有时候需要动态的设置一些按钮的状态模板。使一个button显示不同的内容,比如Button未点击安装显示: 安装后显示: 可以通过设置button的content,通过content来设置不同的模板来实现功能,以下是代码: MainWi…

基于springboot+vue的在线宠物用品交易网站

一、系统架构 前端:vue | element-ui | html 后端:springboot | mybatis-plus 环境:jdk1.8 | mysql | maven | nodejs 二、代码及数据库 三、功能介绍 01. web端-首页1 02. web端-首页2 03. web端-注册 04. web端-登录 05. w…

服装生产管理:SpringBoot框架的高效策略

5 系统的实现 5.1 登录界面的实现 用户要想进入本系统必须进行登录操作,进入对应角色登录界面,在登录界面输入系统账号、登录密码,选择登录类型,点击登录按钮进行登录系统,管理员登录界面展示如图5-1所示&#xff0c…

2024 kali虚拟机安装教程,分两大步骤,图文讲解(1)

第二步链接: 2024 kali虚拟机安装教程,分两大步骤,图文讲解(2)-CSDN博客 准备工作 1.kali的iso镜像文件 2.VMware Workstation Pro 虚拟机软件 正式开始 1.创建新的虚拟机,勾选自定义(高级…

iOS用户必看:Xinstall助力浏览器秒开App

在移动互联网时代,App已成为我们日常生活中不可或缺的一部分。然而,对于iOS用户来说,有时在浏览器中遇到需要打开特定App的场景时,却可能会遇到一些不便。幸运的是,有了Xinstall,这一切都变得简单而高效。 …

Linux——echo-tail-重定向符

echo命令 类似printf 输出 反引号 重定向符 > 和 >> > 覆盖 >> 追加 tail命令 查看文件尾部内容,追踪文件最新更改 tail -num 从尾部往上读num行,默认10行 tail -f 持续跟踪

C++初阶--C++入门(引用篇)

目录 一、引用的基本概念与特性 1.定义与声明 2.特性 二、引用的进阶用法 1.函数参数传递: 2.引用作为函数返回值(重点) 引用作为返回值的优点 引用作为返回值的注意事项 代码示例 注意事项的进一步说明 三、传值和传引用效率比较 …

自养号测评:亚马逊测评实操步骤与风险规避策略详解

尽管亚马逊平台明确表态不支持产品测评行为,卖家群体对于测评活动的需求却并未因此减退。这主要是因为,测评在增强产品曝光、推动销量上升及构建品牌信任度方面扮演了不可或缺的角色。在此情境下,即便测评伴随着一定的风险,卖家仍…

探索风能行业前景,博冠将携8K超高清风电场智能运维系统亮相CWP2024北京国际风能大会

当金秋的微风轻抚蔚蓝的天际,全球风电盛会——2024北京国际风能大会暨展览会(CWP 2024),将于10月16日至18日在北京中国国际展览中心(顺义馆)盛大启幕。BOSMA博冠将携旗下全球首个8K超高清风电场智能巡检系统…

中国市场的NFT生存法则:消费属性与圈子文化

自2021年NFT数字藏品概念爆发以来,它迅速吸引了全球范围内的玩家、投资者以及艺术家和品牌的参与。然而,随着市场逐渐冷却,尤其是在中国市场,NFT的定位变得越来越微妙和复杂。在全球其他地区,NFT逐渐走向金融化&#x…

Unity3D相关知识点总结

Unity3D使用的是笛卡尔三维坐标系,并且是以左手坐标系进行展示的。 1.全局坐标系(global) 全局坐标系描述的是游戏对象在整个世界(场景)中的相对于坐标原点(0,0,0)的位置…