大模型性能评测之数星星

1. 导入

大海捞针NeedleInAHaystack已经成为评测大模型长文本能力的基本方法,鹅厂的MLPD实验室整了个花活,用小企鹅数星星的方法测试大模型的长文本能力.

鹅厂就是小企鹅数星星,要是达摩院会不会是平头哥数眼镜蛇

2. 数星星任务简述

在一项研究中,为了评估语言模型处理长文本和长距离依赖关系的能力,研究人员设计了一个测试,其中文本长度逐渐增加,直至最大长度达到128,000个字符。

实验中,研究人员选用了中国古典名著《红楼梦》作为基础文本,并在其中随机插入了特定格式的句子——“小企鹅数了x颗星星”,这里的x是一个变化的数字。

研究人员将整段文本划分为N个部分,并在这些部分中插入了M个上述格式的句子。

请添加图片描述

随后,模型的任务是识别并提取出所有包含数字的句子,并将这些数字以JSON格式输出,输出内容仅包含数字。

请添加图片描述

请添加图片描述

在模型完成输出后,研究人员将模型识别出的数字与实际插入文本中的数字(Ground Truth)进行比较,以计算模型的准确率。

这种“数星星”的测试方法相比传统的“大海捞针”测试更能准确地衡量模型处理长文本和长距离依赖关系的性能。通过这种方法,研究人员可以更深入地了解模型在处理复杂信息和执行细致任务方面的潜力。

和大海捞针的对比

大海捞针”中插入多个“针”就是插入多个线索,然后让大模型找到并串联推理多个线索,并获得最终答案。

但实际的“大海捞多针”测试中,模型并不需要找到所有“针”才能答对问题,甚至有时只需要找到最后一根就可以了。

但“数星星”则不同,因为每句话中“星星”的数量都不一样,模型必须把所有星星都找到才能把问题答对。

参考

[1] Counting-Stars (★): A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models

[2] github:Counting-Stars

[3] “大海捞针”out,“数星星”成测长文本能力更精准方法,来自鹅厂

欢迎关注我的GitHub和微信公众号,来不及解释了,快上船!

GitHub: LLMForEverybody

仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork!

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1559823.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

python28_字符串大小写转换

字符串大小写转换 a helo ,I like say hello world.# 字符串首字母大写 def StrCapitalize(s):result s.capitalize()return result# 字符串每个单词首字母大写 def StrTitle(s):result s.title()return result# 字符串转大写 def StrUpper(s):result s.upper()return res…

人像抠图怎么好看?1分钟教会你

国庆假期的尾声,朋友圈里又掀起了一波晒美照的热潮。 无论是在旅途中捕捉的自然风光,还是在城市街头的随性街拍,大家都在用照片记录下这段美好的时光。 但你有没有想过,如果利用抠图技巧更换照片背景,是不是更加出彩…

国产长芯微LDC5420单通道、16位、串行输入、电流源DAC完全P2P替代AD5420

描述 LDC5420是可编程电流源输出的低成本、精密、完全集成的16位转换器,可满足工业过程控制应用的要求。输出电流范围可编程为4mA至20 mA、0mA至20mA或者0mA至24mA的超量程。输出具有开路保护功能,可以驱动1H的电感负载。这款器件采用10.8 V至40V&#…

题目解析:1423. 可获得的最大点数

题目解析:1423. 可获得的最大点数 > Problem: 1423. 可获得的最大点数 题目描述: 你有一个整数数组 cardPoints,表示排成一行的几张卡牌的点数。你每次可以从这排卡牌的 开头或末尾 拿一张卡牌,最终你需要正好拿 k 张卡牌。目…

YOLO11改进 | 注意力机制 | 对密集和小目标友好的EVAblock 【 完整代码】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 本文介绍了一种基于全局显式集中式特征规…

实验3 专题地图制图及其拓展

1.主观题 (100分) 实验3 专题地图制图及其拓展 实验目的:熟练掌握符号化、标注注记、格网设计和地图整饰的内容。了解空间插值的概念和意义,学习“地理空间统计”基础。 实验要求:本实验报告内容要求详细的文字过程描述以及三幅结果出图&…

杨校老师项目之基于QT的双色球彩票走势分析系统的设计与实现

获取代码: 知识付费时代,低价有偿获取代码,请理解! (1) 下载链接: 后发(2) 添加博主微信获取(有偿),备注来源: mryang511688项目描述 技术:C、QT等 摘要: 随着生活水平的挺高&…

【LeetCode】每日一题 2024_10_10 优质数对的总数 I(暴力/哈希)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:优质数对的总数 I 代码与解题思路 简单题先暴力~ 直接对着题意模拟即可,力扣上只要是标着简单标签的题目,不用犹豫,直接对他使用暴力吧! …

Unity 从零开始的框架搭建1-2 事件的发布-订阅-取消的小优化及调用对象方法总结[半干货]

该文章专栏是向QFrameWork作者凉鞋老师学习总结得来,吃水不忘打井人,不胜感激 Unity 从零开始的框架搭建1-1 unity中对象调用的三种方式的优缺点分析【干货】-CSDN博客 原来 其实就是对上一节的事件发布订阅类的小优化,原来是这样子的 p…

转行在大模型公司做Prompter是种怎样的体验

2014-2019:安徽双非-城乡规划-本科 2019-2022:南京985-城市规划-硕士 工作经历 2022.07-2023.07:设计院做城市设计; 2023.08-至今:国内大模型公司prompter(提示词工程师) 01 2022年刚毕业…

IDEA使用Maven创建父与子多模块项目

在 IntelliJ IDEA 中使用 Maven 创建父与子多模块项目是一个常见的开发实践,有助于更好地组织和管理代码。在多模块项目中,可以将公共的代码、资源或配置抽离到独立的模块中,然后在其他模块中直接引用。这样可以避免代码重复,提高…

第十一章:规划过程组 (11.1制定项目管理计划--11.5创建WBS)

11.1 制定项目管理计划 • 项目管理计划可以是概括或详细的,每个组成部分的详细程度取决于具体项目的要求 • 项目管理计划应基准化,即至少应规定项目的范围、时间和成本方面的基准以便据此考核项目执行情况和管理项目绩效。 • 在确定基准之前&#xf…

汽车胶黏剂市场研究:预计2030年全球市场规模将达到67.4亿美元

汽车胶黏剂是指专门用于汽车制造和维修过程中,用于粘接、密封和固定各种汽车部件的化学材料。它们在汽车行业中扮演着关键角色,广泛应用于车身、内饰、玻璃、电子元件和其他组件的粘接与密封。汽车胶黏剂旨在提高汽车的结构强度、耐用性、密封性以及舒适…

Spark第一天

MapReduce过程复习 Spark由五部分组成 RDD五大特征 1、 Spark -- 代替MapReduce <<<<< scala是单机的&#xff0c;spark是分布式的。>>>>> 开源的分布式计算引擎 可以快速做计算 -- 因为可以利用内存来做一些计算 (1) 分为5个库(模块) : 1、…

打不死的超强生命力

水熊虫是你可能听说过的小生物&#xff0c;它们能够在极端环境中生存&#xff0c;堪称地球上的“超强幸存者”。数十年来&#xff0c;科学家们试图通过各种极端实验杀死它们&#xff0c;但无论是把它们以900米/秒的速度发射&#xff0c;还是将它们暴露在宇宙辐射下&#xff0c;…

Linux系统本地搭建轻量级文件共享系统PicoShare远程连接实战

前言 本篇文章介绍&#xff0c;如何在Linux系统本地部署轻量级文件共享系统PicoShare&#xff0c;并结合Cpolar内网穿透实现公网环境远程传输文件至本地局域网内文件共享系统。 PicoShare 是一个由 Go 开发的轻量级开源共享文件系统&#xff0c;它没有文件限制&#xff0c;允…

CDGA|数据治理:企业创新发展的强劲引擎

在当今这个数据驱动的时代&#xff0c;企业之间的竞争已经悄然转变为对数据资源的争夺与利用能力的比拼。数据&#xff0c;作为新的生产要素&#xff0c;正以前所未有的速度改变着企业的运营模式、决策方式乃至整个商业生态。而数据治理&#xff0c;作为确保数据质量、安全性、…

FPGA上板调试方式总结----VIO/ILA

在Vivado中&#xff0c;VIO&#xff08;Virtual Input/Output&#xff09;是一种用于调试和测试FPGA设计的IP核&#xff0c;它允许设计者通过JTAG接口实时读取和写入FPGA内部的寄存器&#xff0c;从而检查设计的运行状态并修改其行为。VIO IP核提供了一个简单易用的接口&#x…

二叉树系列(遍历/dfs/bfs)10.10

一、二叉树的右视图(遍历) 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 &#xff08;如果右子树为空的话&#xff0c;那么右视图中看到的就是左子树的节点&#xff09; bfs层…

IPguard与Ping32 DLP能力对比,保护企业数据的最佳选择

在信息安全的背景下&#xff0c;数据丢失防护&#xff08;DLP&#xff09;解决方案已成为企业不可或缺的一部分。IPguard和Ping32是市场上两款功能强大的DLP产品。本文将对它们的DLP能力进行详细对比&#xff0c;帮助企业找到最适合自己的数据保护工具。 Ping32的独特之处 Pin…