CJEval:一个基于中国初中考试的多样化考试问题数据集

2024-09-26,由腾讯YouTu Lab和北京大学联合发布的CJEval,是一个基于中国初中生考试数据的评估基准,用于测试和分析大型语言模型(LLMs)在教育任务中的表现,从而提高在线教育平台的智能化水平。

一、背景:

在线教育平台 已经显著改变了教育资源的传播,通过提供动态的数字化基础设施。随着这种变革的进一步增强,大型语言模型(LLMs)的出现,如ChatGPT和Llama,标志着人工智能领域的一个巨大飞跃,展现了对人类语言的卓越掌握。然而,现有的学术基准对于现实世界工业场景的指导有限,因为教育应用需要的不仅仅是回答测试问题。

目前遇到的困难和挑战:

1. 教育应用的挑战:

  • 教育应用需要理解学生遇到的具体问题,并应用专门的教学知识来提供有效的解决方案。

  • 需要在语言理解和领域专业知识之间进行复杂的交互,以确保教育干预既准确又符合教学要求。

2. 现有基准的局限性:

  • 现有的数据集主要关注模型在回答考试问题上的准确性。

  • 这些基准主要关注单一类型的问题:多项选择题,这可能无法全面反映模型在教育评估中的综合能力。

二、让我们一起看一下CJEval

CJEval(中国初中生考试评估的基准)是一个新提出的任务,目的是通过使用真实的中国初中考试问题来评估大型语言模型。

数据集,包括26,136个样本,涵盖十个学科的四个应用级教育任务。

数据集的构建:

1、样本收集:收集26,136个样本,覆盖十个学科的考试问题。

2、详细注释:每个样本包括问题和答案,以及详细的注释,如问题类型、难度级别、知识概念和答案解释。

3、任务设计:设计了四个核心任务:知识概念标注、问题难度预测、问题回答和问题生成。

4、数据集分割:训练集:20820个问题,验证集:2106个问题、测试集:3210个问题。总计26136个问题。

数据集特点:

1、多任务:同时提供四个核心任务,覆盖不同类型的教育评估。

2、高质量:通过人工筛选和评估,确保样本的质量和相关性。

3、多学科:覆盖十个不同的学科,包括数学、物理、化学、生物、地理、历史、科学、IT等。

No.S: 表示每种问题类型下涵盖的科目数量。

No.Q: 表示每种问题类型的总问题数量。

Avg.Q Tokens: 表示每种问题类型的平均问题长度(以词元为单位)。

Avg.A Tokens: 表示每种问题类型的平均答案长度(以词元为单位)。

Avg.AE Tokens: 表示每种问题类型的平均答案解释长度(以词元为单位)。

Avg.No.KC: 表示每种问题类型平均每题涉及的知识概念数量。

三、让我们一起展望CJEval应用

应用场景:在线教育平台

比如,我是一个在线教育平台的开发者。

我的工作中需要确保平台的教学内容既准确又符合教学要求。但这个任务非常复杂,需要理解学生的具体问题,并提供有效的解决方案。

当我使用了 CJEval , 它可真是帮了我的大忙!

我告诉它:“嘿,给我评估一下这个数学问题,要确保它符合初中教学大纲,并且难度适中。” 没过多久,它就给了我一个详细的评估报告。我一看,它不仅评估了问题的知识概念,还预测了难度级别,并且给出了答案解释。

我指着报告说:“你看,这个问题涉及到线性方程的知识概念,难度级别是容易的。”

然后,我又指向另一个问题:“这里呢,是一个中等难度的物理问题,涉及到力学的知识概念。”

最后,我给它一个开放式问题:“给我生成一个关于中国历史的分析问题,要求难度较高。” 它生成了一个关于历史事件影响的问题,需要学生进行深入分析和讨论。

不得不说,CJEval可真是个宝贝,它让教育内容的评估变得简单明了,让我的工作轻松多了。而且啊,看到学生因为理解了问题而变得更加自信,我这个做教育的也感到特别自豪和满足。

让我们一起打开数据集地址:CJEval|教育评估数据集|大型语言模型数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548634.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【湖南步联科技身份证】 身份证读取与酒店收银系统源码整合———未来之窗行业应用跨平台架构

一、html5 <!DOCTYPE html> <html><head><meta http-equiv"Content-Type" content"text/html; charsetutf-8" /><script type"text/javascript" src"http://51.onelink.ynwlzc.net/o2o/tpl/Merchant/static/js…

【CSS in Depth 2 精译_041】6.4 CSS 中的堆叠上下文与 z-index(上)

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第一章 层叠、优先级与继承&#xff08;已完结&#xff09;第二章 相对单位&#xff08;已完结&#xff09;第三章 文档流与盒模型&#xff08;已完结&#xff09;第四章 Flexbox 布局&#xff08;已…

养猫久了才发现,宠物空气净化器才是真正除猫毛的神器

相信每个打工人都在期待这个国庆小长假吧&#xff0c;终于等到了&#xff01;这次我要把属于我的都夺回来&#xff01;刚好工资到手、小长假我有&#xff0c;只想往家里一躺什么也不想&#xff0c;唯一最想做的就是要在这个节假日里好好的陪一下我家猫咪&#xff0c;还有就是买…

关于LlamaIndex 的存储概念和代码基本实现

概念 LlamaIndex 提供了一个高级接口&#xff0c;用于提取、索引和查询外部数据。 在后台&#xff0c;LlamaIndex 还支持可插拔的存储组件&#xff0c;允许您自定义&#xff1a; Document stores 文档存储&#xff1a;存储摄取的文档&#xff08;即对象&#xff09;的位置&a…

cscode搭建vue项目

创建前安装环境 ctrlj弹出终端 window需要管理员运行并且授权 node -v # 显示版本号&#xff0c;说明 node 已经装好 npm -v # 显示版本号&#xff0c;说明 npm 可以使用 # 安装cnpm npm install -g cnpm --registryhttps://registry.npm.taobao.org cnpm -v # 显示版本号&a…

深度学习(三)——Springer特刊推荐

特刊征稿 01 期刊名称&#xff1a; MOBILE NETWORKS & APPLICATIONS 特刊名称&#xff1a;Resource Efficient Deep Learning for Computer Vision Applications 截止时间&#xff1a; 开放提交&#xff1a;2023年12月13日 提交截止日期&#xff1a;2024年10月30日 目标…

关于LlamaIndex 的几种索引方式介绍

每个索引的工作原理 本指南介绍每个索引如何与图表配合使用。 一些术语&#xff1a; Node&#xff1a;对应于 Document 中的一段文本。LlamaIndex 接收 Document 对象&#xff0c;并在内部将它们解析/分块为 Node 对象。Response Synthesis&#xff1a;我们的模块&#xff0…

【一文读懂】C#如何实现通用的排序功能

目录 通用排序功能 1.升序 2.降序 测试 1.测试代码 2.测试结果 本篇文章来分享一下C#如何实现通用的排序功能。在项目中经常会使用到排序的方法&#xff0c;那如何使排序方法更加通用呢&#xff1f;可以通过泛型&#xff0c;接口&#xff0c;委托来实现。 通用排序功能…

再也不用担心内容重复!在线伪原创工具,让创作更自由!

大家好&#xff0c;今天我们将讨论一个对网络写作非常有益的辅助工具——在线内容转换工具。不论您是需要更新您的博客&#xff0c;还是希望在社交平台上保持活跃&#xff0c;我们都频繁面临着迅速生成新内容的挑战。利用一个有效的工具来改写现有内容&#xff0c;可以极大地提…

机器学习笔记(李宏毅老师2021/2022课程)【更新中】

目录 前言 课程预览 第一讲 机器学习基本概念 前言 本文主要记录在听李宏毅老师的课时对应做的课堂笔记 课程&#xff1a; (强推)李宏毅2021/2022春机器学习课程_哔哩哔哩_bilibili 课程预览 机器学习找函数 &#xff08;找一个人类写不出来的复杂函数&#xff09; 课程侧…

Splashtop 自收购 Foxpass 以来新业务增长62%

2024年9月24日 加利福尼亚州库比蒂诺 Splashtop 在简化远程办公解决方案领域处于领先地位&#xff0c;今天宣布继去年收购 Foxpass 之后&#xff0c;新的 Foxpass 业务实现了62%的增长。Splashtop 的 Foxpass Cloud RADIUS 可确保企业 Wi-Fi 网络安全&#xff0c;防止未经授权…

PaddleOCR 表格识别,docker部署,cpu版本

前置环境 centeros7 docker 拉取镜像 docker pull registry.baidubce.com/paddlepaddle/paddle:2.6.1 参考&#xff1a;开始使用_飞桨-源于产业实践的开源深度学习平台 这里拉取的镜像并不能立马用&#xff0c;只是内置好运行环境 随便找个目录下载paddleocr的代码 git…

死磕P7: JVM垃圾回收那点事,轻松拿捏不是事儿(二)

这是「死磕P7」系列第 004 篇文章&#xff0c;欢迎大家来跟我一起 死磕 100 天&#xff0c;争取在 2025 年来临之际&#xff0c;给自己一个交代。&#xff08;公&号&#xff1a;新质程序猿&#xff0c;更新会更及时&#xff0c;内容也会更全面丰富&#xff0c;欢迎大家关注…

神仙级AI产品经理入门手册,从入门到入魂非常详细,收藏这一篇,少走三年弯路!!!

作为一个产品经理&#xff0c;你可能已经熟悉了一些常见的AI技术和应用&#xff0c;比如机器学习、深度学习、自然语言处理、计算机视觉等。 但是&#xff0c;你是否了解什么是大模型&#xff1f;大模型又有什么特点和优势&#xff1f;为什么大模型会成为AI领域的一个重要趋势…

Llama系列迈向多模态新时代:3.2版本开源超越闭源,并携手Arm推出手机优化版

在多模态领域&#xff0c;开源模型也超闭源了&#xff01; 就在刚刚结束的 Meta 开发者大会上&#xff0c;Llama 3.2 闪亮登场&#xff1a; 这回不仅具备了多模态能力&#xff0c;还和 Arm 等联手&#xff0c;推出了专门为高通和联发科硬件优化的 “移动” 版本。 具体来说&a…

尾矿库安全监测系统:守护矿山安全的关键技术

尾矿库是矿山企业用于存放尾矿的重要设施&#xff0c;其安全状况直接关系到周边环境和人民生命财产安全。近年来&#xff0c;随着技术的不断进步&#xff0c;尾矿库安全监测系统应运而生&#xff0c;为尾矿库的安全管理提供了强有力的技术支持。本文将详细介绍尾矿库安全监测系…

en造数据结构与算法C# 之 二叉排序树的删除

en造数据结构与算法C# 之 二叉排序树的增/查-CSDN博客 删除方法比起添加和查找就稍显复杂了 &#xff0c;所以单独拿出来写一篇 分析 输入 1.根节点&#xff0c;用于从根上查找你要删除的节点 2.需要删除的值 public Node<T> Delete(Node<T> root, T data) {if (…

设计模式、系统设计 record part02

软件设计模式&#xff1a; 1.应对重复发生的问题 2.解决方案 3.可以反复使用 1.本质是面向对象 2.优点很多 1.创建型-创建和使用分离 2.结构型-组合 3.行为型-协作 571123种模式 UML-统一建模语言-Unified Modeling Language 1.可视化&#xff0c;图形化 2.各种图&#xff08;9…

SSH连接提示秘钥无效

说明&#xff1a;本文记录一次使用SSH连接服务器失效的问题。 使用SSH命令连接服务器&#xff0c; ssh -i ssh秘钥路径 user192.xx.xx.xx提示下面的错误&#xff1b; Load key "shuhe.bin": invalid format aochuang192.xx.xx.xx: Permission denied (publickey,g…

Python新手学习过程记录之基础环境:环境变量、版本区分、虚拟环境

https://img-blog.csdnimg.cn/img_convert/0604267530a515112e51dfc80d0b0ee7.png 刚开始接触Python并学习一门开发语言,可能就会遇到一些棘手的问题,比如电脑上不知不觉已经安装了多个python版本,python3.8/3.10/3.11,甚至一些软件中也集成有python解释器&#xff1b;那么我编…