OpenAI把GPT-4原始版给了他们：研究不微调只靠提示词能走多远

OpenAI把GPT-4原始版给了他们：研究不微调只靠提示词能走多远

news/2024/10/2 18:27:56/文章来源:https://blog.csdn.net/python12345678_/article/details/139679523

除了OpenAI自己，居然还有别人能用上GPT-4-Base版？？

也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。

EPFL（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究**“上下文学习足以让大模型跟随指令吗？”**。

也就是不用监督微调、也不用RHLF或其他强化学习对齐方法，只靠提示词能走多远？

预训练模型，究竟能不能一步登天，直接改造成聊天机器人或AI助手？

如果可行，将大大降低类ChatGPT大模型的开发难度。

免微调对齐靠谱吗？

免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示词中学会和用户对话、跟随指令，一直是业界关注的研究方向。

目前的SOTA方法URIAL来自艾伦研究所，使用系统提示词+少数风格示例就能达到不错的效果。

但EPFL团队发现，URIAL仍无法完全弥补与指令微调模型的差距，尤其在多轮对话中的表现更差一些。

实验中，在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。

其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。

EPFL团队从这里出发，尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量，但发现帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

然后他们使用了贪心搜索算法，从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能，但与指令微调模型的差距仍然存在，特别是在 AlpacaEval 2.0基准测试中。

此外他们还发现，贪心搜索为某个特定模型找到的最佳示例，对于其他模型不能可靠地迁移。

也就是说，不同的示例适合不同的模型。

团队还进行了一系列消融实验，以更多地了解上下文学习的工作原理。

他们发现，在MT-Bench这样的综合评测中，示例包含正确的“问题-答案对”至关重要。

这与此前大模型在分类任务中，只要有大量示例，部分标签错了也无所谓的发现非常不同。

所以最终得出的结论是：

即使采用更多复杂的改进方法，完全缩小上下文学习和指令微调之间的差距也有挑战，即使对于非常长上下文的大模型也是如此。

论文最后分析，大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格，但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的，没那么容易掌握。

想让AI助手更“听话”，暂时还是很难有捷径可走。

论文地址：

https://arxiv.org/abs/2405.19874

参考链接：
[1]https://x.com/maksym_andr/status/1796574297894318136

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1451178.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

逆向分析-Ollydbg动态跟踪Ransomware.exe恶意锁机程序

逆向分析-Ollydbg动态跟踪Ransomware.exe恶意锁机程序

1.认识Ollydbg Ollydbg是一个新的动态追踪工具，将IDA与SoftICE结合起来的思想，Ring 3级调试器，非常容易上手，己代替SoftICE成为当今最为流行的调试解密工具了。同时还支持插件扩展功能，是目前最强大的调试工具。 Oll…

阅读更多...

我的创作纪念日(1825天)

我的创作纪念日(1825天)

Ⅰ、机缘 1. 记得是大一、大二的时候就听学校的大牛说，可以通过写 CSDN 博客，来提升自己的代码和逻辑能力，虽然即将到了写作的第六个年头，但感觉这句话依旧受用; 2、今年一整年的创作都没有停止，本年度几乎是每周都来…

阅读更多...

FuTalk设计周刊-Vol.037

FuTalk设计周刊-Vol.037

🔥AI漫谈热点捕手 1、最全攻略！OpenAI 发布 GPT-4 使用指南，所有干货全在这 OpenAI 官方发布了 GPT-4 使用指南 Prompt engineering，这里面记载了驾驭 GPT-4 的六大策略。链接https://www.ifanr.com/1570792 2、Midjourney V…

阅读更多...

平安科技智能运维案例

平安科技智能运维案例

平安科技智能运维案例在信息技术迅速发展的背景下，平安科技面临着运维规模庞大、内容复杂和交付要求高等挑战。通过探索智能运维，平安科技建立了集中配置管理、完善的运营管理体系和全生命周期运维平台，实施了全链路监控，显著提…

阅读更多...

2024年【制冷与空调设备运行操作】考试内容及制冷与空调设备运行操作考试报名

2024年【制冷与空调设备运行操作】考试内容及制冷与空调设备运行操作考试报名

题库来源：安全生产模拟考试一点通公众号小程序制冷与空调设备运行操作考试内容考前必练！安全生产模拟考试一点通每个月更新制冷与空调设备运行操作考试报名题目及答案！多做几遍，其实通过制冷与空调设备运行操作新版试题很简单。…

阅读更多...

布鲁可三年巨亏后终于转正：IP授权风险或影响重大，还存对赌协议

布鲁可三年巨亏后终于转正：IP授权风险或影响重大，还存对赌协议

《港湾商业观察》施子夫凭借塑料积木玩具，丹麦玩具品牌“乐高LEGO”在全世界玩具制造厂商中的影响力自然不必多说。近期另一家被冠以“中国版乐高”的布鲁可集团有限公司（以下简称，布鲁可）准备上市，也受到外界颇多关…

阅读更多...

笔记 | 用go写个docker

笔记 | 用go写个docker

仅作为自己学习过程的记录，不具备参考价值前言看到一段非常有意思的话： 很多人刚接触docker的时候就会感觉非常神奇，感觉这个技术非常新颖，其实并不然，docker使用到的技术都是之前已经存在过的，只不过旧…

阅读更多...

数字人系统源码开发攻略，小白也能轻松上手的部署方案来了！

数字人系统源码开发攻略，小白也能轻松上手的部署方案来了！

随着数字人应用场景的不断拓展，数字人广阔的应用前景和庞大的市场需求逐渐展现在人们眼前。但是，由于专业背景的缺乏，许多想要开发数字人系统的创业者们都只能被迫成为旁观他人瓜分这块大蛋糕。在此背景下，各式各样的数字人系统源…

阅读更多...

visual studio下载安装

visual studio下载安装

1、下载网址：下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux 选择下载“社区” 2、下载好之后，安装在非系统盘上，在下面这个界面上，大家可以把自己需要的都勾选上，然后更改安装地址安装完即可

阅读更多...

爬虫-模拟登陆博客

爬虫-模拟登陆博客

import requests from bs4 import BeautifulSoupheaders {user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 } # 登录参数 login_data {log: codetime,pwd: shanbay520,wp-submit: …

阅读更多...

联动联调，科学调度——探索智慧水务（中水）管理平台的无人值守新路径！

联动联调，科学调度——探索智慧水务（中水）管理平台的无人值守新路径！

项目背景随着中国城市化的进程、城市规模以及对应的城市人口数量的增长，社会生产生活过程中产生的污水问题日益严重。如何实现污水再生、变废为宝显得尤为重要。近年来，某市不断拓展与探索城市中水利用，让经无害化处理后的中水&#xff0…

阅读更多...

计蒜客：C10 第四部分：深度优先搜索基础踏青

计蒜客：C10 第四部分：深度优先搜索基础踏青

【C代码】 #include<bits/stdc.h> using namespace std; int n,m,ans0; char maze[110][110]; bool vis[110][110]; int dir[4][2]{{-1, 0}, {1, 0}, {0, -1}, {0, 1}}; bool check(int x,int y){return x>1&&y>1&&x<n&&y<m&&a…

阅读更多...

癫狂头歌动态规划之跳跃问题Python

癫狂头歌动态规划之跳跃问题Python

第一关跳跃问题这里我照着图片的代码敲市过不去，真够癫狂的 def CollectValues():n, m map(int, input().split()) #获得输入信息p [list(map(int, input().split())) for i in range(n)] #获得输入信息dp [[-10000] * m for i in range(n)] #初始化动态规划数…

阅读更多...

react用ECharts实现组织架构图

react用ECharts实现组织架构图

找到ECharts中路径图。然后开始爆改。 <div id{org- name} style{{ width: 100%, height: 650, display: flex, justifyContent: center }}></div> // data的数据格式 interface ChartData {name: string;value: number;children: ChartData[]; } const treeDep…

阅读更多...

百万比特通用光量子计算系统怎样造出来？PsiQuantum 最新论文揭密

百万比特通用光量子计算系统怎样造出来？PsiQuantum 最新论文揭密

内容来源：量子前哨（ID：Qforepost） 文丨浪味仙/王珩排版丨沛贤深度好文：2500字丨8分钟阅读摘要：PsiQuntum公司是全球总融资额和估值最高的量子计算公司，但向来对其通用光量子技术的进展讳莫…

阅读更多...

深圳职工餐厅安全检测新策略：自动可燃气体报警器的作用

深圳职工餐厅安全检测新策略：自动可燃气体报警器的作用

在现代化的都市生活中，安全问题一直备受关注。对于深圳众多职工餐厅来说，如何确保餐厅内的燃气使用安全，防止因可燃气体泄露而引发的火灾事故，成为了一项重要的挑战。近年来，自动可燃气体报警器以其高度的灵敏度和…

阅读更多...

2024 Idea最新激活码

2024 Idea最新激活码

idea的激活与安装操作如下： ① 打开网站：https://web.52shizhan.cn 切换到：激活码，点击获取 ② 这个时候就跳转到现成账号页面，点击获取体验号，如图 ③ 来到了获取现成账号的页面了。输入你的邮箱账号即…

阅读更多...

量化交易实操指南：从模拟回测到实盘交易的全流程揭秘！

量化交易实操指南：从模拟回测到实盘交易的全流程揭秘！

什么是量化交易？ 量化交易是一种利用数学、统计学和计算机科学方法，通过构建模型和算法来进行交易决策的方式。它的核心思想是通过系统性的分析和处理大量的历史数据、市场信息和交易规则，以发现市场中的规律和模式，并以此为依据…

阅读更多...

使用halo的jar方法搭建博客（数据库mysql

使用halo的jar方法搭建博客（数据库mysql

ssh连接远程主机 ➜ ~ ssh root 146.56.249.61 第一步.在CentOS 7上安装下载OpenJDK 17的tar.gz文件 wget https://download.java.net/java/GA/jdk17.0.1/2a2082e5a09d4267845be086888add4f/12/GPL/openjdk-17.0.1_linux-x64_bin.tar.gz解压 tar xvf openjdk-17.0.1_linux-…

阅读更多...

从零开始搭建开源智慧城市项目（六）飞线，飞点。

从零开始搭建开源智慧城市项目（六）飞线，飞点。

前言上一节实现了天空盒、扩散墙、扩散圆，这一节来添加飞线，飞点。思路主要思路是通过两个点和高度创建贝塞尔曲线，然后把该曲线的点构造成MeshLine（这个插件可以生成有宽度的线）,然后把想要效果的图贴到线上。 …

阅读更多...

最新文章