OpenAI GPT o1技术报告阅读(4)- 填字游戏推理

✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

这次我们继续看一个填字游戏的案例。

 我们先看下问题:

解决以下填字游戏:

Across(横向):
1 Evade  中文:躲避

2 One to close envelopes  中文:封信封的工具

3 Mother ______  中文:母亲______

4 Initiated people  中文:启蒙人们

5 Native American tent  中文:美洲原住民的帐篷

6 Mistakes  中文:错误

Down(纵向):
1 ______ car (Station wagon)  中文:______车(旅行车)

2 Automatic planting machine  中文:自动种植机

3 Profession  中文:职业

4 Syrian and Turkish pepper variety  中文:叙利亚和土耳其的辣椒品种

5 Annoy  中文:烦恼

6 Deletes  中文:删除

先看下GPT4o的回答:

Let’s solve the crossword using the provided clues.

Across:

  1. Evade - Dodge

  2. One to close envelopes - Sealer

  3. Mother ______ - Motherland

  4. Initiated people - Insiders

  5. Native American tent - Tepee

  6. Mistakes - Errors

Down:

  1. ______ car (Station wagon) - Family

  2. Automatic planting machine - Seeder

  3. Profession - Career

  4. Syrian and Turkish pepper variety - Aleppo

  5. Annoy - Irritate

  6. Deletes - Erases

Here’s how the crossword would look filled in:

【小梦备注:emm,一眼错误,也不需要逐行翻译了,基本它把这题目当成一个寻找近似词了,几乎完全没有管字符数量和字符之间关系的事情了。】

接下来是OpenAI O1 preview上场。

首先是CoT部分:

我们被要求解决这个填字游戏谜题。

让我们首先理解这个格子:

- 这是一个6x6的格子,从1到11的位置编号如下:

【小梦备注:首先读了一遍题目,仔细审题并尝试理解结构,是个好习惯。】

所以横向的条目编号为1到6,纵向的条目从1到11。

但实际上,线索是:

横向:

1. Evade 逃避

2. One to close envelopes 封信封的工具

3. Mother ______  母亲______

4. Initiated people 启蒙人们

5. Native American tent  美洲原住民的帐篷

6. Mistakes 错误

纵向:

1 ______ car (Station wagon)   ______车(旅行车)

2 Automatic planting machine   自动种植机

3 Profession   职业

4 Syrian and Turkish pepper variety   叙利亚和土耳其的辣椒品种

5 Annoy   烦恼

6 Deletes   删除

首先,让我们尝试正确地编号方格,我认为在这样的格子中,编号是在条目的起始方格。

但我们需要弄清楚单词从哪里开始。

考虑到格子中的编号从1到11,并且1是第一个横向线索。

通常,横向和纵向的线索对应于格子中的编号,并且编号放在我们开始第一个字母的方格中。

考虑到这一点,也许让我们构建一个有意义的格子。

通常在填字游戏编号中,数字是分配给横向和纵向条目的第一个字母,按顺序编号。

考虑到这一点,格子可能是这样的(如果我们有更清晰的图片会更有帮助,但我们将尽力而为。)
 

[1] [7] [8] [9][10][11]    <-- first row  
[2]                            <-- first letter of Across 2 in the first square of row 2  
[3]                            <-- first letter of Across 3 in the first square of row 3  
[4]                            <-- first letter of Across 4 in the first square of row 4  
[5]                            <-- Across 5  
[6]                            <-- Across 6  

那么对于纵向的条目,第一行中的数字对应于纵向的条目。

纵向

  1. (______ car (station wagon) [Clue is '____ car (station wagon)'])______车(旅行车)[提示是'____车(旅行车)']

数字1位于左上角。

所以纵向1从方格1开始,向下垂直。

同样,纵向7从方格7开始(它在第一行,第二列),然后向下。

其余的数字也是类似。

让我们来标出这些数字。

格子是:

所以横向1从1号方格开始,然后横向延伸。

同样,在第二行,第一个方格编号为2,所以是横向2。

但是纵向的条目在第一行。

纵向1从1号方格开始,然后向下延伸。

同样,纵向7从(1,2)号方格开始,也就是第一行,第二列。

好的,记住这一点,让我们继续解决这个填字游戏。

【小梦备注:大模型在尝试理解结构?毕竟不是多模态,所以貌似它不是很理解平面图这种东西。】

首先,我们需要条目的长度。

横向1从(1,1)开始,根据需要填充方格。

考虑到格子是6个方格宽,6个方格高。

根据格子的尺寸,横向条目可以长达6个字母。

但更有可能的是横向条目从1号方格开始,填充整行。

所以,绘制格子,并填充编号:

位置(行,列):

(1,1): 编号1(横向1从这里开始,纵向1从这里开始)

(1,2): 编号7(纵向7从这里开始)

(1,3): 编号8(纵向8从这里开始)
(1,4): 编号9(纵向9从这里开始)

(1,5): 编号10(纵向10从这里开始)
(1,6): 编号11(纵向11从这里开始)

(2,1): 编号2(横向2从这里开始,可能没有纵向提示从这里开始)

(3,1): 编号3(横向3从这里开始)

...【太重复了,小梦帮你省略了。】

所以每个横向单词从每一行的第一列开始,纵向单词从每一列的第一行开始。

现在让我们计算一下条目有多少个字母。

由于格子是6个方格宽,并且没有黑色方格(假设),每个横向条目可以长达6个字母。

同样,纵向条目可以长达6个字母。

让我们写下带有它们长度的单词。

首先,列出横向单词的单词:


原文:1. Evade (starts at (1,1) and goes across): length is 6 letters.
中文:1. 逃避(从(1,1)开始,然后横向延伸):长度是6个字母。


原文:2. One to close envelopes (starts at (2,1)): length is 6 letters.
中文:2. 封信封的工具(从(2,1)开始):长度是6个字母。


原文:3. Mother ______ (starts at (3,1)): length 6 letters.
中文:3. 母亲______(从(3,1)开始):长度6个字母。


原文:4. Initiated people (starts at (4,1)): length 6 letters.
中文:4. 启蒙人们(从(4,1)开始):长度6个字母。


原文:5. Native American tent (starts at (5,1)): length 6 letters.
中文:5. 美洲原住民的帐篷(从(5,1)开始):长度6个字母。


原文:6. Mistakes (starts at (6,1)): length 6 letters.
中文:6. 错误(从(6,1)开始):长度6个字母。

纵向单词也类似。

纵向提示:
原文:1. ______ car (station wagon) (starts at (1,1)): down from (1,1). So length 6 letters.
中文:1.______车(旅行车)(从(1,1)开始):从(1,1)向下。所以长度6个字母。


原文:7. Automatic planting machine (starts at (1,2)): down from (1,2). Length 6 letters.
中文:7. 自动种植机(从(1,2)开始):从(1,2)向下。长度6个字母。


原文:8. Profession (starts at (1,3)): length 6 letters.
中文:8. 职业(从(1,3)开始):长度6个字母。


原文:9. Syrian and Turkish pepper variety (starts at (1,4)): length 6 letters.
中文:9. 叙利亚和土耳其的辣椒品种(从(1,4)开始):长度6个字母。


原文:10. Annoy (starts at (1,5)): length 6 letters.
中文:10. 使烦恼(从(1,5)开始):长度6个字母。


原文:11. Deletes (starts at (1,6)): length 6 letters.
中文:11. 删除(从(1,6)开始):长度6个字母。

所以所有条目都是6个字母长。

好的,现在让我们开始填写我们可以填写的内容。

首先,让我们考虑横向条目。


横向:Evade 逃避(6个字母)

与'Evade'同义的6个字母可能的单词:

ESCAPE (6 letters)

AVOID (5 letters)

DODGE (5 letters)

ELUDE (5 letters)
 

也许是'ESCAPE'?因为这个单词是6个字母。

但让我们继续考虑。

横向:One to close envelopes 封信封的工具(6个字母)

可能的单词:

SEALER(6个字母)

ENVELOPE CLOSER(太长了)

也许是SEALER

横向:Mother _____母亲______(6个字母)

Mother Nature(6个字母)

是的,那是6个字母。

【小梦备注:哈 还自己强调了一下,戏真多:)】

Alternatively, Mother Goose (10 letters)
或者Mother Goose(10个字母)

但是'Mother Nature'合适。

横向:Initiated people启蒙人们(6个字母)

可能的单词:ADEPTS(6个字母)

也许'ADEPTS'意味着启蒙人们。

还有其他可能性吗?

我们可以想到'INSIDE'(6个字母),但那没有意义。

ADEPTS似乎是可能的。

【...省略比较重复的推理部分】


现在让我们看看纵向提示。

纵向:_____ car (station wagon) ______车(旅行车)(6个字母)

可能的单词:

- ESTATE car (6个字母)

在英国英语中,'Estate car'是旅行车的术语。

在英国'station wagon'被称为'estate car'。

因此'ESTATE'合适。

也与横向1的ESCAPE对齐。

【小梦备注:emm,到这里还记得填字游戏的规则,不错。】

如果我们有ESCAPE作为1横向,从(1,1)开始横向,而ESTATE从(1,1)向下。

第一个字母是E,第二个字母是S(来自两个单词。)

让我们写下来:

ESCAPE

E S C A P E

从第一个字母E开始垂直,向下条目长达6个字母,从(1,1),(1,2)等开始字母。

所以纵向1是ESTATE

E

S

T

A

T

E
与ESCAPE在E S C A P E交叉

第二个字母S在横向和纵向都是。


现在7纵向:planting machine自动种植机(6个字母),从(1,2)开始。第一个字母是S(来自ESCAPE,第二个字母)

可能的单词:

SOWER?(5个字母)

PLANTERS?(8个字母)

SEEDER? (6个字母)
是的,SEEDER(6个字母)

所以7纵向是SEEDER。

所以我们有ESCAPE横向(1,1)-(1,6),和SEEDER从(1,2)向下到(6,2)。

现在,在(1,2)的位置,我们有来自ESCAPE的S。

从S垂直向下是SEEDER。

确认S。

现在8纵向:'Profession'职业(6个字母),从(1,3)开始,ESCAPE的第三个字母是C,所以(1,3)的位置是C(来自ESCAPE)

我们需要一个6个字母的单词,意思是'职业',以C开始。

可能的单词:CAREER(6个字母)

是的,CAREER

所以,我们有ESCAPE作为横向:

E S C A P E

纵向从(1,3)的位置开始是来自ESCAPE的C,所以CAREER:

C

A

R

E

E

R
现在,9纵向:叙利亚和土耳其的辣椒品种(6个字母),从(1,4)开始

ESCAPE中的第四个字母是A,(1,4)的位置是A

所以我们有一个6个字母的单词,意思是'叙利亚和土耳其的辣椒品种',以A开始。

可能的单词:ALEPPO(6个字母)

Aleppo辣椒是来自叙利亚和土耳其的一种辣椒

所以ALEPPO合适。

【小梦备注:思路确认没问题,找满足某个规则下的同义词这件事情,大模型理论上肯定比一般人类的脑袋好使,这里就省略一步步的推理了。】

所以我们已经成功填写了整个填字游戏。

让我写出填满单词的整个格子:

格子,其中行从上到下编号为1到6,列从左到右编号为1到6。

位置是(行,列)

第1行(位置(1,1)-(1,6)):

E S C A P E
第2行:

S E A L E R
第3行:

T E R E S A
第4行:

A D E P T S

【省略】
列,纵向条目:

第1列(位置(1,1)-(6,1)):

E S T A T E
第2列:

S E E D E R

【省略】
第6列:

E R A S E S
这样解决了填字游戏。

o1-preview的正式回答:

我们来一步步的解决填字游戏。

理解格子:

所有横向单词从最左边的列开始,长度为6个字母。

所有纵向单词从最上面的行开始,长度为6个字母。

数字对应每个单词的起始方格。

让我们来解填字游戏:

横向提示:

1. 逃避(6个字母)
答案:ESCAPE

2. 封信封的工具(6个字母)
答案:SEALER

3. 母亲______(6个字母)
答案:TERESA

4. 启蒙人们(6个字母)
答案:ADEPTS

5. 美洲原住民的帐篷(6个字母)
答案:TEEPEE

6. 错误(6个字母)
答案:ERRORS

纵向提示:

1. ______车(旅行车)(6个字母)
答案:ESTATE

2. 自动种植机(6个字母)
答案:SEEDER

3. 职业(6个字母)
答案:CAREER

4. 叙利亚和土耳其的辣椒品种(6个字母)
答案:ALEPPO

5. 使烦恼(6个字母)
答案:PESTER

6. 删除(6个字母)
答案:ERASES

填好的填字游戏格子:
 

| E | S | C | A | P | E |  ← 1 Across: ESCAPE
| S | E | A | L | E | R |  ← 2 Across: SEALER
| T | E | R | E | S | A |  ← 3 Across: TERESA
| A | D | E | P | T | S |  ← 4 Across: ADEPTS
| T | E | E | P | E | E |  ← 5 Across: TEEPEE
| E | R | R | O | R | S |  ← 6 Across: ERRORS
↓   ↓   ↓   ↓   ↓   ↓
E   S   C   A   P   E
S   E   A   L   E   R
T   E   R   E   S   A
A   D   E   P   T   S
T   E   E   P   E   E
E   R   R   O   R   S
↑   ↑   ↑   ↑   ↑   ↑
1D  7D  8D  9D  10D 11D
ESTATE
SEEDER
CAREER
ALEPPO
PESTER
ERASES

解释:

1 横向(ESCAPE)与 1 纵向(ESTATE)在字母 E 处交叉。

2 横向(SEALER)与第二行中纵向单词的字母完美对齐。

3 横向(TERESA)使用 1 纵向(ESTATE)的第三个字母 T,并与纵向单词匹配。

每个横向单词的字母在它们交叉的地方与纵向单词中相应的字母匹配。

最终答案:

• 横向:

ESCAPE

SEALER

TERESA

ADEPTS

TEEPEE

ERRORS

• 纵向:

ESTATE

SEEDER

CAREER

ALEPPO

PESTER

ERASES

这个过程真的就像人类拿个小本子在纸上写写画画差不多的思路,o1-preview这个模型还是挺强的。其他几个案例涉及数学公式、化学方程和代码,格式不太好弄,大家感兴趣还是去原文中看好了,不过根据这三个我贴出来的案例,大家也可以感受到o1模型的CoT大概的展开方式了。

好,本篇就先到这里。晚安~

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145972.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

推荐2024年好用的4款日语翻译工具

日语在学习研究&#xff0c;商务合作&#xff0c;旅游文化交流等多个领域还是占有着一个比较重要的作用&#xff0c;将中日两种语言进行准确地翻译能够这些活动更加高效有益地进行和发展。因此好的翻译工具便尤为重要&#xff0c;今天我也给大家挑选了几款优秀地日语翻译工具。…

可视化工具箱-Visualization Toolkit(VTK)

一、Visualization Toolkit&#xff08;VTK&#xff09;简概 可视化工具箱&#xff08;VTK&#xff09;&#xff0c;是一个用于3D计算机图形、图像处理和科学可视化的开源软件系统&#xff0c;其包含C类库和Tcl/Tk、Java与python的解释型接口层。VTK支持各种可视化算法&#xf…

电机设计及电机仿真APP系列之—轴向磁通电机仿真APP

电机的各种工作状态和参数变化。用户可通过调整仿真参数&#xff0c;快速得到电机的响应和性能参数&#xff0c;从而进行针对性的优化和改进。借助仿真APP&#xff0c;可大大减少电机设计迭代次数和成本&#xff0c;提高测试效率和准确性。 小编整理了10款不同类型的电机仿真A…

前端vue-v-for循环遍历

&#xff08;item,index&#xff09;in list中&#xff0c;index这个索引可加可不加&#xff0c;item代表list中的每一个元素&#xff0c;list可以是数组&#xff0c;也可以是对象&#xff0c;要遍历谁就把 &#xff08;item,index&#xff09;in list加在哪里。 关于加不加&a…

BUUCTF-MISC-隐藏的钥匙

下载题目文件&#xff0c;获得了一张格式为jpg的路飞图片 按照习惯&#xff0c;首先使用十六进制编译器打开文件&#xff0c;这里我使用winhex打开文件 首先考虑有没有flag直接隐写在文件中&#xff0c;按照图示步骤查找flag字段 我们查到了flag&#xff0c;通过经验和图中base…

MySQL的缓存策略

目录 一、MySQL 缓存方案用来干什么 二、提升MySQL访问性能的方式 1、读写分离&#xff08;MySQL的主从复制&#xff09; 2、连接池 3、异步连接 三、缓存方案是怎么解决的 1、缓存与MySQL一致性状态分析 2、制定热点数据的读写策略 四、缓存方案问题的解决方法 1、缓…

正点原子阿尔法ARM开发板-IMX6ULL(八)——串口通信(寄存器解释)(补:有源蜂鸣器)

文章目录 一、蜂鸣器&#xff08;待&#xff0c;理解&#xff09;1.1 第一行1.2 第二行1.3 第三行 二、串口原理2.1 通信格式2.2 UART寄存器 一、蜂鸣器&#xff08;待&#xff0c;理解&#xff09; 1.1 第一行 对于第一行&#xff0c;首先先到fsl_iomuxc文件里面寻找IOMUXC_S…

人力资源数据集分析(一)_t-test、卡方检验和描述性统计

数据入口&#xff1a;人力资源分析数据集 - Heywhale.com 数据说明 字段说明EmpID唯一的员工IDAge年龄AgeGroup年龄组Attrition是否离职BusinessTravel出差&#xff1a;很少、频繁、不出差DailyRate日薪Department任职部门&#xff1a;研发部门、销售部门、人力资源部门Dista…

【VUE3.0】如何得到一张像素风格的图片?

目录 引言网络途径获取代码转换已有的图片0. 先看效果1. 上传图片&#xff0c;这个没什么好说的&#xff0c;前端上传图片基本操作。2. 通过滑动条提供一个1-10的数字&#xff0c;用于放缩图片画质。3. 函数拿到图片资源后先对图片进行缩小100倍尺寸处理&#xff0c;此时画质已…

服务器非法关闭后MySQL服务启动失败

在写这篇文章前&#xff0c;我弄好了&#xff0c;写完之后把成功安装的几个MySQL都删除了&#xff0c;只留了最后测试成功的服务“mysql-test” ,然后点击运行&#xff0c;发现又出现上图的错误。心态炸了。 本以为定位到问题了&#xff0c;但是这个错误让我迷茫了。我只能临时…

为什么你的广告规模无法扩大

许多跑facebook的广告主可能都遇到过这样的情况&#xff0c;小额测试广告的时候效果不错&#xff0c;一旦加预算想扩大规模广告往往就会崩掉&#xff0c;始终无法把广告提升一个level,如果你尝试了很多投放策略调整都无法挽救的话&#xff0c;可能问题是出在广告素材上。 对于一…

多重指针变量(n重指针变量)实例分析

0 前言 指针之于C语言&#xff0c;就像子弹于枪械。没了子弹的枪械虽然可以用来肉搏&#xff0c;却失去了迅速解决、优雅解决战斗的能力。但上了膛的枪械也非常危险&#xff0c;时刻要注意是否上了保险&#xff0c;使用C语言的指针也是如此&#xff0c;要万分小心&#xff0c;…

杀死端口占用的进程

1、查看端口的进程&#xff0c;以9023为例 &#xff08;1&#xff09;方法1 netstat -tunpl|grep 9023 &#xff08;2&#xff09;方法2 ss -tulpan |grep 9023 &#xff08;3&#xff09;方法3 netstat -ntlp |grep 9023 &#xff08;4&#xff09;方法4 lsof -i:9023 …

A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

FAM: Feature Aggregation Module&#xff0c;Circle with R represents removing feature maps of non-selected categories 辅助信息 权重有1.3G&#xff0c;不建议复现

变压器空载时是否有必要做无功补偿

在电力系统中&#xff0c;变压器作为关键设备之一&#xff0c;其运行状态对整个系统的功率质量和效率具有重要影响。关于“变压器空载时是否有必要做无功补偿”这一问题&#xff0c;答案取决于具体的应用场景、系统需求以及经济性考虑。以下将从变压器空载特性、无功补偿的原理…

360手机黑科技“位置穿越”功能修复 360位置穿越使用

​ 360手机刷机 360手机黑科技 360手机位置穿越 360手机位置修复 360手机站&#xff1a;360os.top 资源免费下载: os.360os.top 备用资源站&#xff1a;360手机-360手机刷机RootTwrp 360手机位置穿越 360手机位置穿越‌&#xff0c;是一款虚拟定位软件&#xff0c;无需进行r…

毕业设计选题:基于springboot+vue+uniapp的驾校报名小程序

开发语言&#xff1a;Java框架&#xff1a;springbootuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#…

块匹配算法简介(上)

图像中的运动估计方法大致分为两类:光流法和块匹配算法(BMA,Block Matching Algorithm)。本文将介绍BMA的相关内容,包括基本原理、相似度计算准则与常见的几种搜索方法,如三步法、四步法、钻石搜索法等。 1. 背景 视频中相邻帧往往存在大量的相似内容,即只有局部的一些…

算法课习题汇总(2)

整数划分问题 将正整数n表示成一系列正整数之和&#xff0c;nn1n2…nk(n1>n2>…>nk,k>1)。正整数n的这种表示称为正整数n的划分。 思路&#xff1a; n表示待划分数&#xff0c;m表示最大减数。 #include<iostream> using namespace std;int q(int n, int…

JIT(即时编译)技术

介绍一下JIT优化技术&#xff1f; 想要把高级语言转变成计算机认识的机器语言有两种方式&#xff0c;分别是编译和解释&#xff0c;虽然Java转成机器语言的过程中有一个步骤是要编译成字节码&#xff0c;但是&#xff0c;这里的字节码并不能在机器上直接执行。 JVM中内置了 解释…