TTT大语言模型架构发布,成功撼动了Transformer与Mamba模型

上期图文,我们刚介绍了 transformer 模型与 Mamba 模型,觉得 Mamba 模型的发布可以有效改善 transformer 模型长序列输入复杂度的问题,应该能够成为下一个大语言模型的基石。谁想Mamba2 还没有发布几天,这边最新的大语言模型TTT模型发布,成功撼动了 transformer 与 Mamba 模型。

transformer 模型的自注意力机制在长上下文中表现良好,但其计算复杂度随着输入序列的长度平方的增长。现有的RNN循环神经网络模型具有线性复杂度,但RNN循环神经网络模型在长上下文中的表现受到隐藏状态表达能力的限制。UCSD, UC伯克利,斯坦福与 meta 科研人员提出了一种新的序列建模层。模型不仅具有线性复杂度,且使用了表达能力强的隐藏状态。关键思想是将隐藏状态本身设为一个机器学习模型,并将更新规则设为自监督学习的一步。由于隐藏状态在测试序列上也通过训练进行更新,因此称这些层为测试时训练(Test-Time Training, TTT)层。

TTT模型考虑了两种实例:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。研究人员在125M到1.3B参数规模下评估了TTT模型,并与Transformer和Mamba进行比较。TTT-Linear和TTT-MLP都匹配或超过了基线模型。与Transformer类似,它们可以通过更多的tokens来持续降低困惑度,而Mamba在16k上下文后则不能持续降低困惑度。经过初步的系统优化,TTT-Linear在8k上下文中已经比Transformer更快,并在wall-clock 时间上匹配Mamba的性能。TTT-MLP在内存I/O方面仍面临挑战,但在长上下文中显示了更大的潜力性能。从下图可以看出,transformer 模型随着输入长度的增加,每个 token 的前向传递世界也是直线上升,而 Mamba 与TTT模型几乎不会变化,transformer 模型真的要被比下去了吗?

自注意力机制隐藏状态(通常称为Key-Value (KV)缓存)是一个随着时间 t 线性增长的列表。它的更新规则只是将当前的KV元组追加到计算列表中,输出规则则扫描直到时间 t 的所有元组以形成注意力矩阵。隐藏状态明确地存储了所有的历史上下文而不进行压缩,这使得自注意力机制在长上下文中比RNN层更具表现力。然而,扫描这个线性增长的隐藏状态也需要线性增长的时间。

为了在长上下文中保持高效和表现力,大语言模型需要更好的压缩方法。一个通用的序列建模层可以表示为一个根据更新规则转换的隐藏状态。所有的序列建模层都可以看作是下图中三个组件(初始状态、隐藏状态和输出状态)不同实例的表现。自注意力机制的隐藏状态随着上下文的增长而增长,因此每个token的成本也会增加。而简单的RNN和TTT层则将增长的上下文压缩成一个固定大小的隐藏状态,因此它们每个token的成本保持不变。

TTT模型使用自监督的方式更新隐藏状态,其TTT模型直接使用TTT层代替了 transformer 模型的注意力机制层。使用RNN的线性复杂度方法建立大语言模型,但是基于RNN循环神经网络模型,其无法实现并行化运算。

为了实现并行化计算,TTT模型使用Mini-batch梯度下降,使用 b代表一个批量大小。论文使用了 b等于 16。 从下图可以看出,G1, G2,..., Gb没有任何前后时间步骤的关系,可以直接使用并行化计算,这样可以同时计算 b个梯度,加速模型的并行操作。

https://arxiv.org/pdf/2407.04620
Learning to (Learn at Test Time): RNNs with Expressive Hidden States

人工智能领域苦 transformer 模型久矣,但是 transformer 模型是所有模型的基础,虽然最新的模型Retnet,Mamba,TTT模型都有效改进了 transformer 模型在长输入序列的缺点,但transformer 模型可是 2017 年发布的模型,7 年前的模型被成功应用在各种大语言模型上面,其模型框架更是被各种机器学习任务魔改,包含计算机视觉任务,语音识别与语音合成等,其 transformer 模型功不可没。

而 transformer 模型更是大模型的基础,学习了 transformer 模型的核心知识,再去掌握其他模型更是轻而易举了。目前包含 ChatGPT,Gemini,llama 等模型都是基于 transformer 的注意力机制,而其他模型是否可以成功应用到各个任务上,需要更多参与者进入尝试了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551108.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

隆道携手黑龙江省中小企业协会助力区域企业数字化转型

9月28日,隆道公司总裁吴树贵出席“2024年黑龙江省中小企业协会副会长扩大会议暨数字化转型专题报告会”并做主题发言,分享了龙江惠企商城建设情况和供应链数字化转型实践经验。会上,隆道公司与黑龙江省中小企业协会签订了战略合作协议&#x…

【Kubernetes知识点】 解读 Service 和 EndpointSlice 之间的关系

【Kubernetes知识点】 解读 Service 和 EndpointSlice 之间的关系 目录 1 概念 1.1 Service的概念1.2 Endpoint 的概念1.3 EndpointSlice 的引入 1.3.1 EndpointSlice支持的地址1.3.2 EndpointSlice的状态1.3.3 EndpointSlice的拓扑信息 1.4 Service 、Endpoint和 EndpointSl…

自动驾驶TPM技术杂谈 ———— 高精度地图

文章目录 概述高精度地图分层架构价值体现 关键技术道路元素图像处理激光点云处理点云特征提取点云法向量点云配准点云分割 同步定位与地图构建高精度地图云端服务体系 解决方案高精度地图采集数据模型 高精度地图制作和编译数据处理编译及格式规范NDSOpenDRIVE 高精度地图质量…

入职2年的程序员,被劝退了!年纪大了,感觉好绝望!

入职2年的程序员,今天被劝退了!年纪大了,感觉好绝望! 我的朋友是一位程序员,毕业后去了BAT企业,前2年去了一家国企,至今刚满2年,刚进去绩效领导给打了C,现在被边缘化&…

可视化是工业互联网的核心技术之一,都有哪些应用场景?

一、工业互联网是什么,发展的来胧去脉 工业互联网是指利用互联网技术和物联网技术,将工业生产中的各种设备、机器、传感器等进行互联互通,实现信息的实时采集、传输和分析,从而实现生产过程的智能化、自动化和高效化。 工业互联网…

echarts实现3D柱状图(视觉层面)根据博主改编

https://blog.csdn.net/weixin_57798646/article/details/131067725 这是原贴 在这个基础上我需要实现 一根柱子 代码如下 <!DOCTYPE html> <html lang"en" style"height: 100%"><head><meta charset"utf8"> </hea…

Python画笔案例-069 绘制调皮田彩格

1、绘制调皮田彩格 通过 python 的turtle 库绘制 调皮田彩格,如下图: 2、实现代码 绘制 调皮田彩格,以下为实现代码: """调皮田彩格.py本程序需要coloradd模块支持,安装方法:pip install coloradd =""" import turtle from coloradd import…

AIGC实践|AI助力文旅短视频创作全流程

前言&#xff1a; 受到央视《AI我中华》及各地文旅AI宣传片的启发&#xff0c;本次我将尝试使用AI辅助进行城市宣传片的创作探索。我将尽可能详细的展示使用AI辅助创作城市宣传片的全过程&#xff0c;从灵感捕捉到最终成品呈现。现在&#xff0c;让我们一同踏上这段充满创意的探…

工作日志:el-table在无数据情况下,出现横向滚动条。

1、遇到一个警告。 原因&#xff1a;中的组件不能呈现动画的非元素根节点。 也就是说&#xff0c;Transition包裹的必须是一个单根的组件。 2、el-table在无数据情况下&#xff0c;出现横向滚动条&#xff0c;大概跟边框的设置有关系。 开始排查。 给.el-scrollbar加了一个…

ChatGPT+R语言强强联合,数据分析不再难!回归与混合效应模型、多元统计分析、结构方程模型(SEM)(lavaan)、Meta分析、贝叶斯回归等应用

目录 第一章 生态环境数据统计概述及基础 第二章 GPT&R&#xff1a;回归与混合效应模型 第三章 GPT&R&#xff1a;多元统计分析 第四章 GPT&R&#xff1a;结构方程模型&#xff08;SEM&#xff09;&#xff08;lavaan&#xff09; 第五章 GPT&R&#xff1…

C++ STL容器(四) —— vector底层剖析

这篇讲解vector&#xff0c;不说废话&#xff0c;直接开始&#xff01; 文章目录 原理UML类图代码实现构造函数插入元素删除元素清空容器析构函数赋值运算符 案例分析 原理 这里简单说一下 vector 的大致思想&#xff0c;动态数组&#xff0c;即它的长度会随着我们插入元素而产…

安全帽识别摄像机

安全帽识别摄像机 是一种结合了监控摄像技术和智能分析技术的先进设备&#xff0c;旨在通过实时监测和分析人员头部是否佩戴安全帽&#xff0c;识别出未佩戴安全帽的情况&#xff0c;并及时发出警报通知相关人员。这种摄像机在建筑工地、工厂车间、交通运输等领域有着广泛的应用…

本省第一所!新大学,揭牌!

9月26日&#xff0c;海南艺术职业学院举行揭牌仪式&#xff0c;标志着海南省第一所公办艺术类高等职业院校正式揭牌成立。海南省旅文厅党组成员、副厅长刘成出席揭牌仪式&#xff0c;省教育厅党组成员、副厅长邢孔政在揭牌仪式上宣读省人民政府同意设立海南艺术职业学院的批复。…

jmeter进行性能测试实践

设置场景接口 一、通过抓取一个场景的接口&#xff08;抓包&#xff09; 自己抓取需要的接口&#xff0c;进行依赖 流程&#xff1a;1.在网页上F12抓取登录页面和登出页面的URL。2.在jemeter设置线程组&#xff0c;添加http请求输入URL等。3.查看结果数 二、通过boday录制 …

Linux之实战命令20:split应用实例(五十四)

简介&#xff1a; CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布&#xff1a;《Android系统多媒体进阶实战》&#x1f680; 优质专栏&#xff1a; Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a; 多媒体系统工程师系列【…

猫咪增肥大作战!福派斯牛肉高脂乳鸽猫粮测评

产品背景 福派斯宠物食品有限公司近期推出了其爆款产品——福派斯牛肉高脂乳鸽全价通用猫粮。这款猫粮以其高肉低敏配方、精选食材以及全面的营养补充&#xff0c;赢得了众多宠物主人和专业猫舍的青睐。经过全面配方和包装升级后&#xff0c;它不仅在口感和营养上有所提升&…

taobao.item_get_appAPI接口原app数据测试指南

在电商竞争日益激烈的当下&#xff0c;数据成为了商家们争夺市场的重要武器。淘宝&#xff0c;作为中国最大的在线零售平台&#xff0c;其庞大的商品库和用户群体为商家提供了巨大的商机。为了帮助商家更好地了解市场动态&#xff0c;优化库存和营销策略&#xff0c;淘宝推出了…

基于SpringBoot实现QQ邮箱发送短信功能 | 免费短信服务

开发学习过程中有个短信发送功能&#xff0c;阿里云腾讯云等等都要money&#xff0c;听说qq邮箱可以实现免费发送邮箱的功能&#xff08;短信发送的平替&#xff09;&#xff0c;就用这个来实现&#xff01;&#xff01;&#xff01;【找了好多好多方法才成功的啊啊啊啊&#x…

时序预测:多头注意力+宽度学习

本文所涉及所有资源均在 传知代码 平台可获取。 目录 概述 文章的主要贡献点 Multi-Attn整体架构 混沌时序数据预处理&#xff1a;基于相空间重构理论的混沌系统恢复 基于BLS随机映射的非线性动态特征重新激活 利用多头注意力机制进行多层语义信息提取 核心代码复现 代码优…

Golang | Leetcode Golang题解之第447题回旋镖的数量

题目&#xff1a; 题解&#xff1a; func numberOfBoomerangs(points [][]int) (ans int) {for _, p : range points {cnt : map[int]int{}for _, q : range points {dis : (p[0]-q[0])*(p[0]-q[0]) (p[1]-q[1])*(p[1]-q[1])cnt[dis]}for _, m : range cnt {ans m * (m - 1)…