深入剖析大模型原理——Qwen Blog

在这里插入图片描述

1. 输入部分

  • Text:原始输入文本,模型需要处理的自然语言数据。
  • Tokenizer:分词器,将输入文本转换为词汇表中的索引(ID),便于后续处理。
  • Input_ids:经过分词处理后的ID序列,作为模型的输入。

2. 嵌入层

  • Embedding:将输入的ID转换为高维向量(嵌入向量),使得模型能够理解词汇之间的语义关系。

3. 主干结构(Qwen2)

  • Qwen2:模型的核心部分,包含多个层(Layers),用于处理输入数据并提取特征。
  • Hidden_states:在每一层中生成的隐藏状态,表示模型对输入的理解和特征提取。

4. 层(Layers)

  • Layers1, Layers2, …, Layersn:表示模型中的多个层,每一层都对输入进行处理,提取更高层次的特征。

5. 归一化层

  • RMSNorm:一种归一化方法,用于稳定训练过程,减少梯度消失或爆炸的风险。

6. 解码层(Decoder layer)

  • Hidden_states:解码过程中生成的隐藏状态,作为后续计算的输入。
  • residual:残差连接,将输入与输出相加,帮助模型更好地学习。

7. 注意力机制(Attention)

  • Attention:核心机制,用于计算输入序列中各个部分之间的关系。
  • Query、Key、Value:注意力机制的三个组成部分,分别用于计算注意力权重。
  • Apply_rotary_pos_emb:应用旋转位置嵌入,增强模型对序列中位置信息的理解。
  • Repeat_kv:重复Key和Value,以便在计算注意力时使用。
  • Dot_attn:计算Query与Key的点积,得到注意力分数。
  • Attention_weight:经过Softmax处理后的注意力权重,用于加权Value。
  • Softmax:将注意力分数转换为概率分布,确保所有权重之和为1。
  • Matmul:矩阵乘法操作,将注意力权重与Value相乘,得到最终的注意力输出。

8. 多层感知机(MLP)

  • MLP:多层感知机,用于进一步处理隐藏状态。
  • HS:隐藏状态,作为MLP的输入。
  • Act:激活函数,增加模型的非线性能力。
  • Linear:线性变换,通常用于调整维度或进行特征提取。

9. 输出层

  • Linear:最终的线性变换,将处理后的数据映射到输出空间。
  • Loss:计算损失,用于评估模型的性能。
  • Output:模型的最终输出,通常是预测结果或生成的文本。

总结

整个结构图展示了一个复杂的深度学习模型,强调了从输入文本到最终输出的各个处理步骤,包括分词、嵌入、特征提取、注意力机制和输出生成。每个部分都在模型的学习和推理过程中发挥着重要作用。

注:以上内容部分来自ChatGPT的图像分析,可能有误

https://github.com/huggingface/transformers


参考文献:

从零手搓大模型(一)

Tiny Universe - Llama3架构

LLama3模型讲解

tiny-universe01-Qwen-blog学习笔记

Tiny-universe组队学习task1学习笔记

LLama3模型讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1539306.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何借助项目管理系统实现审批流程的自动化与标准化?

在快节奏的项目申报领域中,繁琐的审批流程往往成为制约项目推进速度的瓶颈。传统的人工审批方式不仅耗时耗力,还容易因人为因素导致审批效率低下、结果不一致等问题。为此,一款能够支持在线审批流程、实现审批自动化与标准化的项目管理系统显…

MATLAB基本语句

MATLAB语言为解释型程序设计语言。在程序中可以出现顺序、选择、循环三种基本控制结构,也可以出现对M-文件的调用(相当于对外部过程的调用)。 由于 MATLAB开始是用FORTRAN语言编写、后来用 C语言重写的,故其既有FORTRAN的特征,又在许多语言规…

小琳AI课堂:机器学习

大家好,这里是小琳AI课堂,今天我们要聊的是机器学习,它是人工智能(AI)的一个分支,主要研究如何让计算机系统通过数据学习,从而做出决策或预测。 下面我们就从四个角度来详细解释一下“什么是机器…

感知笔记:ROS 视觉- 跟随红球

- 目录 - 如何在 ROS 中可视化 RGB 相机。如何作为机器人切换主题。如何创建 blob 检测器。如何获取要跟踪的颜色的颜色编码。如何使用 blob 检测数据并移动 RGB 相机以跟踪 blob。 机器人技术中最常见的传感器是不起眼的 RGB 摄像头。它用于从基本颜色跟踪(blob 跟…

把设计模式用起来!(4) 用不好模式?之原理不明

(清华大学出版社 《把设计模式用起来》书稿试读) 上一篇:把设计模式用起来!(3)用不好模式?之时机不对 为什么用不好设计模式?——原理不明 难搞的顾客:“抹这种霜&#…

学习ROS2第一天—新手笔记(humble版本)

————今早七点达到实验室,吃了早饭收拾了一下现在07:24开始学习———— 1. RO2与ROS1的不同架构: ROS1架构下,所有节点都是Master进行管理 ROS使用基于DDS的Discovery机制,和Master说再见 API的重新设计 编译…

数集相等的定义凸显初等数学几百年重大错误:将无穷多各异数集误为同一集

黄小宁 创造型人才的突出特征:敢于独立思考,不愿人云亦云随大流做分数的奴隶。初数中定义域为R的一次函数ykx(正常数k≠1)的值域问题是师生们不屑一顾的初数中的初数,然而数集相等的定义凸显初数一直搞错了y的值域而将…

MD5、SHA256哈希值生成验证工具-生成文件的“指纹ID”-调用了微软.Net Framework里的加密工具来生成哈希值

MD5、SHA256等哈希值生成工具通常用来验证文件的完整性,或者说是生成文件的“指纹ID”。 Windows系统下调用哈希工具,要用命令提示符cmd调用,生成和比较不太方便。我编写了一个小工具,将文件拖拽到软件界面即可生成比较。 下载地址…

前端——表格、列表标签

今天我们来学习一下web开发里面的表格标签、列表标签 常用快捷键&#xff1a; shift alt 下 复制粘贴选中内容 表格标签 table HTML 表格由 <table> 标签来定义。 HTML 表格是一种用于展示结构化数据的标记语言元素。 每个表格均有若干行&#xff08;由 <tr>…

Qt实战案例(60)——利用QTimer类实现实时时间功能

目录 一、项目介绍二、项目基本配置三、UI界面设置四、主程序实现4.1 widget.h头文件4.2 widget.cpp源文件 五、效果演示 一、项目介绍 本文介绍利用QTimer类实现实时时间功能并在状态栏中进行显示。 二、项目基本配置 新建一个Qt案例&#xff0c;项目名称为“TimeTest”&am…

【北京迅为】《STM32MP157开发板使用手册》- 第三十八章 任务管理实验

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器&#xff0c;既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构&#xff0c;主频650M、1G内存、8G存储&#xff0c;核心板采用工业级板对板连接器&#xff0c;高可靠&#xff0c;牢固耐…

解决【WVP服务+ZLMediaKit媒体服务】加入海康摄像头后,能发现设备,播放/点播失败,提示推流超时!

环境介绍 每人搭建的环境不一样&#xff0c;情况不一样&#xff0c;但是原因都是下面几种&#xff1a; wvp配置不当网络端口未放开网络不通 我搭建的环境&#xff1a; WVP服务&#xff1a;windows下&#xff0c;用idea运行的源码 ZLM服务&#xff1a;虚拟机里 问题描述 1.…

训练加速和推理加速

1. 训练加速 训练加速指的是通过优化技术、硬件加速等方式&#xff0c;减少训练模型的时间&#xff0c;尤其是对于大规模数据集和复杂模型。 训练的特点&#xff1a; 计算量大&#xff1a;模型训练时需要执行前向传播和反向传播&#xff0c;并在多个迭代&#xff08;epoch&a…

Java 23 的12 个新特性!!

Java 23 来啦&#xff01;和 Java 22 一样&#xff0c;这也是一个非 LTS&#xff08;长期支持&#xff09;版本&#xff0c;Oracle 仅提供六个月的支持。下一个长期支持版是 Java 25&#xff0c;预计明年 9 月份发布。 Java 23 一共有 12 个新特性&#xff01; 有同学表示&…

【Java】网络编程-地址管理-IP协议后序-NAT机制-以太网MAC机制

&#x1f308;个人主页&#xff1a;努力学编程’ ⛅个人推荐&#xff1a; c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 &#x1f434…

vscode关闭git的提交提示

问题描述&#xff1a; vscode中光标停留在每一行都会有出现git仓库的提交信息&#xff0c;影响代码阅读。 解决方法&#xff1a; 左下角设置齿轮&#xff1a; 输入关键词commit input 取消勾选&#xff0c;即可解决。

Apache subversion 编译流程

目录 1. 概述2. 依赖库简介2.1 Expat2.2 Apache apr2.3 Apache apr-iconv2.4 Apache apr-util2.5 Zlib2.6 OpenSSL2.7 Sqlite2.8 Apache Serf2.9 Apache subversion3. 编译3.1 Expat编译3.1.1 源码信息3.1.2 CMake-GUI3.1.3 编译步骤3.2 APR编译3.2.1 源码信息3.2.2 编译步骤3.…

2024年【中级消防设施操作员(考前冲刺)】及中级消防设施操作员(考前冲刺)模拟考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 中级消防设施操作员&#xff08;考前冲刺&#xff09;根据新中级消防设施操作员&#xff08;考前冲刺&#xff09;考试大纲要求&#xff0c;安全生产模拟考试一点通将中级消防设施操作员&#xff08;考前冲刺&#xf…

mp4转换成mp3,八个超简单视频转换方法

怎么将mp4转换成mp3&#xff1f;在现代数字媒体的世界中&#xff0c;视频和音频的转换变得尤为重要。许多人在观看视频时&#xff0c;常常会被其中的声音吸引&#xff0c;想要单独保存下来。这时&#xff0c;将MP4格式的视频转换为MP3格式的音频就显得尤为必要。MP4是一种常用的…

长时间认知任务中的大脑补偿机制:fNIRS和眼动追踪研究

摘要 在需要高度集中和高效完成关键任务的领域&#xff0c;如何在疲劳状态下维持认知表现是一个非常重要的问题。在这种情况下&#xff0c;帮助大脑克服疲劳的补偿机制研究就显得尤为重要。本研究探讨了生理、行为和主观测量之间的相关性&#xff0c;同时考虑了疲劳对工作记忆…