复变函数在大模型中的应用

1. 导入

说来惭愧,我研究生时的研究方向是复分析,但毕业近十年来几乎没用到它。

我还记得实习时做自我介绍时,我说我的研究方向是复分析。面试官不太了解,我便解释说,这是关于对 -1 开平方得到的虚数 i 的研究。

在人工智能领域,经常会用到的数学知识包括矩阵、概率论和一些微积分。然而,最近在研究大模型的位置编码时,我惊讶地发现了复分析的应用,10年前的记忆逐渐浮现。

2. 什么是复数

复数是数学中的一个基本概念,它扩展了实数系统,允许进行更广泛的数学运算。复数由两部分组成:实部和虚部。复数的一般形式可以表示为:

a + b i a + bi a+bi

其中, a 是复数的实部, b 是复数的虚部,而 i 是虚数单位,满足 $ i^2 = -1 $。

复数的两个主要特征是:

  1. 实数:当虚部 b 为0时,复数退化为实数。
  2. 虚数:当实部 a 为0且虚部 b 非零时,复数被称为纯虚数。

复数可以进行加、减、乘、除等基本算术运算,这些运算遵循特定的规则。例如,两个复数的加法运算是将它们的实部和虚部分别相加:

( a + b i ) + ( c + d i ) = ( a + c ) + ( b + d ) i (a + bi) + (c + di) = (a + c) + (b + d)i (a+bi)+(c+di)=(a+c)+(b+d)i

复数的乘法运算则稍微复杂一些,需要用到分配律和虚数单位 i 的性质:

( a + b i ) ( c + d i ) = a c + a d i + b c i + b d i 2 = ( a c − b d ) + ( a d + b c ) i (a + bi)(c + di) = ac + adi + bci + bdi^2 = (ac - bd) + (ad + bc)i (a+bi)(c+di)=ac+adi+bci+bdi2=(acbd)+(ad+bc)i

复数的除法运算涉及到将分母实数化,通常通过乘以共轭复数来实现。

复数在数学、物理、工程学等领域有着广泛的应用,如在信号处理、量子力学、电气工程等学科中,复数提供了一种描述周期性现象和旋转的有力工具。

3. 复变函数

复变函数是数学中的一个重要分支,它主要研究复数域上的函数,这些函数的自变量和因变量都是复数。复变函数论在许多工程和科学领域都有应用,以下是一些通常会学习复变函数的专业:

请添加图片描述

  • 数学专业:复变函数是数学专业学生的必修课程之一,因为它是数学分析的延伸和深化。

  • 电气工程:在信号处理和系统分析中,复变函数用于分析交流电路。

  • 电子工程:在控制系统的设计和分析中使用复数域方法。

  • 物理学专业:在量子力学和电磁学中,复变函数理论用于解决波动方程和势问题。

  • 计算机科学与工程:在算法设计、图像处理和信号处理的算法开发中,复变函数有其应用。

  • 航空航天工程:在流体动力学和控制系统分析中,复变函数用于数学建模。

  • 机械工程:在振动分析和热传导问题中,复变函数理论有助于找到解决方案。

  • 土木工程:在结构分析和地震工程中,复变函数用于解决某些动态问题。

  • 生物学和生物医学工程:在生物信号处理和生物物理建模中,复变函数有助于分析和理解生物系统的动态行为。

  • 金融数学和经济学:在某些高级经济模型和金融工具定价中,复变函数理论可以提供分析工具。

  • 控制理论:在系统稳定性分析和控制器设计中,复变函数是基本工具之一。

学习复变函数的课程通常包括解析函数、复积分、级数展开、留数定理、共轭和谐函数等概念。

复数在机器学习中的应用相对较少,但在某些特定领域,如信号处理、图像处理和模式识别中,复数的性质和运算规则可以提供一些有用的工具和技术。

毕业十年后,我再一次领略了复数的魅力,这次是在大模型的位置编码中。复数的数学特性和运算规则为Transformer提供了一种新的位置编码方法,这种方法被称为RoPE(Rotary Position Embedding)。

4. 位置编码和RoPE

位置编码(Positional Encoding)是一种在处理序列数据时,用于向模型提供序列中每个元素位置信息的技术。

在自然语言处理(NLP)中,尤其是在使用Transformer模型时,位置编码尤为重要,因为Transformer模型本身并不包含处理序列顺序的机制。

位置编码的主要目的是让模型能够区分输入序列中词的顺序,从而更好地理解句子的结构和含义。
请添加图片描述

Rotation Position Encoding

RoPE提出为了能利用上 token 之间的相对位置信息,假定 query 向量 q m q_m qm 和 key 向量 k n k_n kn之间的内积操作可以被一个函数 g g g表示,该函数 g g g 的输入是词嵌入向量 x m x_m xm x n x_n xn 和它们之间的相对位置 m − n m-n mn

请添加图片描述

大胆假设,小心求证。 现在我们的目标就是找到一个合适的函数 g g g,使得 g ( x m , x n , m − n ) g(x_m, x_n, m-n) g(xm,xn,mn)能够捕捉到词向量之间的相对位置信息。

RoPE提出,在词向量是二维的情况下,将平面转化为复平面,如果我们按照如下的方式定义函数 f f f,则可以找到对应的 g g g

请添加图片描述

R e Re Re指的是复数的实数部分,更近一步,我们可以将函数 f f f定义为:

请添加图片描述

这边,不就是原来的query矩阵乘上了一个旋转矩阵吗?也就是说,加上 m m m这个位置信息后,如果使用RoPE的设计方案,就相当于将原query矩阵进行了旋转。这就是旋转的由来。

同理, f K f_K fK可以表示为:

请添加图片描述

那么,对应的 g g g函数就是:

请添加图片描述

5. 一点想法

在RoPE中,没有引入很高深的复数知识,只是用了欧拉公式,而欧拉公式发表于1740年左右,但就这样简单的应用,就能在大模型中发挥作用。我在想,是不是还有其他数学知识,可以在大模型中发挥作用呢?

旋转位置编码由苏剑林大神设计,其引入数学中最美丽的公式-欧拉公式。
大家可以关注他的博客《科学空间》https://kexue.fm/, 会学到很多东西。

参考

[1] RoFormer: Enhanced Transformer with Rotary Position Embedding

[2] GitHub: LLMForEverybody

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1523622.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【iOS】——分类拓展关联对象

分类 OC的动态特征允许使用类别为现有的类添加新方法并且不需要创建子类,不需要访问原有类的源代码。通过使用类别即可动态为现有的类添加新方法,而且可以将类定义模块化分布到多个相关文件。 分类是 Objective-C 中的一种语言特性,它允许你…

缓解webclient频繁报‘Connection prematurely closed BEFORE response’的问题

现象: 我在Java代码中使用org.springframework.web.reactive.function.client.WebClient进行网络请求,一开始会有比较多的偶发报错:Connection prematurely closed BEFORE response,网络连接莫名其妙就断了。 处理: …

pm2 + linux + nginx

pm2 pm2是一个用于管理node项目的工具 前言 有如下两个文件 index.js const express require("express"); const app express(); const port 9999;app.get("/index", (req, res) > {res.json({code:200,msg:"songzx001"}) });app.lis…

学习硬件测试06:IIC(SHT30)+HMI串口屏+RS485(modbus)+SPI Flash读写+CAN通信(P81、P91、P95、P120、)

文章以下内容全部为硬件相关知识,鲜有软件知识,并且记的是自己需要的部分,大家可能看不明白。 一、IIC(SHT30 数字温湿度传感器) 1.1实验现象 1、软件模拟 I2C 协议与 SHT30 数字温湿度传感器通讯; &am…

怎么把视频转换成mp4:好用的mp4格式转换器免费版推荐

用手机或者其他拍摄设备记录生活已经成为一种日常,当你想把手机里储存的日常小确幸发布到平台上时,才发现你视频的格式在平台上并不被支持。这个事实难免让人丧气。如果你还想继续上传视频的话,就不得不把视频格式转换成被平台支持的mp4格式。…

ELK系列之一---探索ELK奇妙世界:初识日志界大名鼎鼎的ES集群!

目录 一、为什么要使用ELK 二、ELK简介 三、Elaticsearch入门 3.1、什么是elaticsearch 3.2、elaticsearch的底层优点 3.2.1、全文检索 3.2.2、倒排索引 3.3、elaticsearch集群原理 一、为什么要使用ELK 一般我们需要进行日志分析场景:直接在日志文件中 gre…

Redis从入门到入门(上)

1.Redis概述 文章目录 1.Redis概述1.1 什么是Redis1.2 Redis的应用场景 2.Linux下Redis的安装与使用2.1 Redis下载2.2 Redis的启动2.3 Redis配置2.4 连接Redis 1.1 什么是Redis Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库&#xff0…

C语言sprintf函数使用

1 其函数原型为:int sprintf(char *str, const char *format,...)。 具体用法如下: 基本语法: str:目标字符串的指针,用于存储格式化后的结果。format:格式化字符串,用于指定输出的格式。后续是…

数据结构-队列的介绍及循环队列

1.队列的概念 在开始前,请牢记这句话:队列是一个先进先出的数据结构。 队列(queue)是限定在表的一端进行插入,表的另一端进行删除的数据结构,如同栈的学习,请联系前文所学链表,试想…

4.5SQL注入之加解密注入

SQL注入之加解密注入Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。 Less-21关 Cookie加密注入: 通过Burpsuite抓包: 进行Base64解密:

波场(Tron)监听区块交易(TRX,USDT)

前言说明: 本篇文章参考GitHub一位伙伴的代码,再代码基础上优化改良以后的结果,但是一下找不到那位大佬的GitHub链接了,如有侵权请联系作者调整文章,让跟多人收益。谢谢。 实现思路: 波场链是一条很新奇的链&#xff…

Nexus配置npm私服

1,配置npm-hub 2,配置proxy-npm 3,配置group-npm 4,配置local-npm 5,配置淘宝

[overleaf] 论文中含有中文字符导致编译失败

解决方案分为两步: 1. 加入package: UTF8或者xeCJK \usepackage[UTF8]{ctex}二选一 \usepackage{xeCJK} 2. 修改编译方式: Menu -> Setting -> Compiler -> XeLatex

MyPrint打印设计器(七)svg篇-二阶贝塞尔曲线

svg-二阶贝塞尔曲线 介绍一款强大的svg操作库,能够通过简单的代码,实现svg绘制与操纵,实现拖拽等功能 代码仓库 在线体验 代码仓库:github 代码仓库:gitee 实战项目:MyPrint 操作简单,组件丰富…

Ovirt-Engine(4.3.10 )备份恢复

介绍如何进行 oVirt Engine 的备份、恢复以及相关操作,包括自动备份脚本、手动备份步骤、托管引擎的恢复流程,以及恢复后的配置和验证步骤。 1. Engine 备份部分 1.1 备份使用的脚本 以下是一个用于自动备份 oVirt Engine 的 Bash 脚本: …

标签中的ref属性

之前说过了 ref() 函数,现在说的标签中的 ref 属性 和 ref() 函数也存在一定关联。 2、 标签中的 ref 属性分为两种情况: 用在普通DOM标签上,获取的是DOM节点。 用在组件标签上,获取的是组件实例对象 Vue2 中标签上的 ref 属性…

掌握AIGC的魔法:编写高质量提示词的艺术与科学

嘿,技术达人们,🚀 今天我们来聊聊AIGC界的超级明星——提示词(Prompt)。在AI生成内容的奇妙世界里,提示词就是那个点石成金的魔法棒。想要AI小伙伴听你的指挥,创造出令人惊叹的内容吗&#xff1…

9.2~9.3-模型量化学习内容

量化简介 量化是将模型浮点数变为定点数运行的过程。通过一个原始float数值range(scale、min、max),将类似实属域的float数值映射到一个网格比较稀疏的int网络上,中间肯定会产生数值的偏移。 基本概念 :模型量化可以减少模型尺寸&#xff0…

驾驶模拟左拐右拐

目录 根据4个点确定投影变换关系: 驾驶模拟左拐右拐 平移 四个点选 通过3个点定义放射变换:结果不对 根据4个点确定投影变换关系: import cv2 import numpy as npdef apply_perspective_transform(image, src_points, dst_points):# 将选…

spring--小白面试版01

bean 1.Spring框架中的bean是单例的吗? Service Scope("singleton") public class UserServicelmpl implements UserService { } 在Scope中 singleton: bean在每个Spring IOC容器中只有一个实例 prototype:一个bean的定义可以有多个实例 2. Spring框架中的单例bea…