前端大模型入门:编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入

LLM的核心是通过对语言进行建模来生成自然语言输出或理解输入,两个重要的概念在其中发挥关键作用:TokenizerEmbedding。本篇文章将对这两个概念进行入门级介绍,并提供了针对前端的js示例代码,帮助读者理解它们的基本原理/作用和如何使用。

1. 什么是Tokenizer?

Tokenizer 是一种将自然语言文本转化为模型可以处理的数字表示的工具。自然语言是由词、子词或字符组成的,而模型无法直接处理这些符号,它们只能处理数字。因此,Tokenizer的主要任务就是将文本转换为一系列数字。

1.1 Tokenizer的工作原理

Tokenizer通过查表的方式,将每个单词、子词或者字符映射为一个唯一的整数ID。这些整数ID作为模型的输入,帮助模型将语言处理为结构化的形式。

以句子“我喜欢学习”为例,一个简单的Tokenizer可能将其分解为每个汉字,并为每个汉字分配一个唯一的整数ID,如下:

  • “我” -> 1
  • “喜欢” -> 2, 3
  • “学习” -> 4, 5

在实际应用中,很多语言模型使用更复杂的分词方式,如子词分割。子词分割允许模型将罕见词分割为多个子词单元,从而提升泛化能力。例如,常见的子词分割方法包括BPE(Byte Pair Encoding)WordPiece,这些方法可以将长词拆分为更小的、频率更高的子词,增强模型处理罕见词汇的能力。

1.2 Tokenizer的种类

  • 词级别(Word-level)Tokenizer:将每个词作为一个Token。适用于语言如英文等分隔明确的文本,但对于中文等无空格分隔的语言不太适合。
  • 子词级别(Subword-level)Tokenizer:基于统计方法,将文本分割为高频子词单元。BPE和WordPiece是常见的子词分割算法。
  • 字符级别(Character-level)Tokenizer:将每个字符视为一个Token。这种方法适用于字符构成较复杂的语言(如中文),但会导致较长的序列输入。

1.3 为什么需要Tokenizer?

  • 将文本转化为数字:语言模型需要处理的是数字而不是文本。Tokenizer将文本符号转换为数字ID,是进入模型的第一步。
  • 词汇管理:通过分词,Tokenizer建立了一个词汇表,其中每个词或子词都对应一个唯一的ID。这让模型可以在推理时迅速查找词的表示。
  • 提升模型的泛化能力:通过分词,特别是子词分词,模型能够处理罕见词和新词,因为它可以将新词拆解为更小的子词单元,避免出现完全未知的词。

1.4 Tokenizer 示例代码 

        其实python相关的库比较多,这里就用一个0依赖的js库来测试,自己也可以子串匹配实现。

npm install @lenml/tokenizers
import { fromPreTrained } from "@lenml/tokenizer-llama3";
const tokenizer = fromPreTrained();
const tokens = tokenizer.apply_chat_template([{role: "system",content: "你是一个有趣的ai助手",},{role: "user",content: "好好,请问怎么去月球?",},]
) as number[];// 转化成token的数组
console.log(tokens);const chat_content = tokenizer.decode(tokens);// 还原了的数据
console.log(chat_content);

2. 什么是Embedding?

Embedding 是将Tokenizer生成的整数ID转化为稠密的向量表示的过程。与Tokenizer将文本转换为离散的整数ID不同,Embedding生成的是连续的实数值向量,这些向量能够捕捉词之间的语义关系。

2.1 Embedding的工作原理

在Embedding阶段,语言模型通过查表的方式,将每个整数ID映射到一个高维向量空间中的向量。这个向量通常是一个固定维度的向量(例如,300维、512维或768维),用来表示单词或子词的语义特征。

例如,经过Tokenizer处理的文本“我喜欢学习”可能会生成整数ID序列 [1, 2, 3, 4, 5]。在Embedding阶段,这些ID会被转换为稠密向量表示,如:

  • “我” -> [0.25, -0.34, 0.15, ...]
  • “喜欢” -> [0.12, 0.57, -0.22, ...], [0.11, -0.09, 0.31, ...]
  • “学习” -> [0.33, -0.44, 0.19, ...], [0.09, 0.23, -0.41, ...]

这些向量并不是随机生成的,它们是在模型的训练过程中被学习得到的。Embedding向量的维度固定,但向量的数值根据模型对词语上下文的理解不断更新和优化,最终形成一个语义丰富的向量表示。

2.2 Embedding的种类

  • 词向量(Word Embedding):如Word2Vec、GloVe等方法,通过静态词向量将词语映射到向量空间中。这些方法的Embedding是静态的,即同一个词在不同上下文中具有相同的向量。
  • 上下文相关的Embedding:如BERT、GPT等方法生成的Embedding,是基于上下文的动态向量。同一个词在不同的上下文中可能有不同的向量表示,从而更加精准地捕捉语言中的多义性和语境变化。

2.3 为什么需要Embedding?

  • 捕捉词之间的语义关系:通过Embedding,模型可以将语义相似的词表示为相近的向量。例如,“猫”和“狗”的向量在空间中可能非常接近,而“猫”和“车”的向量则会相距较远。
  • 连续性表示:与离散的整数ID不同,Embedding向量是连续的。这使得模型能够更好地进行计算和优化,因为连续的数值表示可以更容易进行梯度计算和模型学习。
  • 语义压缩:Embedding将高维的语言信息压缩到一个固定的向量空间中,这样模型就可以高效地处理输入并捕捉到其中的重要语义特征。

2.4 使用 TensorFlow.js实现一个嵌入层

接下来,我们用 TensorFlow.js 来实现一个简单的Embedding层。

首先安装 TensorFlow.js:

npm install @tensorflow/tfjs

然后我们创建一个简单的Embedding层,将Token IDs转换为对应的Embedding向量。

const tf = require('@tensorflow/tfjs');// 假设词汇表大小为10000,嵌入维度为300
const vocabSize = 10000;
const embeddingDim = 300;// 创建一个Embedding层
const embeddingLayer = tf.layers.embedding({inputDim: vocabSize, outputDim: embeddingDim});// 输入是之前Tokenizer的Token IDs
const tokenIds = tf.tensor([[1045, 2293, 4083]]);  // Batch size为1,三个Token// 使用Embedding层将Token IDs转化为Embedding向量
const embeddings = embeddingLayer.apply(tokenIds);embeddings.print();  // 输出Embedding结果

在这个示例中,我们定义了一个词汇表大小为10000、嵌入维度为300的Embedding层。tokenIds代表之前从Tokenizer生成的Token ID序列,经过Embedding层后,生成对应的300维度的稠密向量。

注意下tfjs在浏览器和nodejs的时候不同的backend性能和表现有点差异,但基本可用,详细接口参考TensorFlow.js API 

另外有时候进行向量化比较吃资源,或者需要处理大量文本和超高向量时,可使用各个AI平台提供的接口,一般叫做嵌入/向量化/句向量等

3. Tokenizer和Embedding的关系

在LLM中,TokenizerEmbedding是文本处理的两个连续步骤:

  1. Tokenizer负责将文本分割为Token,并将这些Token映射为离散的整数ID。
  2. Embedding则将这些整数ID进一步转化为稠密的向量表示,以便模型能够进行深度学习和优化。

它们的关系可以简单总结为:Tokenizer将语言中的离散符号表示成模型可以识别的离散ID,而Embedding则将这些离散ID转化为连续的向量,以便捕捉词之间的语义关系。

4. 总结

在大规模语言模型(LLM)中,TokenizerEmbedding是两个基础且关键的步骤。Tokenizer通过分词和映射,将文本转化为模型可以处理的数字序列。而Embedding则将这些数字序列进一步转化为语义丰富的向量表示。这两个步骤共同构成了LLM处理自然语言输入的基础,为模型的语义理解和生成提供了强大的支持。

对于初学者来说,理解Tokenizer和Embedding的作用及其背后的原理,将为深入学习LLM及其应用打下坚实的基础。

看了这么多,作为前端的你,还不赶紧npm install一下然后测试测试? ps: tfjs有cdn版本,简单测试可以直接用url引入,可能比安装更简单就是要等待

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/147359.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Go开发】Go语言基本语法入门:数据类型与方法定义

文章目录 环境准备一、引言二、Var关键字三、数据类型1. 整型符号表示值的范围 2. 浮点型精度范围性能 3. 布尔型4. 字符串 三、变量声明1. 指定变量类型2. 自动推导类型3. 批量声明 四、方法定义五、总结 环境准备 开发环境:MacOS Go版本:go version g…

计算机毕业设计之:基于微信小程序的校园流浪猫收养系统(源码+文档+讲解)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

「漏洞复现」灵当CRM marketing/index.php SQL注入漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删…

如何使用ssm实现社区流浪动物救助领养系统的设计与开发+vue

TOC ssm666社区流浪动物救助领养系统的设计与开发vue 第一章 课题背景及研究内容 1.1 课题背景 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安…

Python编码系列—Python策略模式:灵活应对变化的算法策略

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

微软AI核电计划

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Django学习实战篇六(适合略有基础的新手小白学习)(从0开发项目)

前言: 上一章中,我们完成了页面样式的配置,让之前简陋的页面变得漂亮了些。 整理一下目前已经完成的系统,从界面上看,已经完成了以下页面: 首页分类列表页标签列表页口博文详情页 这离我们的需求还有些距离&#xff0…

Python | Leetcode Python题解之第423题从英文中重建数字

题目: 题解: class Solution:def originalDigits(self, s: str) -> str:c Counter(s)cnt [0] * 10cnt[0] c["z"]cnt[2] c["w"]cnt[4] c["u"]cnt[6] c["x"]cnt[8] c["g"]cnt[3] c["h…

【完整梳理验证】企业微信第三方应用接入全流程java版

企业微信第三方应用接入全流程java版 1. 概念与流程1.1 概念1、企业内部应用2、`第三方应用`3、代开发自建应用1.2 流程1.2.1 全局流程1.2.2 应用配置1.2.3 数据流程2. 核心文档2.1 理解第三方应用开发流程和概念2.1.1 应用开发阶段2.1.2 应用推广阶段2.1.3 基本流程1)前期应用…

C++ | Leetcode C++题解之第421题数组中两个数的最大异或值

题目: 题解: struct Trie {// 左子树指向表示 0 的子节点Trie* left nullptr;// 右子树指向表示 1 的子节点Trie* right nullptr;Trie() {} };class Solution { private:// 字典树的根节点Trie* root new Trie();// 最高位的二进制位编号为 30static…

leetcode第十题:正则表达式匹配

给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 . 和 * 的正则表达式匹配。 . 匹配任意单个字符* 匹配零个或多个前面的那一个元素 所谓匹配,是要涵盖 整个 字符串 s 的,而不是部分字符串。 示例 1: 输入:s…

TMS320F28335的定时器中断实验

TTMS320F28335 的 CPU 定时器有 3 个且均为 32 位,分别是 Timer0、Timer1、Timer2, 其中 Timer2 是为操作系统 DSP/BIOS 保留的,当未移植操作系统时,可用来做普 通的定时器。这三个定时器的中断信号分别为 TINT0,TINT1,TINT2,分别对应中断向量于 INT1,INT13,INT14。 1 …

使用 NCache 将 Java 微服务扩展到极致性能

微服务已成为软件开发领域的一种变革性架构方法,提供了从整体结构到更加模块化和可扩展的系统的范式转变。微服务的核心是将复杂的应用程序分解为更小的、可独立部署的服务,这些服务可以无缝通信,从而提高敏捷性、灵活性和易维护性。这种分散…

动态规划day38|322. 零钱兑换(背包满了吗?最小值怎么表示?)、279. 完全平方数、139. 单词拆分、多重背包要点、背包问题大总结

动态规划day38|322. 零钱兑换(背包满了吗?最小值怎么表示?)、279. 完全平方数、139. 单词拆分、多重背包要点、背包问题大总结 322. 零钱兑换279. 完全平方数139. 单词拆分多重背包要点背包问题大总结 322. 零钱兑换 给你一个整数…

后端-项目创建与sql

1.创建文件 1.在webcontent下创建.html文件 2. 在java resources下创建包,右键包创建servlet服务生.(要是创建普通的类,里面的注解里的东西不能重复) 注意:class的名字要和文件名一样,注解里的servlet是独一无二的。 …

最新 idea 2024 入门使用详细教程

IntelliJ IDEA:这是一款由JetBrains公司开发的Java集成开发环境(Integrated Development Environment),被广泛认为是目前Java开发者最好的集成开发工具之一。它支持Java、Groovy、Kotlin等多种编程语言,并且提供了丰富…

HCIA--实验十七:EASY IP的NAT实现

一、实验内容 1.需求/要求: 通过一台PC,一台交换机,两台路由器来成功实现内网访问外网。理解NAT的转换机制。 二、实验过程 1.拓扑图: 2.步骤: 1.PC1配置ip地址及网关: 2.AR1接口配置ip地址&#xff1…

Java免税商品优选商城:Spring Boot实战

第二章 系统开发关键技术 2.1 JAVA技术 Java主要采用CORBA技术和安全模型,可以在互联网应用的数据保护。它还提供了对EJB(Enterrise JavaBeans)的全面支持,java servlet AI,JS(java server ages&#xff09…

Tomcat中BIO和NIO的区别(Tomcat)

BIO Tomcat中BIO的模型和理论很简单,例图如下 1.Acceptor线程死循环阻塞接收客户端的打过来的socket请求 2.接收到请求之后打包成一个SocketProcessor(Runnable),扔到线程池中读取/写入数据 参数配置 1.Acceptor默认线程是1&#…

2024年1月Java项目开发指南17:自动接口文档配置

Knife4j 文档 :https://doc.xiaominfo.com/ 有能力的建议自己去看文档配置,本文仅做参考,因为官方文档会更新,本文不会,以后说不定本文就过时了。 ok,我们继续。虽然本文是2024年1月Java项目开发指南17&…