构建自己模型的Tokenizer

今天阅读别人写的开源代码,学到了如何编写自己的Tokenizer,自己添加special_token,自己定义special_token的token_id。(仅适用于T5类型,使用SentencePiece模型训练出来的分词方法,对于Bert这种WordPiece的分词,不适用)

首先,我们有这样一个任务,需要有一个在基本此表的基础上,添加特殊令牌"<loc_*>"其中*从0-100。然后token_id就往后排,比如原来的此表有100个,最大的id是99,现在加了100个特殊令牌之后,此表变成了200个,"<loc_0>"的id是100,...,"<loc_99>"的id是199这样。

要自定义Tokenizer肯定是要有个父类的,如果用PretrainedTokenizer的话,里面的方法比如,vocab_size,get_vocab, _tokenize,_convert_token_to_id,_convert_id_to_token等几个关键的方法是需要根据自己的要求自定义的,其他的Tokenizer其实也是这么重写然后实现的,比如T5Tokenizer,可以去借鉴他们的写法然后改成自己的。

因为我们的任务比较简单,我们可以继承T5Tokenizer,只重写里面的部分方法。

首先,导入必要的库:

from transformers import T5Tokenizer
import sentencepiece as spm

下载所需要的预训练好的分词模型,可以去huggingface上下载,比如去https://huggingface.co/google-t5/t5-small/tree/main,里面有个叫spiece.model的文件就是分词预训练文件。不同的模型分词方法是不一样的,比如去https://huggingface.co/google-bert/bert-base-uncased/tree/main里面就找不到,原因是bert的分词是基于规则去做的,没有预训练文件,因此不适合我们这里将的Tokenizer构建方法。

下载好了之后,就可以开始编写我们的分词器类MyTokenizer了:

class MyTokenizer(T5Tokenizer):def __init__(self,vocab_file,eos_token="</s>",unk_token="<unk>",pad_token="<pad>",loc_extra_ids=100,sp_model_kwargs=None,additional_special_tokens=[],**kwargs):self.vocab_file = vocab_fileself._loc_extra_ids = loc_extra_idsself.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargsself.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)self.sp_model.Load(self.vocab_file)additional_special_tokens.extend(["<loc_{}>".format(i) for i in range(0, self._loc_extra_ids)])self.additional_special_tokens = additional_special_tokenssuper(MyTokenizer, self).__init__(vocab_file=self.vocab_file,eos_token=eos_token,unk_token=unk_token,pad_token=pad_token,additional_special_tokens=self.additional_special_tokens**kwargs)

初始化函数里面,主要是把sentencepiece模型定义好,要添加的special token添加好,然后初始化父类,继承里面的方法和属性。

下面重写一些我们要自定义的类,其中主要是_convert_token_to_id,_convert_id_to_token,我这里顺便把vocab_size,get_vocab也重写了,不过这两个方法和T5Tokenizer里写的是一样的,主要给大家看看长啥样。

    @propertydef vocab_size(self):return self.sp_model.get_piece_size() + self._loc_extra_idsdef get_vocab(self):vocab = {self.convert_ids_to_tokens(i) : i for i in range(self.vocab_size)}vocab.update(self.added_tokens_encoder)return vocabdef _convert_id_to_token(self, index):if index < self.sp_model.get_piece_size():token = self.sp_model.IdToPiece(index)elif index < self.vocab_size:loc_id = index - self.vocab_size + self._loc_extra_idstoken = f"<loc_{loc_id}>"else:raisereturn tokendef _convert_token_to_id(self, token):if token.startswith("<loc_"):id_index = int(token[5:-1])return (self.vocab_size - self._loc_extra_ids) + id_indexelse:return self.sp_model.PieceToId(token)

里面self.sp_model.get_piece_size获取现有的词表的长度,self.sp_model.IdToPiece负责将现有的词的id变成token,self.sp_model.PieceToId负责将现有的token变成id。

然后实例化一个我们自己的tokenizer:

mytokenizer = MyTokenizer(path/to/speice.model)

验证一下好使不:

mytokenizer.decode(mytokenizer.encode("<loc_10>", add_special_tokens=False))

输出“<loc_10>”说明好使!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148816.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

寄大件快递用什么物流更便宜,寄20-200公斤大件价格对比

大件货物&#xff0c;大件行李&#xff0c;大件电器用什么物流快递更便宜呢&#xff1f; 新生入学&#xff0c;放寒暑假&#xff0c;新单位入职&#xff0c;搬家换工作的时候&#xff0c;都会遇到大件行李货物要邮寄的情况。这些都属于物流中的寄大件服务&#xff0c;在快递费…

隐私计算相关知识

WOE&#xff08; Weight of Evidence&#xff09;编码 一种在数据分析&#xff0c;尤其是信用评分和欺诈检测等领域中常用的特征编码方法。它的主要目的是将分类变量转换为数值变量&#xff0c;从而使得模型能够更好地理解类别与目标变量之间的关系 IV&#xff08; Informatio…

大数据毕业设计选题推荐-网络电视剧收视率分析系统-Hive-Hadoop-Spark

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇…

如何在平板电脑上用谷歌浏览器观看高清视频

在数字时代&#xff0c;使用平板电脑观看高清视频已成为一种流行的娱乐方式。Google Chrome浏览器因其快速、简洁和兼容性强的特点&#xff0c;成为许多用户的首选。本文将指导您如何在平板电脑上设置和使用Chrome浏览器来享受高清视频内容&#xff0c;同时融入一些提升浏览体验…

沃尔玛、亚马逊、Temu提升产品曝光度的实用技巧:测评补单

在当今竞争激烈的市场环境中&#xff0c;对于一家新开店铺或新上市产品而言&#xff0c;快速实现销量增长往往是一项艰巨的挑战。由于缺乏初始的市场认可&#xff0c;潜在消费者通常会对新品牌或产品产生犹豫。因此&#xff0c;提升店铺和产品的曝光率是实现快速出单的首要任务…

文档加密,如何设置?加密文档的10个小妙招值得参考!(电脑文件安全加密)

文档加密&#xff0c;如何设置&#xff1f; 是不是经常担心电脑里的重要文件被人偷看&#xff1f;别担心&#xff0c;学会这几招加密小技巧&#xff0c;就能给文件穿上"隐形衣"。不管是个人隐私还是公司机密&#xff0c;都能得到妥善保护。 接下来&#xff0c;咱们…

数组组成的最小数字 - 华为OD统一考试(E卷)

2024华为OD机试&#xff08;E卷D卷C卷&#xff09;最新题库【超值优惠】Java/Python/C合集 题目描述 给定一个整型数组&#xff0c;请从该数组中选择3个元素组成最小数字并输出(如果数组长度小于3&#xff0c;则选择数组中所有元素来组成最小数字)。 输入描述 一行用半角逗号…

2024年陕西省安全员B证证模拟考试题库及陕西省安全员B证理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年陕西省安全员B证证模拟考试题库及陕西省安全员B证理论考试试题是由安全生产模拟考试一点通提供&#xff0c;陕西省安全员B证证模拟考试题库是根据陕西省安全员B证最新版教材&#xff0c;陕西省安全员B证大纲整理…

中国可观测日「成都站」圆满落幕

在数字化转型的大潮中&#xff0c;企业对于系统的稳定性和可靠性提出了更高的要求&#xff0c;而可观测性平台正是确保业务连续性的关键技术。9月20日&#xff0c;中国可观测日成都站的活动圆满落幕&#xff0c;为技术专家们提供了一个宝贵的平台&#xff0c;深入探讨了可观测性…

【BetterBench博士】2024年华为杯E题:高速公路应急车道紧急启用模型 Python代码实现

题目 【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 E题&#xff1a;高速公路应急车道紧急启用模型 问题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 C题&#xff1a;数据驱动…

【Transformers基础入门篇4】基础组件之Model

文章目录 一、Model简介1.1 Transformer1.2 注意力机制1.3 模型类型 二、Model Head2.1 什么是 Model Head2.2 Transformers中的Model Head 三、Model基本使用方法3.0 模型下载-浏览器下载3.1 模型加载与保存3.2 配置加载参数3.3 加载config文件3.2 模型调用3.2.1 带ModelHead的…

*C++:string

一.STL简介 1.STL STL(standard template libaray- 标准模板库 ) &#xff1a; 是 C 标准库的重要组成部分 &#xff0c;不仅是一个可复用的组件库&#xff0c;而且 是一个包罗数据结构与算法的软件框架 。 2.STL六大组件 二.标准库里的string类 标准string库网址&#xff1…

朴世龙团队《Global Change Biology 》研究成果!揭示生物累积效应对秋季叶片衰老的重要调节作用!

本文首发于“生态学者”微信公众号&#xff01; 在全球气候变化的背景下&#xff0c;生态系统的季节性变化&#xff0c;尤其是植物的春季叶片展开和秋季叶片衰老&#xff08;EOS&#xff09;&#xff0c;对碳循环和区域气候调节起着至关重要的作用。然而&#xff0c;关于秋季叶…

腾讯云点播及声音上传

文章目录 1、开通腾讯云点播2、获取腾讯云API密钥3、完成声音上传3.1、引入依赖3.2、参考&#xff1a;接入点地域3.3、参考&#xff1a;任务流设置3.4、首先修改配置&#xff1a;3.4.1、 3.5、TrackInfoApiController --》 uploadTrack()3.6、VodServiceImpl --》 uploadTrack(…

计算存款利息-C语言

1.问题&#xff1a; 假设有本金1000元&#xff0c;想存一年&#xff0c;有三种方法可选择&#xff1a; A活期&#xff0c;年利率为0.0036&#xff1b; B一年期定期&#xff0c;年利率为0.0225&#xff1b; C存两次半年定期&#xff0c;年利率为0.0198。 请分别计算出一年后…

帮13岁小孩哥2分钟完成开发,这位AI程序员究竟是何方神圣?

通义灵码再升级&#xff0c;真AI程序员来了 随着通义系列基础模型能力的全面提升&#xff0c;各个具体领域的应用模型也随之飞升。这次在云栖大会上迎来重磅升级的&#xff0c;就包括用于代码生成的通义灵码。 一年前的通义灵码还只能完成基础的辅助编程任务&#xff0c;很难…

加快软件项目开发进度的6大技巧

加快软件项目的开发进度对于项目的成功与市场竞争力的提升至关重要。此举能够迅速响应市场变化&#xff0c;抢占市场先机&#xff0c;增强竞争力&#xff0c;同时降低开发成本&#xff0c;提升用户满意度。因此&#xff0c;加速开发是确保项目成功与市场竞争力的核心要素。若未…

捷途旅行者8月燃油SUV销量夺冠,遥遥领先!

2023年9月&#xff0c;捷途旅行者这款国内首款旅行越野SUV&#xff0c;如同一匹黑马般闯入国内汽车市场&#xff0c;凭借其方正硬朗的造型与13.99万元的亲民起售价&#xff0c;迅速点燃了消费者的购车热情。时隔一年&#xff0c;这款车的魅力依旧不减&#xff0c;2024年8月的销…

利用Leaflet.js集成强大的船舶管理页面:集成标记/路线/区域绘制和动态显隐功能

引言 在船舶管理领域&#xff0c;地理信息系统&#xff08;GIS&#xff09;技术的应用日益广泛。通过GIS技术&#xff0c;管理人员可以实时监控船舶的位置、航线以及与其他重要地理位置的关系。Leaflet.js作为一个轻量级但功能强大的前端地图框架&#xff0c;使得在Web页面上集…

如何用AI论文生成工具撰写一篇高质量的成人教育毕业论文

撰写一篇高质量的成人教育毕业论文并不简单&#xff0c;它有一定的步骤和策略。锐智AI今天就总结了一些关键的步骤&#xff0c;希望对即将毕业的你顺利完成论文写作&#xff1a; 介绍之前简单说下锐智AI&#xff0c;它是一款集论文大纲生成、内容填充、文献引用、查重修改于一…