自训练和增量训练word2vec模型

1、自己准备训练语料文件

根据自己的业务场景准备训练数据，比如用户在商城上的同购行为序列或同浏览行为序列。

我们希望通过自己训练业务相关的语料word2vec模型来获得词嵌入、词相关性查询等。

1.1 准备语料库文件

# 示例：准备自己的一个大规模的语料库文件
df = spark.sql("""
select hist_item_seq from dmb_dev.dmb_dev_item_sku_sequencewhere item_seq_len >=2group by hist_item_seq
""")
df.show(6, False)corpus_file = 'large_corpus_sku_name.txt'
df.toPandas().to_csv(corpus_file, sep=' ', index=False, mode='w',header=False )

"五粮液 金密鉴 52度浓香型高度白酒 500ml 五粮液红密鉴（陈酿）6瓶整箱装,五粮液 金密鉴 52度浓香型高度白酒 500ml 五粮液红密鉴（
陈酿）6瓶整箱装,五粮液（WULIANGYE）酒五粮液密鉴浓香型白酒礼盒白酒整箱口粮酒送礼收藏宴请佳品 52度 500mL 6瓶 红密鉴,五粮液（W
ULIANGYE）酒五粮液密鉴浓香型白酒礼盒白酒整箱口粮酒送礼收藏宴请佳品 52度 500mL 6瓶 红密鉴"
"珍酒贵州珍酒 珍十五 2021年份酒 53度酱香型白酒 送礼商务 53%vol 500mL 6瓶 整箱装,珍酒贵州珍酒 珍十五 2021年份酒 53度酱香型白
酒 送礼商务 53%vol 500mL 6瓶 整箱装,珍酒珍十五 酱香型白酒整箱装 53度 500ml*6瓶酒中珍品 大曲坤沙"
"茅台（MOUTAI） 汉酱酒 酱香型白酒 51度 500ml*6瓶 整箱装,习酒贵州习酒 53度 圆习酒 老习酒 500ml*6  整箱装  酱香型白酒,剑南春 
水晶剑 浓香型白酒 喜宴名酒 38度 500mL 6瓶 整箱装"
"洋河 蓝色经典 天之蓝 42度 520ml*6瓶 整箱装 绵柔浓香型白酒 送礼,洋河【官方授权】蓝色经典 口感绵柔浓香型500ml*2瓶白酒 梦之蓝M3 45度 礼盒装,洋河 梦之蓝M3 45度 500ml*2瓶 礼盒装 绵柔浓香型白酒,洋河梦之蓝M3  52度 500ml*2瓶 礼盒装 绵柔浓香型白酒,洋河
之蓝M3  52度 500ml*2瓶 礼盒装 绵柔浓香型白酒"
"五粮液股份 五粮春 浓香型四川宜宾白酒粮食酒 五粮春 45度  500ml*6瓶整箱,五粮液股份 五粮春 浓香型四川宜宾白酒粮食酒 五粮春 45
度  500ml*6瓶整箱,洋河 梦之蓝M6+ 52度 550ml*2瓶 礼盒装 绵柔浓香型白酒"
"茅台（MOUTAI）53度500ml贵州茅台酒 飞天茅台,茅台（MOUTAI）53度500ml贵州茅台酒 飞天茅台 2023单瓶500ML,茅台（MOUTAI）贵州茅台
酒 飞天茅台礼盒 53度 酱香型白酒 500ml*2两瓶装"

2、全量自训练word2vec模型

2.1 读取语料文件

# 定义函数来读取语料库文件
def read_corpus(file_path):lines = []with open(file_path, 'r', encoding='utf-8') as f:for i, line in enumerate(f):lines.append(line.replace('"','').replace(' ','').strip().split(','))  # 每行按,分割好了return linescorpus = read_corpus(corpus_file)
corpus[:5]

2.2 训练 Word2Vec 模型

# 设置 Word2Vec 模型的参数
vector_size = 20  # 设置词向量的维度
window = 5  # 窗口大小，控制上下文窗口的大小
min_count = 2  # 最小词频，过滤掉低频词
sg = 0  # 0表示使用 CBOW 模型，1示使用 Skip-Gram 模型# 训练 Word2Vec 模型
model = Word2Vec(corpus, vector_size=vector_size, window=window, min_count=min_count, sg=sg)

2.3 保存和读取模型

# 保存训练好的模型
model.save('word2vec_model_1batch_train_sku_name.w2v')# 模型加载
import gensim
model1 = gensim.models.word2vec.Word2Vec.load('word2vec_model_1batch_train_sku_name.w2v').wv
model1.similarity('茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装', '剑南春 水晶剑 52度 500ml*6瓶  浓香型白酒 整箱装')

2.4 查看TopN相似和词与词之间的相似系数

# 查看商品 TopN 相似性商品
model.wv.most_similar('国台 十五年 酱香型白酒 53度 500ml单瓶装 15酱酒 茅台镇纯粮食酱酒', topn=10)for item_ta in ['茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装', '剑南春 水晶剑 52度 500ml*6瓶  浓香型白酒 整箱装']:# 查看print("\n%s商品 TopN 相似性商品为: "%item_ta)print(model.wv.most_similar(item_ta, topn=10))

2.5 获取用户向量

# 获取用户向量
model.wv['茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装']

3、增量训练word2vec模型

3.1 增量训练

from gensim.models import Word2Vec
import logging# 设置日志级别以便查看进度
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)# 假设有一个大规模的语料库文件
corpus_file = 'large_corpus_sku_name.txt'# 定义 Word2Vec 模型的参数
vector_size = 100  # 词向量维度
window = 5  # 窗口大小
min_count = 5  # 最小词频，过滤掉低频词
workers = 4  # 使用多少个 CPU 核心来训练模型# 初始化空的 Word2Vec 模型
model = Word2Vec(vector_size=vector_size, window=window, min_count=min_count, workers=workers)# 逐步加载和训练数据
def read_and_train_model(model, corpus_file, chunk_size=10000):with open(corpus_file, 'r', encoding='utf-8') as f:lines = []for i, line in enumerate(f):lines.append(line.strip().replace('"','').split(','))  # 假设每行已经分好词了，按空格分割if i > 0 and i % chunk_size == 0:if model.corpus_count == 0:# 第一次建立词汇表model.build_vocab(lines)else:# 更新词汇表model.build_vocab(lines, update=True)# 训练模型model.train(lines, total_examples=len(lines), epochs=model.epochs)# 清空 lines 列表，以便下一个批次数据lines = []# 处理最后一个不完整的数据块if lines:if model.corpus_count == 0:model.build_vocab(lines)else:model.build_vocab(lines, update=True)model.train(lines, total_examples=len(lines), epochs=model.epochs)# 开始增量学习
read_and_train_model(model, corpus_file)# 保存训练好的模型
model.save('word2vec_model_increase_train_sku_name.w2v')

3.2 查看商品 TopN 相似性商品

# 查看商品 TopN 相似性商品
model.wv.most_similar('茅台（MOUTAI）53度飞天酱香型白酒500ml单瓶装', topn=10)

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

from gensim.models import FastText
# 模型训练
model = FastText(vector_size=20, window=3, min_count=1)  # instantiate
model.build_vocab(corpus_iterable=corpus)
model.train(corpus_iterable=corpus, total_examples=len(corpus), epochs=10) #或者
model2 = FastText(vector_size=20, window=3, min_count=1, sentences=common_texts, epochs=10)

5.2 查询不在词库中的词向量

print(model.wv['【浓香】五粮液甲辰龙年纪念酒（5瓶装）'])
print(model.wv.most_similar('【浓香】五粮液甲辰龙年纪念酒（5瓶装）', topn=10))

到这里虽然能解决不在词库中词的词向量查询问题，但高相关词(商品)的检索又变得有偏了，缺乏一定的多样性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1486805.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

自训练和增量训练word2vec模型

1、自己准备训练语料文件

1.1 准备语料库文件

2、全量自训练word2vec模型

2.1 读取语料文件

2.2 训练 Word2Vec 模型

2.3 保存和读取模型

2.4 查看TopN相似和词与词之间的相似系数

2.5 获取用户向量

3、增量训练word2vec模型

3.1 增量训练

3.2 查看商品 TopN 相似性商品

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

5.2 查询不在词库中的词向量

相关文章

开局一个启动器：从零开始入坑ComfyUI

7.23模拟赛总结 [数据结构优化dp] + [神奇建图]

宠物经济纵深观察：口红效应显著，呈可持续发展态势

Hbase映射为Hive外表

Java面试八股之Spring boot的自动配置原理

真实测评，霍尼韦尔、希喂、352宠物空气净化器性能对比

webpack的基本介绍与使用

学习记录day16—— 数据结构双向链表循环链表

72 | 数据分析岗位招聘数据可视化

【大师与bug里特】M_Studio《王国之梦》学习笔记

【JVM基础05】——组成-能不能解释一下方法区？

接口自动化测试框架实战-2-项目接口文档

软件测试---测试需求分析

Domainim：一款高效的企业级网络安全扫描工具

Llama 3.1要来啦？！测试性能战胜GPT-4o

Elasticsearch-RestAPI --学习笔记

STM32CUBEIDE FreeRTOS操作教程（一）：LED闪灯

防御课第2次作业

内网隧道——HTTP隧道

Leetcode3216. 交换后字典序最小的字符串

自训练和增量训练word2vec模型

1、自己准备训练语料文件

1.1 准备语料库文件

2、全量自训练word2vec模型

2.1 读取语料文件

2.2 训练 Word2Vec 模型

2.3 保存和读取模型

2.4 查看TopN相似和 词与词之间的相似系数

2.5 获取用户向量

3、增量训练word2vec模型

3.1 增量训练

3.2 查看商品 TopN 相似性商品

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

5.2 查询不在词库中的词向量

相关文章

2.4 查看TopN相似和词与词之间的相似系数