第N7周：调用Gensim库训练Word2Vec模型

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

本周任务：

了解并学习Word2vec相关知识
创建一个.txt文件存放自定义词汇，防止其被切分

对原始语料进行分词

import jieba
import jieba.analyse# 读取自定义词汇文件
with open('./自定义词汇.txt', 'r', encoding='utf-8') as f:custom_words = f.read().splitlines()# 将自定义词汇加载到 jieba 中
for word in custom_words:jieba.suggest_freq(word, True)with open('./in_the_name_of_people.txt') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))f.close()

stopwords_list = ['，','。','\n','\u3000',' ',':','！','？','...']def remove_stopwords(ls):return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

训练Word2Vec模型

from gensim.models import Word2Vecmodel = Word2Vec(result_stop, vector_size=100, window=5, min_count=5)

模型应用

计算词汇相似度

# 计算两个词的余弦相似度
print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))

0.9982539
0.99830014

# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):print(e[0], e[1])

李达康 0.9990676045417786
对 0.9987690448760986
话 0.998748242855072
学生 0.9986950755119324
有些 0.9985189437866211

找出不匹配的词汇

# 选出不同的词
odd_word = model.wv.doesnt_match(['苹果','香蕉','橙子','书'])
print(f'在这组词汇中不匹配的词汇：{odd_word}')

在这组词汇中不匹配的词汇：书

计算词汇的词频

# 计算词汇的词频
word_frequency = model.wv.get_vecattr('沙瑞金', 'count')
print(f"沙瑞金：{word_frequency}")

沙瑞金：353

总结

Word2Vec是一种词嵌入方法，是一种用于生成词向量的浅层神经网络模型
与此类似，前几周的embedding也是一种词嵌入方法
Word2Vec的优势是其可以成功捕捉单词之间的相似性和类比关系

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/14258.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

第N7周：调用Gensim库训练Word2Vec模型

对原始语料进行分词

训练Word2Vec模型

模型应用

计算词汇相似度

找出不匹配的词汇

计算词汇的词频

总结

相关文章

机器学习基础03

【go从零单排】go语言中testing的几种类型

[笔记]自动化中破解验证码

2024下半年软考系统架构设计师案例分析题试题与答案

使用 Python 和 Selenium 解决 hCaptcha：完整指南

[HAOI2015] 树上染色（树形 DP）

Python学习从0到1 day28 Python 高阶技巧 ⑧ 递归

代码随想录算法训练营第二十二天|491.递增子序列、46.全排列、47.全排列 II

二叉树的最大深度

要读文献 | Acta Pharmacol Sin | 上海药物所徐华强团队发表综述：基于生成扩散模型的 AI 驱动抗体设计

Collections 工具类

机器学习引领流体动力学新纪元：CFD、Fluent与OpenFOAM的深度融合

django入门【05】模型介绍（二）——字段选项

PL/SQL执行.sql文件

论文5—《基于改进YOLOv5s的轻量化金银花识别方法》文献阅读分析报告

【数据结构】ArrayList与LinkedList详解！！！——Java

modbus协议 Mthings模拟器使用

微信版产品目录如何制作？

消息推送之SSE

react中如何在一张图片上加一个灰色蒙层，并添加事件？