Node2Vec实战---《悲惨世界》人物图嵌入

1. pip各个包后导入

import networkx as nx # 图数据挖掘
import numpy as np # 数据分析
import random # 随机数# 数据可视化
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签  
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号

2. 导入内置的数据集

# 《悲惨世界》人物数据集
G = nx.les_miserables_graph()

3. 可视化图，with_labels=True，以此给每个节点的名称显示出来

# 可视化
plt.figure(figsize=(15,14))
pos = nx.spring_layout(G, seed=5)
nx.draw(G, pos, with_labels=True) # 给每个节点的名称显示出来
plt.show()

4. 接下来导入Node2Vec模型，并设置其模型参数，并将最终得到的各个节点的嵌入向量embedding赋予给变量X

from node2vec import Node2Vec# 设置node2vec参数
node2vec = Node2Vec(G, dimensions=32,  # 嵌入维度p=1,            # 回家参数q=3,          # 外出参数walk_length=10, # 随机游走最大长度num_walks=600,  # 每个节点作为起始节点生成的随机游走个数workers=4       # 并行线程数)# p=1, q=0.5, n_clusters=6。DFS深度优先搜索，挖掘同质社群
# p=1, q=2, n_clusters=3。BFS宽度优先搜索，挖掘节点的结构功能。# 训练Node2Vec，参数文档见 gensim.models.Word2Vec
model = node2vec.fit(window=3,    # Skip-Gram窗口大小min_count=1,  # 忽略出现次数低于此阈值的节点（词）batch_words=4 # 每个线程处理的数据量)X = model.wv.vectors # 77个节点的嵌入向量

5. 接下来用Kmeans聚类算法，进行节点Embedding聚类可视化

#DBSCAN聚类
# from sklearn.cluster import DBSCAN
# cluster_labels = DBSCAN(eps=0.5,min samples=6).fit(X).labels
# print(cluster labels)# KMeans聚类
from sklearn.cluster import KMeans
cluster_labels = KMeans(n_clusters=3).fit(X).labels_ # 对X进行聚类，聚成三簇，
print(cluster_labels) # 得到聚类的label

print(cluster_labels)的结果：

将词汇表的节点顺序转为networkx中的节点顺序。

colors = []
nodes = list(G.nodes)
for node in nodes: # 按 networkx 的顺序遍历每个节点idx = model.wv.key_to_index[str(node)] # 获取这个节点在 embedding 中的索引号colors.append(cluster_labels[idx]) # 获取这个节点的聚类结果

把colors放到原图中可视化，可视化聚类效果如下：

plt.figure(figsize=(15,14))
pos = nx.spring_layout(G, seed=10)
nx.draw(G, pos, node_color=colors, with_labels=True)
plt.show()

上图的效果其实很像原论文里所谓DFS的效果，也就是挖掘同质社群，我觉得更通俗一点，就是相邻的节点其实就是一类。

6. 将Embedding用PCA降维到2维，进行节点embedding降维可视化

# 将Embedding用PCA降维到2维
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
embed_2d = pca.fit_transform(X)# # 将Embedding用TSNE降维到2维
# from sklearn.manifold import TSNE
# tsne = TSNE(n_components=2, n_iter=5000)
# embed_2d = tsne.fit_transform(X)# plt.figure(figsize=(14,14))
plt.scatter(embed_2d[:, 0], embed_2d[:, 1]) # 绘制散点图
plt.show()

7. 找到和拿破仑相似的节点

8. 对edge连接进行embedding

from node2vec.edges import HadamardEmbedder # 导入工具包# Hadamard 二元操作符：两个 Embedding 对应元素相乘
edges_embs = HadamardEmbedder(keyed_vectors=model.wv)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/139846.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

Node2Vec实战---《悲惨世界》人物图嵌入

相关文章

定制SQLmap和WAF绕过

Linux常用命令—find命令大全

java：java.util.MissingResourceException: Cant find bundle for base name解决方式

（25）(25.1) 光学流量传感器的测试和设置

ROS2 从头开始：第 8 部分 - 使用 ROS2 生命周期节点简化机器人软件组件管理

2023华为杯数学建模D题第三问——区域双碳目标情景设计样例

异常记录-VS

十四、MySql的用户管理

【MT7628AN】IOT | MT7628AN OpenWRT开发与学习

【C语言】指针的进阶（四）—— 企业笔试题解析

vue项目打包优化

WEB使用VUE3实现地图导航跳转

【c#-Nuget 包“在此源中不可用”】 Nuget package “Not available in this source“

【机器学习】文本多分类

资源分享 | 情绪脑电研究公开数据集

多分类中混淆矩阵的TP,TN,FN,FP计算

IDEA中创建Java Web项目方法1

Nginx location 精准匹配URL = /

位段联合体枚举

微信开放平台第三方开发，实现代小程序备案申请