关于TF-IDF的一个介绍

在这篇文章中我将介绍TF-IDF有关的一些知识,包括其概念、应用场景、局限性以及相应的代码。

一、概念

TF-IDF(Term Frequency-Inverse Document Frequency)是一种广泛用于信息检索和文本挖掘中的统计方法,用于评估一个词在一个文档或文档集合中的重要性。TF-IDF值反映了词语的重要性,它由两部分组成:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。

1.1 TF

Term Frequency (TF):

词频是指某个词在文档中出现的次数。它是衡量一个词在文档中重要性的一个基本指标。

计算公式为:

1.2 IDF

 Inverse Document Frequency (IDF):

逆文档频率(IDF)是为了补偿词频(TF)的不足而引入的概念。IDF的作用是降低那些在很多文档中都出现的词的重要性,同时提高那些在较少文档中出现的词的重要性。换句话说,IDF试图捕捉一个词的独特性和区分能力。

计算公式为:

其中:

其中 N 是文档总数,

df(t)是包含词 t 的文档数量,

+1是为了避免 df(t)为0时导致的分母为0问题。

1.3 TF-IDF

TF-IDF是TF和IDF的乘积,综合考虑了词频和逆文档频率两个因素。这样既反映了词语在文档中的重要性,又考虑了词语的独特性。

因此,其计算公式为:

二、应用场景

信息检索:在搜索引擎中,可以通过对于TF-IDF的计算来寻找目标目标文档。其中,关于检索模型可以分为布尔模型、向量模型、概率模型这三大种。而其中的向量模型就会用到TF-IDF来计算相似度。

具体的,在向量空间模型中,每个文档和查询都被表示为一个向量,其中每个维度对应一个词汇的TF-IDF值。文档向量和查询向量之间的相似度通常是通过余弦相似度来计算的:

其中,A与B分别为文档向量和查询向量,而||A||与||B||则是其对应的模长。

举个例子:

假设我们有两个文档:

  1. Doc1: "这是一个测试文档"
  2. Doc2: "另一个测试文档"

 我们需要用向量模型来计算得知其相似度。

假设词汇表为 ["这是", "一个", "测试", "文档", "另一个"]。

首先我们计算TF

对于Doc1:

TF("测试",Doc1)=\frac{1}{5}

对于Doc2:

TF("测试",Doc2)=\frac{1}{5}

然后我们计算IDF

假设我们的文档集合 D 包含这两个文档:

那么,

df("测试")=2

N=2

则有:IDF("测试",D)=log(\frac{2}{2+1})=log(\frac{2}{3})

然后计算TF-IDF:

对于Doc1:

TF−IDF("测试",Doc1,D)=\frac{1}{5}*log(\frac{2}{3})

对于Doc2:

TF−IDF("测试",Doc2,D)=\frac{1}{5}*log(\frac{2}{3})

接着我们就可以构建文档向量了:

假设我们构建文档向量时,除了“测试”外还有其他词汇,构造向量如下:

A=[TF−IDF("这是"),TF−IDF("一个"),TF−IDF("测试"),TF−IDF("文档")]

B=[TF−IDF("另一个"),TF−IDF("测试"),TF−IDF("文档")]

具体数值为:

A=[0,0,\frac{1}{5}log(\frac{2}{3}),0,0]

B=[0,0,\frac{1}{5}log(\frac{2}{3}),0,0]

最后,就是计算其相似度

使用余弦相似度计算 AA 和 BB 之间的相似度:

那么,我们带入A与B到计算公式里则可得:

similarity=1

文本分类:在文本分类任务中,TF-IDF用于提取文档的关键特征。通过计算文档中各个词的TF-IDF值,可以得到一组特征向量,这些向量可以输入到诸如朴素贝叶斯(Naive Bayes)、支持向量机(SVM)或其他机器学习算法中,用于训练模型并进行分类预测。

关键词提取:TF-IDF可以用于从文档中提取关键词。通过计算文档中每个词的TF-IDF值,可以选择TF-IDF值最高的若干词作为文档的关键词。这种方法广泛应用于摘要生成、文献检索等领域。

文章相似度计算:TF-IDF可以用于计算文档之间的相似度。通过计算两个文档中相同词汇的TF-IDF值,并使用余弦相似度(Cosine Similarity)等方法,可以评估文档之间的相似程度。这种方法在推荐系统、抄袭检测等方面有广泛应用。具体的相似度计算和上述的检索模型中向量模型的计算方式一致。

三、注意事项

在计算文档的TF-IDF时,我们要注意使用停用词库,像“一样”、“那么”、“还有”等词语虽然在文章中频繁出现,但实际意义不大,不能有助于我们区分不同文档间的差异,所以我们需要引入一个停用词库来筛选并剔除这些词语来。

然后,我们在计算文档的TF-IDF时,得到的往往是一个稀疏矩阵,它及占空间,所以我我们需要改变它的存储方式,就像如下图那样:

从这样的稀疏矩阵:

变为这样:

其中,可以看到元组内的第一项是特征,也就是词语所在的文档,第二项则是其在词汇表中索引位,至于元组后的小数,正是TF-IDF值。

四、python实例

如下这个代码就是用sklearn中现成的函数来直接计算文章的TF-IDF,并且在其中因为是全是中文文档的缘故,我还引用了一个中文的停用词库。代码如下:

from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import string
import jieba# 加载停用词
def load_stopwords(filepath):with open(filepath, 'r', encoding='utf-8') as file:stopwords = set(line.strip() for line in file)return list(stopwords)# 标点符号去除函数
def remove_punctuation(text):# 定义中文标点符号zh_punctuation = r'。\n !?。 "#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏'# 去除英文和中文标点符号translator = str.maketrans('', '', zh_punctuation + string.punctuation)try:text = str(text).translate(translator)  # 确保text是字符串类型return text.strip()except Exception as e:print(f"Error processing text: {e}")return " "# 文本中文分词处理函数
def chinese_tokenizer(text):text = remove_punctuation(text)return " ".join(jieba.lcut(text))# 数据载入及预处理
path = r"C:\Users\20349\Desktop\ArtificialIntelligence\ML\kaggle\TF_IDF\chinese_news.csv"
data_all = pd.read_csv(path)
data_use = data_all.iloc[:500]
data_list = data_use.iloc[:,-1].tolist()
data = [chinese_tokenizer(text) for text in data_list]# 停用词库
stopwords_path = r"C:\Users\20349\Desktop\ArtificialIntelligence\wordCloud\stopWords.txt"
stopwords = load_stopwords(stopwords_path)# tfidf
vec = TfidfVectorizer(stop_words=stopwords)
X_tfidf = vec.fit_transform(data)
feature_name = vec.get_feature_names_out()
print(X_tfidf)
print(X_tfidf.toarray())
# 可视化
# 获取非零元素及其对应的TF-IDF值
rows, cols = X_tfidf.shape
for doc_index in range(rows):# 获取非零元素及其对应的TF-IDF值nonzero_features = X_tfidf.indices[X_tfidf.indptr[doc_index]:X_tfidf.indptr[doc_index + 1]]nonzero_values = X_tfidf.data[X_tfidf.indptr[doc_index]:X_tfidf.indptr[doc_index + 1]]# 排序
sorted_indices = np.argsort(nonzero_values)
sorted_nonzero_features = nonzero_features[sorted_indices]
sorted_nonzero_values = nonzero_values[sorted_indices]# 绘制TF-IDF散点图
plt.figure(figsize=(10, 6))
plt.scatter(range(len(sorted_nonzero_values)), sorted_nonzero_values, alpha=0.6, label=f'Document {doc_index}')
plt.xlabel('Feature Index Sorted by TF-IDF Value')
plt.ylabel('TF-IDF Value')
plt.title(f'TF-IDF Values for Document {doc_index} (Sorted)')
plt.grid(True)
plt.legend()
plt.show()

其画出的图像为:

这个图像是我筛选非0索引后排序得到的,但我们观察会发现其存在异常点,这是因为此时没有用停用词库,那么在加入停用词库后可以得到:

这样,最后那个异常的点就没有了。

如果我们不进行这样的压缩、排序,而是显示全部的索引项时,图像会是这样:

 

图像杂乱我们无法从中获取什么,所以需要一定的处理后才能再去绘制图表。

通过图像,我们可以得知文档的词汇间TF-IDF差值的具体大小,然后可以同过让词汇直接写在图表中的方法来得知最靠前的词汇是什么,而这些词汇就可以作为需要的文章标签来处理。

此上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1552909.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙ArkUI实战开发-主打自研语言及框架

ArkUI 是 HarmonyOS 的声明式 UI 开发框架,而 ArkUI-X 是基于 ArkUI 框架扩展而来的跨平台开发框架。ArkUI-X 支持 HarmonyOS、OpenHarmony、Android 和 iOS 平台,允许开发者使用一套代码构建支持多平台的应用程序。 一、ArkUI-X 的实战开发步骤 在实战开…

存储主动防御,为什么Gartner技术曲线尤为重视?

【科技明说 | 科技热点关注】 近来,从Gartner发布的2024年存储技术成熟曲线(Hype Cycle for Storage Technologies ,2024)的相关报告看出,到2028年,所有存储产品都将融入专注于数据主动防御的网络存储功能&…

西电25考研 VS 24考研专业课大纲变动汇总

01专业课变动 西安电子科技大学专业课学长看到953网络安全基础综合变为 893网络安全基础综合,这是因为工科要求都必须是8开头的专业课,里面参考课本还是没变的,无非就是变了一个名字 对于其他变动专业课也是同理的 02专业课考纲内容变化 对于…

深度学习笔记18_TensorFlow实现猫狗识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 一、我的环境 1.语言环境:Python 3.9 2.编译器:Pycharm 3.深度学习环境:TensorFlow 2.10.0 二、GPU设置…

【拥抱AIGC】通义灵码策略配置

通义灵码企业级策配置支持智能问答、行间代码生成安全过滤器相关策略配置。 适用版本 企业标准版、企业专属版 通义灵码管理员、组织内全局管理员(专属版)在通义灵码控制台的策略配置中进行安全过滤器的配置,开启后,企业内开发…

SOMEIP_ETS_146: SD_ResetInterface

测试目的: 验证DUT在重置后,TestFieldUINT8的值是否至少与重置前设置的值不同,符合SOME/IP规范。 描述 本测试用例旨在确保DUT的ETS能够正确响应重置请求,并且在重置后,特定的测试字段(TestFieldUINT8&a…

数据仓库的建设——从数据到知识的桥梁

数据仓库的建设——从数据到知识的桥梁 前言数据仓库的建设 前言 企业每天都在产生海量的数据,这些数据就像无数散落的珍珠,看似杂乱无章,但每一颗都蕴含着潜在的价值。而数据仓库,就是那根将珍珠串起来的线,它能够把…

仅需10G显存,使用 Unsloth 微调 Qwen2 并使用 Ollama 推理

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接如…

YOLOv11改进 | 注意力篇 | YOLOv11引入ACmix注意力机制

1. ACmix介绍 1.1 摘要:卷积和自注意力是表示学习的两种强大技术,它们通常被认为是两种彼此不同的同行方法。 在本文中,我们表明它们之间存在很强的潜在关系,从某种意义上说,这两种范式的大量计算实际上是通过相同的操…

Linux 进程状态、僵尸进程与孤儿进程

目录 0.前言 1. 进程状态 1.1 定义 1.2 常见进程 2.僵尸进程 2.1 定义 2.2 示例 2.3 僵尸进程的危害与防止方法 3. 孤儿进程 3.1 介绍 3.2 示例 4.小结 (图像由AI生成) 0.前言 在上一篇文章中,我们介绍了进程的基本概念、进程控制块&#…

蓝桥杯—STM32G431RBT6(IIC通信--EEPROM(AT24C02)存储器进行通信)

一、什么是IIC?24C02存储器有什么用? IIC (IIC 是半双工通信总线。半双工意味着数据在某一时刻只能沿一个方向传输,即发送数据的时候不能接收数据,接收数据的时候不能发送数据)即集成电路总线(…

Activiti7 工作流引擎学习

目录 一. 什么是 Activiti 工作流引擎 二. Activiti 流程创建步骤 三. Activiti 数据库表含义 四. BPMN 建模语言 五. Activiti 使用步骤 六. 流程定义与流程实例 一. 什么是 Activiti 工作流引擎 Activiti 是一个开源的工作流引擎,用于业务流程管理&#xf…

第二弹:面向对象编程中的类与对象

文章目录 面向对象编程中的类与对象1. 类与对象的定义1.1 类和对象的概念1.2 类的基本定义 2. 类的封装2.1 类的封装语法2.2 类成员访问权限2.3 struct和class的区别2.4 类封装与成员函数定义分离 3. 类对象的创建与销毁3.1 静态与动态对象的创建3.2 对象的销毁 4. 构造函数和析…

深入解析 ConcurrentHashMap:从 JDK 1.7 到 JDK 1.8

✨探索Java基础 ConcurrentHashMap✨ 引言 ConcurrentHashMap 是 Java 中一个线程安全的高效 Map 集合。它在多线程环境下提供了高性能的数据访问和修改能力。本文将详细探讨 ConcurrentHashMap 在 JDK 1.7 和 JDK 1.8 中的不同实现方式,以及它们各自的优缺点。 …

(笔记)第三期书生·浦语大模型实战营(十一卷王场)--书生入门岛通关第2关Python 基础知识

学员闯关手册:https://aicarrier.feishu.cn/wiki/ZcgkwqteZi9s4ZkYr0Gcayg1n1g?open_in_browsertrue 课程视频:https://www.bilibili.com/video/BV1mS421X7h4/ 课程文档:https://github.com/InternLM/Tutorial/tree/camp3/docs/L0/Python 关…

如何使用ssm实现基于JSP的高校听课评价系统

TOC ssm753基于JSP的高校听课评价系统jsp 绪论 1.1 研究背景 现在大家正处于互联网加的时代,这个时代它就是一个信息内容无比丰富,信息处理与管理变得越加高效的网络化的时代,这个时代让大家的生活不仅变得更加地便利化,也让时…

【LeetCode: 1870. 准时到达的列车最小时速 | 二分】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

各种饺子的做法

【羊肉馅水饺】 材料:羊肉1000克、洋葱2个、香油3汤匙、盐适量、姜2片、料酒1汤匙、白胡椒粉、十三香1茶匙、 做法: 1.把羊肉剁成肉馅,羊肉选用带一些肥肉的,味道比较香,如果羊肉比较瘦,可以放一些猪的肥肉一起剁成馅…

电商店铺多开自动回复软件

在电商平台上开设多个店铺,即店铺多开,是一种扩展业务和增加销售额的策略。然而,店铺多开需要谨慎规划和执行,以避免违反平台规定和管理上的混乱。以下是如何实现店铺多开的详细步骤和注意事项。 1. 确定多开目标 在决定多开店铺…

4个顶级的大模型推理引擎

LLM 在文本生成应用中表现出色,例如具有高理解度和流畅度的聊天和代码完成模型。然而,它们的庞大规模也给推理带来了挑战。基本推理速度很慢,因为 LLM 会逐个生成文本标记,需要对每个下一个标记进行重复调用。随着输入序列的增长&…