布隆过滤器(Bloom Filter)详解

一、引言

        在处理大量数据的场景中,我们经常会遇到判断一个元素是否在某个集合中的问题。传统的方法可能是使用 HashMap 等集合将数据保存起来,然后进行比较确定,但在元素很多的情况下,这种方式会非常浪费空间,检索速度也会越来越慢。这时,布隆过滤器(Bloom Filter)应运而生。本文将详细介绍布隆过滤器的原理、使用场景以及优缺点。

二、什么是布隆过滤器

        布隆过滤器是 1970 年由布隆提出的,它实际上是一个很长的二进制向量和一系列随机映射函数组成,主要用于判断一个元素是否在一个集合中。它不存储数据本身,仅存储哈希结果取模运算后的位标记,因此占用内存小,适合海量数据场景。其优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

三、布隆过滤器的原理

数据结构

        布隆过滤器是由很长的二进制向量(即可以理解成很长的 0、1 数组)与一系列随机映射函数(Hash 函数)构成。由于其数据结构仅需要存储 “0” 或 “1”,因此所占用内存极少。

检索和插入原理

Hash 函数简介:Hash 函数就是把输入值通过特定方式处理后生成一个值,这个值等同于存放数据的地址。

插入数据原理

当一个元素加入布隆过滤器中的时候,会进行如下操作:

使用布隆过滤器中的哈希函数对元素值进行计算,得到哈希值(有几个哈希函数得到几个哈希值)

根据得到的哈希值,在位数组中把对应下标的值置为 1

如下图所示:

检索数据原理:将待检索元素通过同样的一系列 Hash 函数得到对应的一系列数组地址(索引下标),判断这几个索引下标对应的值是否均为 1,是的话则说明存在,否则不存在。

对给定元素再次进行相同的哈希计算

得到哈希值之后判断位数组中的每个元素是否都为 1,如果值都为 1,那么说明这个值存在布隆过滤器当中,如果存在一个值不为 1,说明该元素不在布隆过滤器中

例如我们查询 “你好” 这个值是否存在,哈希函数返回了 3、5、7三个值

如下图所示:

结果得到三个 1 ,说明 “你好” 是有可能存在的。

元素的删除

        布隆过滤器对元素的删除不太支持,因为不同的值可能经过一系列 Hash 函数后得到的一系列地址,总有可能两个或多个值经过某个 Hash 函数映射后得到其中一个地址会一样,此时数组中对应的下标肯定为 1。

当删除或修改某个元素后,如果将其原来对应地址的值从 1 改为 0,无法确定这个地址是否也对应其他值,可能会导致其他原本存在的值在检索时返回不存在的情况。

四、布隆过滤器的使用场景

区块链中使用布隆过滤器来加快钱包同步;

数据库防止穿库,Google Bigtable,HBase 和 Cassandra 以及 Postgresql 使用BloomFilter来减少不存在的行或列的磁盘查找。避免代价高昂的磁盘查找会大大提高数据库查询操作的性能

判断用户是否阅读过某一个视频或者文章,类似抖音,刷过的视频往下滑动不再刷到,可能会导致一定的误判,但不会让用户看到重复的内容

网页爬虫对URL去重,采用布隆过滤器来对已经爬取过的URL进行存储,这样在进行下一次爬取的时候就可以判断出这个URL是否爬取过了

使用布隆过滤器来做黑名单过滤,针对不同的用户是否存入白名单或者黑名单,虽然有一定的误判,但是在一定程度上还是很好的解决问题

缓存击穿场景,一般判断用户是否在缓存中,如果存在则直接返回结果,不存在则查询数据库,如果来一波冷数据,会导致缓存大量击穿,造成雪崩效应,这时候可以用布隆过滤器当缓存的索引,只有在布隆过滤器中,才去查询缓存,如果没查询到则穿透到数据库查询。如果不在布隆过滤器中,则直接返回,会造成一定程度的误判

WEB拦截器,如果相同请求则拦截,防止重复被攻击。用户第一次请求,将请求参数放入布隆过滤器中,当第二次请求时,先判断请求参数是否被布隆过滤器命中。可以提高缓存命中率。Squid 网页代理缓存服务器在 cache digests 中就使用了布隆过滤器。Google Chrome浏览器使用了布隆过滤器加速安全浏览服务

Google 著名的分布式数据库 Bigtable 使用了布隆过滤器来查找不存在的行或列,以减少磁盘查找的IO次数

Squid 网页代理缓存服务器在 cache digests 中使用了也布隆过滤器

Venti 文档存储系统也采用布隆过滤器来检测先前存储的数据

SPIN 模型检测器也使用布隆过滤器在大规模验证问题时跟踪可达状态空间

Google Chrome浏览器使用了布隆过滤器加速安全浏览服务

五、布隆过滤器的优缺点

  1. 优点

    • 时间复杂度低,增加和查询元素的时间复杂为 O (N),(N 为哈希函数的个数,通常情况比较小)。
    • 保密性强,不存储元素本身。
    • 存储空间小,如果允许存在一定的误判,布隆过滤器是非常节省空间的(相比其他数据结构如 Set、Map 集合)。
  2. 缺点

    • 有一定的误判率,但是可以通过调整参数来降低。
    • 无法获取元素本身。
    • 很难删除元素。

        布隆过滤器中一个元素如果判断结果为存在的时候元素不一定存在,但是判断结果为不存在的时候则一定不存在。因此,布隆过滤器不适合那些对结果必须精准的应用场景。

六、总结

        布隆过滤器是一种非常实用的数据结构,在处理大规模数据时,能够以较小的内存占用和快速的查询速度判断元素的存在性。虽然存在一定的误判率和删除困难等缺点,但在很多场景下,只要允许一定的误判率,布隆过滤器都是一个非常好的选择。在实际应用中,可以根据具体需求选择合适的实现方式,如 Redis 中的布隆过滤器,以满足不同场景下的需求。

参考连接

一篇吃透布隆过滤器(Bloom Filter)及其使用场景-CSDN博客

Redis-布隆过滤器(Bloom Filter)详解-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1560109.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

知识蒸馏介绍

一、知识蒸馏介绍 1.1 概念介绍 知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来…

极客兔兔Gee-Cache Day7

protobuf配置: 从 Protobuf Releases 下载最先版本的发布包安装。解压后将解压路径下的 bin 目录 加入到环境变量即可。 如果能正常显示版本,则表示安装成功。 $ protoc --version libprotoc 3.11.2在Golang中使用protobuf,还需要protoc-g…

高效编辑修改文本文档:批量修改文本文档中的特定词汇

在处理大量文本文档时,经常需要批量修改文章的内容,特别是当多个文档里的内容,手动逐个修改不仅效率低下,还容易出错。因此,掌握一些批量修改文本文档内容的技巧变得尤为重要。本文将介绍几种高效编辑文章的方法&#…

基于IMX6UL的EPIT的定时器实验

定时器是最常用的外设,常常需要使用定时器来完成精准的定时功能,I.MX6U 提供了多 种硬件定时器,有些定时器功能非常强大。本章我们从最基本的 EPIT 定时器开始,学习如何配置EPIT 定时器,使其按照给定的时间&#xff0c…

k8s部署学习

8s的架构 一个kubernetes集群主要是由控制节点(master)、工作节点(node)构成,每个节点上都会安装不同的组件 1 master:集群的控制平面,负责集群的决策 ApiServer : 资源操作的唯一入口,接收用户输入的命令,提供认证、…

Java中对象的比较(equals、Comparable、Comparator)

文章目录 一、PriorityQueue中插入对象二、元素的比较 2.1、基本类型的比较2.2、对象比较的问题三、对象的比较 3.1、覆写基类的equals3.2、基于Comparable接口类的比较3.3、基于比较器比较3.4、三种方式对比 一、PriorityQueue中插入对象 前篇我们讲解了优先级队列&#xff0…

qt小练习

制作简易闹钟 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTimer> //定时器类 #include <QDebug> //信息调试类 #include <QMessageBox> //消息对话框类 #include <QTime> //时间类 #include…

大模型日报|4 篇必读的大模型论文

大家好&#xff0c;今日必读的大模型论文来啦&#xff01; 1.清华、北航团队推出多智能体代码异常处理框架 Seeker 在现实世界的软件开发中&#xff0c;异常处理不当或缺失会严重影响代码的鲁棒性和可靠性。异常处理机制要求开发人员按照高标准来检测、捕获和管理异常&#x…

全网最详细k8s搭建部署

目录 Kubernetes的功能&#xff1a; Kubernetes的特点&#xff1a; 1. 安装要求 2. 部署内容 1、系统环境准备 2、所有禁用swap和本地解析 3、仓库配置&#xff0c;所有安装docker 4、所有节点设定docker的资源管理模式为systemd 5、所有阶段复制harbor仓库中的证书并…

python中计算分布的分位数及累积概率

本文讨论python中怎样计算分布的分位数及累积概率 ⭐️ 根据累计概率获取分位数 在 Python 中&#xff0c;你可以使用 scipy.stats 中的 ppf&#xff08;percent point function&#xff09;来根据累积概率获取分位数。ppf 是逆累积分布函数&#xff0c;也就是根据给定的累积…

前端笔记(一):父传子,子传父,获取DOM对象或组件,别名路径联想设置,elemntPlus

一、父传子 二、子传父 三、获取DOM对象或组件 把子组件的属性暴露给父组件 四、别名路径联想设置 1.jsconfig里只做联想配置&#xff1b; 2.vue.config.js里做实际转换&#xff0c;把转为src&#xff1b; 五、elemntPlus 1.按需导入 ①npm install element-plus --sav…

适合高新技术企业的内外网文件交换系统

在科技前沿的战场上&#xff0c;数据的快速和安全流通是企业维持竞争优势的关键。随着企业业务的全球化和科技的持续进步&#xff0c;内外网文件交换的需求不断增长&#xff0c;这同时也带来了一系列挑战。本文将讨论科技前沿领域在内外网文件交换中所面临的挑战&#xff0c;并…

【技术支持】家里智能电视不能联网重置小米路由器之路

问题现象 最近家里的路由器出现一点问题&#xff0c;现象是手机和电脑连接wifi后&#xff0c;都可以正常打开网页看视频。 但是小爱同学和小米盒子&#xff0c;都出现网络问题&#xff0c;不能正常播放音乐或者视频。 这是小米盒子的网络问题截图 这是和小米盒子连接的智能电…

AI时代大厂AI项目管理学习路线

AI时代避免被裁员&#xff0c;大厂AI项目管理学习路线主要包括&#xff1a; 1、AI项目管理基础技能。 2、项目管理AI技术知识。 3、数据分析与决策。 4、AI项目管理工具。 5、AI项目管理知识扩展。 01 AI项目管理基础技能。 AI项目管理基础技能构成了项目管理的骨架&…

Spring WebFlux 核心原理(2-1)

1、Spring 响应式编程 1.1、早期响应式解决方案 响应式编程是构建响应式系统的主要候选方案。Spring 4.x 引入了 ListenableFuture 类&#xff0c;它扩展了 Java Future&#xff0c;并且可以基于 HTTP 请求实现异步执行操作。但是只有少数 Spring 4.x 组件支持新的 Java 8 Com…

VScode连接服务器配置c、c++编程环境

在 VS Code 中配置远程服务器的 C/C 编程环境&#xff0c;可以使用 VS Code 的 Remote-SSH 扩展来通过 SSH 连接到远程服务器&#xff0c;并在服务器上编写、编译和调试 C/C 代码。 以下是详细的配置步骤&#xff1a; 1. 在本地机器上安装 VS Code 和扩展 安装 VS Code&#…

360度评估与绩效考核的深度融合,助力员工提升自我

客户背景 该零售业企业是一家集水果采购、种植支持、采后保鲜、物流仓储、标准分级、营销拓展、品牌运营、门店零售、信息科技、金融资本、科研教育于一体的大型连锁企业。 在当今快速变化的商业环境中&#xff0c;企业对于人才管理的要求日益提高&#xff0c;传统的绩效考核方…

WPF 为button动态设置不同的模板

有时候需要动态的设置一些按钮的状态模板。使一个button显示不同的内容&#xff0c;比如Button未点击安装显示&#xff1a; 安装后显示&#xff1a; 可以通过设置button的content&#xff0c;通过content来设置不同的模板来实现功能&#xff0c;以下是代码&#xff1a; MainWi…

基于springboot+vue的在线宠物用品交易网站

一、系统架构 前端&#xff1a;vue | element-ui | html 后端&#xff1a;springboot | mybatis-plus 环境&#xff1a;jdk1.8 | mysql | maven | nodejs 二、代码及数据库 三、功能介绍 01. web端-首页1 02. web端-首页2 03. web端-注册 04. web端-登录 05. w…

服装生产管理:SpringBoot框架的高效策略

5 系统的实现 5.1 登录界面的实现 用户要想进入本系统必须进行登录操作&#xff0c;进入对应角色登录界面&#xff0c;在登录界面输入系统账号、登录密码&#xff0c;选择登录类型&#xff0c;点击登录按钮进行登录系统&#xff0c;管理员登录界面展示如图5-1所示&#xff0c…