深入浅出:模拟实现 C++ STL 中的 unordered_map 和 unordered_set

目录

  1. 引言
  2. 基础知识
    • 散列表
    • 哈希函数
    • 负载因子
  3. 模拟实现 unordered_set
    • 数据结构设计
    • 哈希函数
    • 碰撞解决策略
    • 插入操作
    • 查找操作
    • 删除操作
  4. 模拟实现 unordered_map
    • 键值对存储
    • 插入操作
    • 查找操作
    • 删除操作
  5. 代码示例
  6. 总结

1. 引言

unordered_mapunordered_set 是 C++ 标准模板库 (STL) 中非常强大的容器类型,它们基于散列表实现,提供了平均情况下 O(1) 的查找、插入和删除性能。本文将带你深入了解这两个容器的内部工作原理,并通过具体的 C++ 代码实现来模拟 unordered_map unordered_set

2. 基础知识

2.1 散列表

散列表是一种通过哈希函数将键映射到数组索引的数据结构。它利用哈希函数将键转换为索引,然后通过该索引直接访问数组中的位置。这种方法通常能提供非常快的查找速度。

2.2 哈希函数

哈希函数是将任意长度的输入映射到固定长度输出的过程。一个好的哈希函数应该尽量减少键之间的冲突,并均匀地分布到整个数组范围内。

2.3 负载因子

负载因子是指散列表中元素的数量与桶的数量之比。当负载因子过高时,散列表的性能会下降,因为更多的键会映射到同一个桶上,导致碰撞增多。

3. 模拟实现 unordered_set

3.1 数据结构设计

对于 unordered_set,我们使用一个动态数组来存储链表,每个链表代表一个桶。当发生碰撞时,使用链地址法来解决。

template<typename T>
class UnorderedSet {
public:// 构造函数UnorderedSet(size_t initialCapacity = 16, float loadFactor = 0.75f) : capacity(initialCapacity), size(0), loadFactorThreshold(loadFactor * initialCapacity) {table.resize(capacity);}// 插入操作bool insert(const T& value);// 查找操作bool find(const T& value) const;// 删除操作bool erase(const T& value);private:// 重新哈希void rehash();// 计算哈希值size_t hash(const T& value) const;// 动态数组std::vector<std::list<T>> table;// 当前容量size_t capacity;// 当前元素数量size_t size;// 负载因子阈值size_t loadFactorThreshold;
};template<typename T>
size_t UnorderedSet<T>::hash(const T& value) const {// 简单的哈希函数实现static std::hash<T> hasher;return hasher(value) % capacity;
}
3.2 哈希函数

使用 C++ 标准库提供的 std::hash 类型来实现哈希函数。

3.3 碰撞解决策略

使用链地址法来解决碰撞问题。当多个键映射到同一个桶时,这些键会被存储在同一个链表中。

3.4 插入操作

插入操作首先计算哈希值,然后检查是否需要重新哈希,最后将元素插入到相应的链表中。

template<typename T>
bool UnorderedSet<T>::insert(const T& value) {if (size >= loadFactorThreshold) {rehash();}size_t index = hash(value);auto& bucket = table[index];// 检查元素是否已存在if (std::find(bucket.begin(), bucket.end(), value) != bucket.end()) {return false;}bucket.push_back(value);++size;return true;
}
3.5 查找操作

查找操作也使用哈希值定位桶,然后在对应的链表中查找元素。

template<typename T>
bool UnorderedSet<T>::find(const T& value) const {size_t index = hash(value);const auto& bucket = table[index];return std::find(bucket.begin(), bucket.end(), value) != bucket.end();
}
3.6 删除操作

删除操作同样使用哈希值定位桶,然后在对应的链表中删除元素。

template<typename T>
bool UnorderedSet<T>::erase(const T& value) {size_t index = hash(value);auto& bucket = table[index];auto it = std::find(bucket.begin(), bucket.end(), value);if (it == bucket.end()) {return false;}bucket.erase(it);--size;return true;
}

4. 模拟实现 unordered_map

4.1 键值对存储

unordered_mapunordered_set 类似,但存储的是键值对。

template<typename K, typename V>
class UnorderedMap {
public:// 构造函数UnorderedMap(size_t initialCapacity = 16, float loadFactor = 0.75f) : capacity(initialCapacity), size(0), loadFactorThreshold(loadFactor * initialCapacity) {table.resize(capacity);}// 插入操作std::pair<typename std::list<std::pair<K, V>>::iterator, bool> insert(const std::pair<K, V>& value);// 查找操作typename std::list<std::pair<K, V>>::iterator find(const K& key);// 删除操作bool erase(const K& key);private:// 重新哈希void rehash();// 计算哈希值size_t hash(const K& key) const;// 动态数组std::vector<std::list<std::pair<K, V>>> table;// 当前容量size_t capacity;// 当前元素数量size_t size;// 负载因子阈值size_t loadFactorThreshold;
};template<typename K, typename V>
size_t UnorderedMap<K, V>::hash(const K& key) const {static std::hash<K> hasher;return hasher(key) % capacity;
}
4.2 插入操作

插入操作与 unordered_set 类似,只是插入的是键值对。

template<typename K, typename V>
std::pair<typename std::list<std::pair<K, V>>::iterator, bool> UnorderedMap<K, V>::insert(const std::pair<K, V>& value) {if (size >= loadFactorThreshold) {rehash();}size_t index = hash(value.first);auto& bucket = table[index];auto it = std::find_if(bucket.begin(), bucket.end(),[&value](const std::pair<K, V>& pair) { return pair.first == value.first; });if (it != bucket.end()) {return {it, false};}bucket.push_back(value);++size;return {std::prev(bucket.end()), true};
}
4.3 查找操作

查找操作与 unordered_set 类似,只是返回的是键值对的迭代器。

template<typename K, typename V>
typename std::list<std::pair<K, V>>::iterator UnorderedMap<K, V>::find(const K& key) {size_t index = hash(key);auto& bucket = table[index];return std::find_if(bucket.begin(), bucket.end(),[&key](const std::pair<K, V>& pair) { return pair.first == key; });
}
4.4 删除操作

删除操作与 unordered_set 类似,只是删除的是键值对。

template<typename K, typename V>
bool UnorderedMap<K, V>::erase(const K& key) {size_t index = hash(key);auto& bucket = table[index];auto it = std::find_if(bucket.begin(), bucket.end(),[&key](const std::pair<K, V>& pair) { return pair.first == key; });if (it == bucket.end()) {return false;}bucket.erase(it);--size;return true;
}

5. 代码示例

下面是一个简单的测试示例,展示如何使用模拟实现的 UnorderedSetUnorderedMap

#include <iostream>
#include "unordered_set.h"
#include "unordered_map.h"int main() {UnorderedSet<int> uset;uset.insert(10);uset.insert(20);uset.insert(30);std::cout << "Contains 20: " << uset.find(20) << std::endl;UnorderedMap<int, std::string> umap;umap.insert({10, "ten"});umap.insert({20, "twenty"});umap.insert({30, "thirty"});auto it = umap.find(20);if (it != umap.end()) {std::cout << "Value for 20: " << it->second << std::endl;}return 0;
}

6. 总结

本文通过模拟实现的方式,深入探讨了 C++ STL 中 unordered_setunordered_map 的内部工作原理。通过理解散列表的工作机制,我们可以更好地利用这些容器提供的高效性能,并在需要时定制自己的哈希函数或碰撞解决策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1522237.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode: 543. 二叉树的直径

二叉树的直径 原题 给你一棵二叉树的根节点&#xff0c;返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 示例 1&#xff1a; 输入&#xff1a;roo…

Vulnhub:hacksudo search

靶机下载地址。下载完成后&#xff0c;在VirtualBox中导入虚拟机&#xff0c;系统处理器修改为2&#xff0c;网卡配置修改为桥接。 信息收集 主机发现 扫描攻击机同网段存活主机。 nmap 192.168.31.0/24 -Pn -T4 靶机ip&#xff1a;192.168.31.218 端口扫描 nmap 192.168…

大数据采集迁移工具

Flume Sqoop kafka框架 MQ&#xff1a;消息队列 broker相当于服务器 消息队列

视频化时代,用好AIGC产品赋能企业培训打造增效降本“最佳实践”

根据IBM的数据&#xff0c;85%的中国企业正在加速投资AI领域&#xff0c;其中超过63%的企业已积极采用生成式AI。德勤的调研进一步显示&#xff0c;近80%的全球受访企业高管认为&#xff0c;生成式AI的兴起与发展将在3年内推动组织和行业发生实质性变革&#xff0c;这也就意味着…

2024爆火全网大模型书籍:《从零构建大型语言模型》星标17.8k

2024爆火全网大模型书籍&#xff1a;《从零构建大型语言模型》星标17.8k 近期&#xff0c;机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》&#xff0c;旨在讲解从头开始构建大型…

线性代数 -- 矩阵求导

Tips&#xff1a;本文为理解神经网络的前置知识&#xff0c;整体内容并不全&#xff0c;相关内容还需后续进一步完善。 一、基础 1、标量、向量和矩阵 标量&#xff1a;只有大小&#xff0c;没有方向的量 向量&#xff08;欧几里得向量&#xff09;&#xff1a;具有大小和方向…

数仓建模:一文带你读懂什么是数仓建模? | 详聊数据建模的几种形式

目录 1 数据仓库的特点和意义 1.1 数仓特点 1.2 数仓形态演进 1.3 数仓建模的意义 1.4 数仓价值 2 数仓建模流派之争 2.1 Inmon数仓架构 2.2 Kimball数仓架构 2.3 两种建模方式对比分析 3 数仓建模流程 3.1 整体流程 3.2 数仓建模三步调研 3.3 业务流程构建 3.4 领…

MySQL的服务器与客户端:架构解析与实践

文章目录 MySQL的服务器和客户端服务端处理客户端请求连接管理解析与优化查询缓存语法解析查询优化 存储引擎不同的存储引擎查看支持的存储引擎为不同的表设置存储引擎 MySQL是一个广泛使用的开源关系数据库管理系统&#xff0c;其核心架构由服务器端和客户端两大部分组成。本文…

Tableau 社区项目 | 参与 Data+TV 挑战,洞悉全球电视剧集数据的精彩故事!

如果你钟爱某部电视剧集&#xff0c;正苦于没有数据练手&#xff0c;就快来参与 DataTV 挑战吧~ 去年&#xff0c;Tableau 和 IMDb 携手发起 DataMovies 挑战&#xff0c;吸引了全球各地的数据爱好者与影迷参与。今年&#xff0c;TC24 Viz 竞赛也以此为主题&#xff0c;让我们领…

LLM大模型学习路径指南速成,两月学完

大家好&#xff01;整理了一些我的大模型学习路线和参考资料&#xff0c;供初学者入门了解和实践 以下是简化版的学习路线&#xff1a; 第1周&#xff1a;基础知识储备 了解人工智能和大模型的基本概念。 学习线性代数、概率论和统计学的基本知识。 掌握Python编程基础。 第2…

获取响应头Content-Disposition,提取文件名

// 响应头数据&#xff0c;这里使用假数据 const temp "attachement;filename%%%%%%......."// 处理文件名的正则校验let filenameRegex /filename[^;\n]*((["]).*?\2|[^;\n]*)/;let matches filenameRegex.exec(temp);let fileName "批量下载.pdf&qu…

【论文分享】sNPU: Trusted Execution Environments on Integrated NPUs 24‘ISCA

目录 AbstractINTRODUCTIONBACKGROUND AND RELATED WORKTrusted Execution Environment (TEE)Neural Processing Unit (NPU)Integrated NPU v.s. Discrete NPU Multi-tasking Requirements for NPUsLow NPU utilization for a single ML workloadSimultaneous execution of bot…

两行代码开启大模型评测之旅!OpenCompass 工具版本全面更新,快来试试看

作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来重大更新&#xff01;​ 本次更新主要集中在 OpenCompass 大语言模型评测工具&#xff0c;主要带来了以下几大新功能&#xff0c;欢迎大家使用&#xff01;​ 基于 pip 的一键安装&a…

分类预测|基于CNN-LSTM-Attention卷积-长短时记忆-注意力数据分类Matlab程序 直接运行程序或替换数据集运行程序

分类预测|基于CNN-LSTM-Attention卷积-长短时记忆-注意力数据分类Matlab程序 直接运行程序或替换数据集运行程序 文章目录 一、基本原理1. 卷积神经网络&#xff08;CNN&#xff09;CNN的基本步骤&#xff1a; 2. 长短期记忆网络&#xff08;LSTM&#xff09;LSTM的基本步骤&am…

屏幕像素初步认识

屏幕分辨率&#xff1a; 屏幕分辨率是指显示器所能显示的像素的总数&#xff0c;通常以水平像素数乘以垂直像素数来表示&#xff0c;例如1920x1080。这个数字越大&#xff0c;屏幕显示的图像就越清晰&#xff0c;细节展现得也更加丰富。 像素&#xff08;Pixel&#xff09;&am…

【Linux】使用Linux实现小程序 - 进度条

目录 一、缓冲区二、回车换行的概念三、进度条的设计3.1 版本1&#xff08;没有配合场景&#xff09;3.2 版本2&#xff08;配合场景&#xff09;3.3 版本3&#xff08;美化进度条&#xff09; 结尾 一、缓冲区 C/C语言&#xff0c;会针对标准输出&#xff0c;给我们提供默认的…

【转变之旅】从程序员到AI绘画艺术家,我的月入过万之路

曾经&#xff0c;我的生活平淡如水&#xff0c;作为一名程序员&#xff0c;每天重复着朝九晚五的工作。然而&#xff0c;一场突如其来的裁员&#xff0c;让我陷入了失业的深渊。为了生活&#xff0c;我选择了开滴滴谋生。没想到&#xff0c;这个看似权宜之计的决定&#xff0c;…

智慧医院必备信息化系统之——LIS系统源码

检验医学是一门临床学科&#xff0c;它运用不断发展的自然科学和医学科学技术对患者血液、尿液和各种体液标本进行检验&#xff0c;并以发展检验技术、提高检验质量为重点&#xff0c;达到对患者疾病的诊断、病情观察和预后判断等目的。为了将医院的整个检验管理完全数字化、信…

机器学习面试:LR和线性回归的区别是什么?

在机器学习和统计学中&#xff0c;逻辑回归&#xff08;Logistic Regression&#xff0c;简称LR&#xff09;和线性回归&#xff08;Linear Regression&#xff09;是两种常用的回归分析方法&#xff0c;它们在目的、输出、应用场景等方面有显著的区别。以下是它们的主要区别&a…

Vue3 数据通信

一、基本概念 数据在 vue 中是单向流动的&#xff0c;有利于管理数据状态和变化。 而在日常组件开发中&#xff0c;难以避免组件之间的数据通信。组件通信可以分为不同的场景&#xff0c;例如父子组件通信、兄弟组件通信、跨层级组件通信等。 Vue3 提供了多种方式进行组件间的…