文本嵌入的隐私风险:从嵌入向量重建原始文本的探索

随着大型语言模型(LLMs)的广泛应用,文本嵌入技术在语义相似性编码、搜索、聚类和分类等方面发挥着重要作用。然而,文本嵌入所蕴含的隐私风险尚未得到充分探讨。研究提出了一种控制生成的方法,通过迭代修正和重新嵌入文本,以生成与固定嵌入点接近的文本。研究发现,尽管基于嵌入的朴素模型表现不佳,但多步骤方法能够精确恢复92%的32个标记文本输入。此外,模型还能够从临床笔记数据集中恢复重要的个人信息(如全名)。

在利用大型语言模型的系统中,文本数据的嵌入向量通常存储在向量数据库中。尽管向量数据库越来越受欢迎,但它们内部的隐私威胁尚未得到全面探索。本文旨在探讨第三方服务是否能够根据给定的嵌入向量重现初始文本,从而对隐私构成威胁。

方法:Vec2Text

Vec2Text方法是一种用于从文本嵌入向量重构原始文本的迭代修正过程。这种方法的核心在于控制生成,即生成满足特定条件(在本例中为与目标嵌入向量接近)的文本。以下是Vec2Text方法的详细说明:

1. 控制生成的启发式方法

Vec2Text方法基于控制生成的原理,它生成文本以满足一个已知的条件,即生成的文本在重新嵌入后,其嵌入向量应尽可能接近一个给定的目标嵌入点。

2. 迭代修正过程

这个过程从一个初始假设开始,并逐步通过迭代修正来改进这个假设。每一步都包括以下操作:

  • 使用当前的文本假设重新生成嵌入向量(ˆe(t) = ϕ(x(t)))。
  • 计算当前嵌入向量与目标嵌入向量之间的差异。
  • 根据这个差异来修正文本假设,生成一个新的更接近目标嵌入的文本假设。

3. 编码器-解码器变换器(Transformer)

Vec2Text使用标准的编码器-解码器架构的Transformer模型来生成和修正文本。Transformer模型因其在自然语言处理任务中的高效性能而广泛使用。

4. 多层感知机(MLP)

由于Transformer模型需要序列形式的输入,而嵌入向量是固定长度的向量,因此Vec2Text使用MLP来将嵌入向量投影到适合Transformer编码器的序列长度。具体步骤如下:

  • 使用MLP将目标嵌入向量e、当前假设嵌入向量ˆe(t)以及两者的差异e - ˆe(t)投影到更大的维度空间。
  • 将这些投影后的向量与假设文本的词嵌入向量连接起来,形成Transformer编码器的输入。

5. 模型参数化

Vec2Text模型的参数化包括:

  • 一个基础的文本逆向模型,用于生成初始假设p(x(0) | e)
  • 一个条件语言模型,用于从给定嵌入重构未知文本x

6. 训练过程

模型训练涉及以下步骤:

  • 从基础模型生成初始假设x(0)
  • 计算初始假设的嵌入ˆe(0)
  • 在生成的数据上训练模型,以改进文本假设。

7. 推理过程

在实际应用中,由于无法对所有中间假设进行求和,Vec2Text使用束搜索(beam search)来近似这个过程。在每一步修正中,考虑一定数量的可能修正,并解码这些修正的顶部可能延续,然后通过测量它们与目标嵌入在嵌入空间中的距离来选择顶部的独特延续。

Vec2Text方法通过这种方式能够有效地从文本嵌入向量中恢复原始文本,展示了文本嵌入技术在隐私保护方面的潜在风险。

实验设置

Vec2Text在两个最先进的嵌入模型上进行训练:GTR-base和OpenAI的text-embeddings-ada-002。还评估了在BEIR基准的多种常见检索语料库上生成的嵌入,以及MIMIC-III临床笔记数据库。

训练模型

Vec2Text方法在两个高绩效的文本嵌入模型上进行了训练:

  1. GTR-base: 这是一个基于T5的预训练变换器模型,专门为文本检索任务设计。GTR-base模型在MTEB(Massive Text Embedding Benchmark)文本嵌入基准测试中表现出色。

  2. text-embeddings-ada-002: 这是通过OpenAI API提供的模型,也是一个高性能的文本嵌入模型。

训练数据集
  • Wikipedia文章: Vec2Text的GTR模型训练使用了从Natural Questions语料库中选取的500万个Wikipedia文章段落,每个段落被截断至32个标记(tokens)。

  • MSMARCO语料库: Vec2Text的OpenAI模型训练使用了MSMARCO语料库的两个版本,每个版本的最大标记数分别为32和128。

评估数据集
  • BEIR基准: 为了评估模型在不同检索语料库上的表现,研究者使用了BEIR(Benchmark for Explainable Information Retrieval)基准的15个不同数据集。这些数据集覆盖了多种领域和类型的文本。

  • MIMIC-III临床笔记数据库: 此外,研究者还评估了Vec2Text在MIMIC-III(Medical Information Mart for Intensive Care)数据库中的临床笔记嵌入上的表现。这个数据库包含了大量的临床医疗记录,用于评估模型恢复敏感个人信息的能力。

实验细节
  • 模型参数: Vec2Text模型使用了约2.35亿参数,其中包括编码器-解码器架构和投影头(projection head)。

  • 超参数: 在实验中,研究者设置了投影序列长度s为16,这是基于初步实验结果确定的,因为增加此数值的收益递减。

  • 优化器和学习率: 使用了Adam优化器,学习率为2×10^-4,并采用了预热和线性衰减策略。

  • 训练周期: 模型训练了100个周期。

  • 硬件: 所有模型都在4个NVIDIA A6000 GPU上进行训练。

这些实验设置展示了Vec2Text方法在不同文本嵌入模型和数据集上的训练和评估过程,以及它在恢复原始文本方面的潜力。通过这些实验,研究者能够评估文本嵌入的隐私风险,并提出了相应的保护措施。

结果

域内数据集上的表现

Vec2Text在域内数据集上的表现超过了所有基线模型。这些基线模型包括简单的词袋模型和GPT-2解码器,它们没有使用迭代修正步骤来恢复文本。Vec2Text使用以下指标进行评估:

  • BLEU分数: 用于衡量重构文本和原始文本之间的n-gram相似度。
  • Token F1: 多类F1分数,衡量预测的标记集合和真实标记集合之间的关系。
  • 精确匹配: 重构输出完全匹配原始文本的百分比。
  • 余弦相似度: 原始嵌入向量和重构文本嵌入向量之间的相似度。

Vec2Text在这些指标上都显示出了优越的性能,特别是在使用GTR-base模型时,经过50步迭代修正后,对于32个标记的输入,BLEU分数达到了97.3,并且能够精确恢复92%的示例。

BEIR基准上的表现

Vec2Text在BEIR基准的15个数据集上进行了评估,这些数据集覆盖了不同的领域和文本类型。模型展示了对不同长度输入的适应性,并且在所有数据集上都取得了以下最低恢复性能:

  • Token F1分数: 至少41%,表明模型能够准确预测大部分的标记。
  • 余弦相似度: 至少0.95,表明重构的嵌入向量与真实嵌入向量在向量空间中非常接近。

这些结果表明,即使在未见过的文本数据上,Vec2Text也能够有效地恢复文本内容,从而证实了文本嵌入可能带来的隐私风险。

MIMIC-III临床笔记

在MIMIC-III临床笔记数据库上,Vec2Text能够恢复大部分的个人信息,包括:

  • 94%的名(first names)
  • 95%的姓(last names)
  • 89%的全名(full names)

这些结果进一步强调了在处理敏感数据时,需要特别注意保护文本嵌入的隐私。

论文链接:http://arxiv.org/pdf/2310.06816

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1410919.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式硬件中PCB走线与过孔的电流承载能力分析

简介 使用FR4敷铜板PCBA上各个器件之间的电气连接是通过其各层敷着的铜箔走线和过孔来实现的。 由于不同产品、不同模块电流大小不同,为实现各个功能,设计人员需要知道所设计的走线和过孔能否承载相应的电流,以实现产品的功能,防止过流时产品烧毁。 文中介绍设计和测试FR4敷…

【探索】文字游侠AI新时代,每天5分钟自动化创作图文月入1万+,十分适合新手小白,附上渠道和教程(全面)

在这个信息爆炸的时代,内容创作者面临着空前的竞争。为了在今日头条这样的平台上脱颖而出并获取稳定收入,他们需要找到更高效、更创新的方法。而今,一款全新的AI工具正引领着一场革命,彻底改变了内容创作的生态。 自从GPT问世以来…

Quad SPI的DLP优化原理

1 前言 1.1 Quad SPI Flash QSPI的I/O接口如图1所示,其中: ① CS:片选信号,低电平有效(FLASH被选中); ② CK:时钟信号,由主设备产生; ③ SI/SO: …

开源的 RAG 和 workflow 技术对比调研

一、先来了解一下开源的技术有哪些,怎么样 我自己就是做RAG工作的,但是还是想关注一下开源的技术做到了什么程度。 所以调研了很长时间,也体验了一下。这里写一篇文章来分享一下结果。 我用五一的假期时间,来做调研,看…

扩展学习|本体研究进展

文献来源: 王向前,张宝隆,李慧宗.本体研究综述[J].情报杂志,2016,35(06):163-170. 一、本体的定义 本体概念被引入人工智能、知识工程等领域后被赋予了新的含义。然而不同的专家学者对本体的理解不同,所给出的定义也有所差异。 人工智能领域的学者Neches(1991)等人对…

常用AI工具分享 + IDEA内使用通义灵码

引言 随着人工智能技术的飞速发展,AI工具已经渗透到我们日常生活和工作的各个领域,带来了前所未有的便利。现在我将分享一下常用的AI工具,以及介绍如何在IDEA中使用通义灵码。 常用AI工具 1. 通义灵码 (TONGYI Lingma) - 由阿里云开发的智能…

时间复杂度空间复杂度 力扣:转轮数组,消失的数字

1. 算法效率 如何衡量一个算法的好坏?一般是从时间和空间的维度来讨论复杂度,但是现在由于计算机行业发展迅速,所以现在并不怎么在乎空间复杂度了下面例子中,斐波那契看上去很简洁,但是复杂度未必如此 long long Fib…

Java -- (part20)

一.Map集合 1.概述 双列集合的顶级接口 2.实现类 HashMap 特点: a.key唯一,value可重复->如果key重复了,会发生value覆盖 b.无序 c.无索引 d.线程不安全 e.可以存null键null值 数据结构: 哈希表 方法: LinkedHashMap 特点: a.key唯一,value可重复->如果ke…

PHP医院安全(不良)事件报告系统源码 vue2+element支持11大类不良事件上报、审核处理、分析改进

PHP医院安全(不良)事件报告系统源码 vue2element支持11大类不良事件上报、审核处理、分析改进 医院安全(不良)事件管理系统采用无责的、自愿的填报不良事件方式,有效地减轻医护人员的思想压力,实现以事件为…

深度学习500问——Chapter08:目标检测(6)

文章目录 8.3.7 RetinaNet 8.3.7 RetinaNet 研究背景 Two-Stage 检测器(如Faster R-CNN、FPN)效果好,但速度相对慢。One-Stage 检测器(如YOLO、SSD)速度快,但效果一般。 作者对one-stage检测器准确率不高…

QT:label标签的使用

文章目录 设置不同格式的文本显示图片文本对齐/自动换行/缩进/边距 设置不同格式的文本 在文本格式中,存在富文本,makedown格式的文本,还有纯文本,下面就依据这三个进行举例 #include "widget.h" #include "ui_w…

缩小COCO数据集

在运行YOLOS模型的过程中,需要使用到COCO2017这个数据集,但从实验运行来看,其所需时间无疑是相当漫长,预计可能需要近几十天才能完成,因此便考虑缩小COCO数据集大小,即尽可能在遵循其分布的情况下&#xff…

导游讲解口才技巧心得体会总结(3篇)

导游讲解口才技巧心得体会总结(3篇) **篇:提升表达力,传递独特魅力 在导游工作中,口才技巧的重要性不言而喻。通过不断的实践和反思,我深刻体会到提升表达力对于导游工作的重要性。一个清晰、生动、有趣的…

【c++】继承学习(一):继承机制与基类派生类转换

🔥个人主页:Quitecoder 🔥专栏:c笔记仓 朋友们大家好,本篇文章我们来学习继承部分 目录 1.继承的概念和定义继承的定义继承基类成员的访问方式变化 2.基类和派生类对象赋值转换3.继承中的作用域 1.继承的概念和定义 …

OSPF实验系列---3.综合实验

OSPF的综合实验 实验拓扑及要求如下 实验分析 1.R4为ISP,进行IP配置,区域0为公网区域,配置IP地址 2.做MGRE,R3为中心站点,形成Hub-Spoke 3.子网划分 4.私网互通,NAT转换 5.做特殊区域,修改hel…

【C++】STL简介

🔥个人主页: Forcible Bug Maker 🔥专栏: C 目录 前言什么是STL?STL的历史STL的版本STL六大组件STL的优缺点STL的优点:STL的缺点: 如何学习STL结语 前言 本篇博客主要内容:STL简介。…

01.本地工作目录、暂存区、本地仓库三者的工作关系

1.持续集成 1.持续集成CI 让产品可以快速迭代,同时还能保持高质量。 简化工作 2.持续交付 交付 3.持续部署 部署 4.持续集成实现的思路 gitjenkins 5.版本控制系统 1.版本控制系统概述2.Git基本概述3.Git基本命令 2.本地工作目录、暂存区、本地仓库三者的工作关系…

AD如何从外部导入外框或修改外框大小

一、从外部导入外框 1、从cad中导出dxf文件,从AD中导入导出的文件 2、可参考如下参数设置 3、导入确认后,选择外边框线(选择一条边的线然后按Tab键可快速选择) 4、到设计-板子形状中选择“按照选择对象定义” 5、板子外形已经出来…

数字电路-5路呼叫显示电路和8路抢答器电路

本内容涉及两个电路,分别为5路呼叫显示电路和8路抢答器电路,包含Multisim仿真原文件,为掌握FPGA做个铺垫。紫色文字是超链接,点击自动跳转至相关博文。持续更新,原创不易! 目录: 一、5路呼叫显…

前端工程化05-初始前端工程化Node基本介绍安装配置基础知识

6、初始前端工程化 6.1、工程化概述 虽然前几篇我的目录标题写的前端工程化,但是那些东西并不属于前端工程化的内容,更倾向于是js、jq当中的东西,下面我们将接触真正的前端工程化。 前端工程化开发其实现在是离不开一个东西的,…