【隐私计算篇】多视角解读隐私计算技术小结以及对火山方舟会话无痕技术在大模型应用的个人看法

1. 背景介绍

        在之前的文章中,我们对隐私计算技术中的隐私集合求交、隐私信息检索、联邦学习、安全多方计算、可信执行环境、差分隐私等技术做了一些原理和应用分享。本文主要是将之前的文章进行分类和编排,后续会按照分类体系,进一步丰富和补充更多的隐私计算技术分享。

        在整理分类体系之前,乱入一篇近两天看到的火山方舟(火山引擎)的软文【1】,说实话一开始抱着非常期待的心情看这篇文章,但越看越不对劲,感觉从数据保护的角度来看所谓的“会话无痕”技术并不严谨。一般来说,隐私计算中存在安全、性能、精度的不可能三角。如果短期内能够大幅度提升性能的话,在安全性层面可能就会有所退让。

        首先对于大模型的安全问题,大家都是有共识的。比如在模型精调环节,企业的核心知识都浓缩在训练数据中,如何确保这些数据、提示词以及模型响应的专属性?如何保证精调后的模型不被他人窃取使用?推理环节,因为用户在使用过程中会输入大量真实、敏感的数据来获取模型建议。平台如何保证不会滥用用户数据?数据传输、计算和存储的全流程中,如何不被黑客窃取?平台又如何向用户证明其确实履行了承诺的安全措施?

         文中特别提到,海外某头部大模型商的 AI 语言模型因开源库漏洞导致用户对话泄露,致使意大利政府史无前例地叫停服务。该产品长期记忆功能又出现严重漏洞,黑客可以随便访问用户聊天记录。荷兰一家数据公司的配置失误,导致多家企业(包括头部车企)的用户隐私数据遭泄露。

        因此,应对大模型数据保护的安全性问题,是后续商用的关键一环。

        火山方舟负责人提到因为隐私计算技术的性能问题影响了其在大模型中的应用可行性,并列举了一些指标。但这些指标从行业各家技术发展来看,并不准确。目前包括隐语、微众、华控、蓝象、富数在内的技术厂商,在同态加密、安全多方计算、大模型联邦学习、多密码学技术融合、明密文混合处理等方面都有很多创新探索尝试。性能远优于【1】中所提出的指标。另外,软文还提到TEE技术的不成熟。但从对会话无痕技术的描述,可以看到所采用的技术方案非常类似于TEE的模式,但又不能提供TEE所能提供的硬件隔离能力。

        “会话无痕”采用一种“安全沙箱”的方案,分配唯一的身份证书,当用户发送用户数据时,可用手中公钥将它们加密,只有到达正确的安全沙箱环境,才能被解密使用。乍看之下,是借鉴了TEE的部分逻辑。这里列举几个与TEE的相似点:

  • 安全沙箱
    TEE 本质上就是一个硬件隔离的“安全沙箱”,用来执行敏感代码和处理机密数据。它隔离了外界(包括操作系统和应用程序),确保即使主机系统被攻破,沙箱内的数据仍然安全。

  • 身份认证和唯一证书
    TEE 通常在硬件级别生成一个唯一的身份标识(例如硬件根密钥)。在实际应用中,基于这个身份生成唯一的设备证书,可以用于认证 TEE 和建立信任。

  • 数据加密和密钥隔离
    用户可以使用 TEE 公钥对数据加密,只有在 TEE 内部,经过验证的执行环境下,相关密钥才能解密并使用这些数据。这种设计确保了只有可信的代码能够访问数据。

  • 密钥管理与匹配
    TEE 内部的密钥(“锁”)是与硬件绑定的,只有正确的私钥(对应用户的“钥匙”)才能解密数据。这种机制类似“钥匙和锁匹配上”的描述。

        然后软文还提到链路全加密、数据高保密、环境强隔离、操作可审计等传统技术手段,但都没有说明白“安全沙箱”自身的安全性如何保证,在安全沙箱中数据是以明文态使用的,这就是最大的问题。安全沙箱很难自证清白,沙箱的持有者看起来能够截获明文信息。“会话无痕”难以做到隐语所强调的密码学可证安全,本质上看起来是俄罗斯套娃般的保护机制,采用一系列的身份认证、网络隔离、操作日志记录等软性的策略。希望后续能看到关于“安全沙箱”的安全性证明。

        在未获得更多关于“安全沙箱”安全性证明之前,仅从目前公开的软文评估,个人还是更看好隐语的密码学可证安全路线、Fate探索的横向联邦Fed-LLM以及基于TEE硬件安全的隐私计算路线,在安全性层面有充分的保护,当然性能是目前各方在持续推进解决的关键点。

2. 隐私计算文章小结

2.1 密码学

OT三部曲

《OT&OT扩展(不经意传输扩展)深入浅出》

《不经意传输协议(OT/OTE)的进一步补充(COT、ROT、依赖的困难假设等)》

《不经意传输OT及OT Extension(OT变体、恶意敌手模型、silent OT、OT扩展等)》

《多方安全计算之函数秘密共享(FSS)》

《Diffie-Hellman密钥交换以及离散对数问题、群论等概念》

《中国剩余定理解释以及Paillier解密加速应用》

2.2 隐私集合求交

《隐私集合求交(PSI)原理深入浅出》

2.3 隐私信息检索(匿踪查询)

《隐私计算匿踪查询技术深入浅出》

《一种批量匿踪查询友好算法PIRANA的原理分析》

《Simple PIR-单服务器开源最快匿踪查询算法解析》

2.4 PPML(联邦学习、多方联合建模

《替换半同态使用全同态加速计算联邦机器学习算法的实证分析以及性能对比》

《GPU加速计算联邦学习XGBOOST以及对NVIDIA FLARE的介绍》

《基于横纵向的混合联邦学习原理分析》

《SGB、SS-XGB算法原理及编程实战》

《逻辑回归LR与广义线性模型GLM开发实践》

《隐私保护机器学习算法概要》

《SML入门/基于SPU实现明文算法迁移密文模型的实践》

2.5 安全多方计算

《混淆电路深入浅出》

《MPC安全多方计算矩阵乘法算子的原理分析及模型推理应用介绍(涉及SPDZ、GMW、ABY、ABY2.0、ABY3、Cheetah、CipherGPT、VOLE、模型推理等)》

《理解密态引擎SPU框架》

2.6 隐私计算与大模型

《大模型的安全由隐私计算来保护(涉及联邦学习、可信执行环境、差分隐私、多方安全计算、同态加密、端云协同、GPU安全加速等技术)》

《全同态加密应用场景案例(隐私云计算中的大模型推理、生物识别等)》

《基于隐语的VisionTransformer框架》

2.7 隐私计算技术思考

《隐私计算使用不当也会泄露原始数据》

2.8 隐私计算应用探索

《隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)》

《利用多方安全计算MPC实现VGG16人脸识别隐私推理》

3. 参考材料

【1】火山方舟公开会话无痕技术细节

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/19781.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

51c大模型~合集60

我自己的原文哦~ https://blog.51cto.com/whaosoft/12102352 #百舸 当大模型Scaling Law继续,万卡集群算力释放在「百舸」这里找到一条通途 在电影《天下无贼》中,葛优扮演的黎叔有这样一句经典的台词,「二十一世纪什么最贵?人…

Auto-Py-to-Exe:一键生成可执行的EXE文件,助力 Python 项目在Windows上快速部署

Python以其简洁易懂的语法和丰富的库而闻名,但对于想要将Python项目分享给他人或进行独立部署的开发者来说,将代码打包成可执行文件往往是必不可少的一步。而Auto-Py-to-Exe就是一个功能强大的工具,它能帮助你轻松将Python脚本转换成独立的可…

如何巧妙使用AI工具

一、AI的介绍 AI:即人工智能,是计算机科学体系下的一个学科,是指通过计算机系统模拟人类智力的一种技术。 AIGC:AI领域的一个应用分支,专注于利用AI技术自动生成内容,包括文本,代码&#xff0…

C/C++ 优化,strlen 示例

目录 C/C optimization, the strlen examplehttps://hallowed-blinker-3ca.notion.site/C-C-optimization-the-strlen-example-108719425da080338d94c79add2bb372 揭开优化的神秘面纱... 让我们来谈谈 CPU 等等,SIMD 是什么? 为什么 strlen 是一个很…

性能测试

浅谈性能瓶颈之Mysql慢查询 1.开启测试环境的mysql数据库慢查询日志,然后在日志文件里自动记录这些慢查询,以及not using index的查询。数据库执行下面几个命令: set global slow_query_logon /*开启慢查询日志*/set log_queries_not_using_…

【AI+教育】一些记录@2024.11.11

《清华发布工具学习框架,让ChatGPT操控地图、股票查询,贾维斯已来?》 清华发布工具学习框架,让ChatGPT操控地图、股票查询,贾维斯已来?工具学习,清华天团让 ChatGPT 拿起专业工具https://mp.we…

图数据库 | 7、图数据库三大组件之一 之 图存储(下)

在图数据库中有三大组件——图计算、图存储以及图查询语言。上一个篇文章,老夫聊到了图存储,重点讲的是它的基础概念以及图存储引擎的架构设计中的一对重要概念——非原生图与原生图,接下来我们就聊聊关于图存储数据结构与构图的那些事儿吧。…

生产环境部署Nginx服务器双机热备部署-keepalived(多种模式教程)

前言:今天演示下生产环境keepalived的部署方式,安装模式有很多,比如说主备模型和双主模型,主备分:抢占模式 和 非抢占模式。这里我会一一展开说具体怎么配置 一、双节点均部署Nginx: 第一步:上…

陶哲轩:计算机通用方法,往往比深奥的纯数学更能解决问题

刚刚,著名数学家陶哲轩在个人社交平台更新的几篇帖子,引起大家广泛的共鸣。 陶哲轩用浅显易懂的语言表达了自己对数学的理解与思考心得。 文中谈到了一个关于「度」的问题,陶哲轩表示在设计系统时,缺乏或者过度的数学分析可能都…

NewStarCTF2024-Week3-Web-WP

目录 1、Include Me 2、blindsql1 3、臭皮踩踩背 4、臭皮的计算机 5、这“照片”是你吗 1、Include Me 使用 data 协议,结合 base64 编码绕过 payload: ?iknow1&medata://text/plain;base64,PD89c3lzdGVtKCJ0YWMgL2ZsYWciKTs 拿到 flag&#…

java版询价采购系统 招投标询价竞标投标系统 招投标公告系统源码

在信息化飞速发展的今天,电子招投标采购系统已成为企业运营中的重要一环。这一系统不仅优化了传统的招投标流程,还为企业带来了诸多显著的价值。 首先,电子招投标采购系统极大地提高了工作效率。传统招投标过程中,企业需要耗费大…

小林Coding—Java「二、Java基础篇」

󠀲󠀲二 Java基础面试篇 数据类型 引用类型 类:Class接口:Interface数组:Array枚举:Enum自动装箱:int -> Integer 自动拆箱:Integer -> int // 下面代码会先自动拆箱将sum转为…

GBDT 算法

GBDT 梯度决策提升树是将一些弱分类决策树的结果加在一起,每一棵决策树对前一颗觉得树残差进行优化,从而使得总体的损失值达到最小。 GBDT 公式 Fm-1: 上一棵树的结果 α \alpha α: 学习率 hm(x): 当前树,通过训练调整结果,降低…

java~Lambda表达式

目录 Lambda和匿名内部类 语法 函数式接口 无返回值(无参、有参) 有返回值(无参、有参) 语法精简 四个基本的函数式接口 方法引用 实例方法引用 静态方法引用 特殊方法引用 构造方法引用 数组引用 集合 List、Set …

PyQt5信号与槽二

窗口数据传递 在开发程序时,如果这个程序只有一个窗口,则应该关心这个窗口里面的各个控件之间是如何传递数据的;如果这个程序有多个窗口,那么还应该关心不同的窗口之间是如何传递数据的。对于多窗口的情况,一般有两种…

【java】多态

一、概念 多态是同一个行为具有多个不同表现形式或形态的能力。 多态就是同一个接口,使用不同的实例而执行不同操作。 同一个事件发生在不同的对象上会产生不同的结果。 比如: public class Test {public static void main(String[] args) {Person xn…

使用Holoviews创建复杂的可视化布局

目录 一、Holoviews简介 二、安装Holoviews 三、Holoviews的基本概念 元素(Elements): 容器(Containers): 映射(Mappings): 四、基本用法 创建元素: …

Java2.1——异常

异常基本概念 一:程序出错 分类 : 编辑错误,逻辑错误,运行时错误 目的: 异常处理让程序出错了还运行,避免中止运行 二: 运行时错误 当出现编译时无法预料的问题,将运行错误报告…

2025年假期python,工作日python脚本求出 输出日期内容

# coding:utf-8 import datetime# 假设已知的节假日和调休安排 holidays [datetime.date(2025, 1, 1), # 元旦datetime.date(2025, 1, 28), # 春节datetime.date(2025, 1, 29), # 春节datetime.date(2025, 1, 30), # 春节datetime.date(2025, 1, 31), # 春节datetime.dat…

1TB! 台湾最新倾斜摄影3DTiles数据分享

之前的文章分享了546GB香港倾斜摄影3DTiles数据,主要是验证倾斜模型3DTiles转换工具的生产效率和数据显示效率,结果对比可以看出无论是数据生产速度以及成果数据显示效率上,都优于其他两种技术路线。最近使用倾斜模型3DTiles工具生产了台湾地…