1. 背景介绍
在之前的文章中,我们对隐私计算技术中的隐私集合求交、隐私信息检索、联邦学习、安全多方计算、可信执行环境、差分隐私等技术做了一些原理和应用分享。本文主要是将之前的文章进行分类和编排,后续会按照分类体系,进一步丰富和补充更多的隐私计算技术分享。
在整理分类体系之前,乱入一篇近两天看到的火山方舟(火山引擎)的软文【1】,说实话一开始抱着非常期待的心情看这篇文章,但越看越不对劲,感觉从数据保护的角度来看所谓的“会话无痕”技术并不严谨。一般来说,隐私计算中存在安全、性能、精度的不可能三角。如果短期内能够大幅度提升性能的话,在安全性层面可能就会有所退让。
首先对于大模型的安全问题,大家都是有共识的。比如在模型精调环节,企业的核心知识都浓缩在训练数据中,如何确保这些数据、提示词以及模型响应的专属性?如何保证精调后的模型不被他人窃取使用?推理环节,因为用户在使用过程中会输入大量真实、敏感的数据来获取模型建议。平台如何保证不会滥用用户数据?数据传输、计算和存储的全流程中,如何不被黑客窃取?平台又如何向用户证明其确实履行了承诺的安全措施?
文中特别提到,海外某头部大模型商的 AI 语言模型因开源库漏洞导致用户对话泄露,致使意大利政府史无前例地叫停服务。该产品长期记忆功能又出现严重漏洞,黑客可以随便访问用户聊天记录。荷兰一家数据公司的配置失误,导致多家企业(包括头部车企)的用户隐私数据遭泄露。
因此,应对大模型数据保护的安全性问题,是后续商用的关键一环。
火山方舟负责人提到因为隐私计算技术的性能问题影响了其在大模型中的应用可行性,并列举了一些指标。但这些指标从行业各家技术发展来看,并不准确。目前包括隐语、微众、华控、蓝象、富数在内的技术厂商,在同态加密、安全多方计算、大模型联邦学习、多密码学技术融合、明密文混合处理等方面都有很多创新探索尝试。性能远优于【1】中所提出的指标。另外,软文还提到TEE技术的不成熟。但从对会话无痕技术的描述,可以看到所采用的技术方案非常类似于TEE的模式,但又不能提供TEE所能提供的硬件隔离能力。
“会话无痕”采用一种“安全沙箱”的方案,分配唯一的身份证书,当用户发送用户数据时,可用手中公钥将它们加密,只有到达正确的安全沙箱环境,才能被解密使用。乍看之下,是借鉴了TEE的部分逻辑。这里列举几个与TEE的相似点:
安全沙箱:
TEE 本质上就是一个硬件隔离的“安全沙箱”,用来执行敏感代码和处理机密数据。它隔离了外界(包括操作系统和应用程序),确保即使主机系统被攻破,沙箱内的数据仍然安全。身份认证和唯一证书:
TEE 通常在硬件级别生成一个唯一的身份标识(例如硬件根密钥)。在实际应用中,基于这个身份生成唯一的设备证书,可以用于认证 TEE 和建立信任。数据加密和密钥隔离:
用户可以使用 TEE 公钥对数据加密,只有在 TEE 内部,经过验证的执行环境下,相关密钥才能解密并使用这些数据。这种设计确保了只有可信的代码能够访问数据。密钥管理与匹配:
TEE 内部的密钥(“锁”)是与硬件绑定的,只有正确的私钥(对应用户的“钥匙”)才能解密数据。这种机制类似“钥匙和锁匹配上”的描述。
然后软文还提到链路全加密、数据高保密、环境强隔离、操作可审计等传统技术手段,但都没有说明白“安全沙箱”自身的安全性如何保证,在安全沙箱中数据是以明文态使用的,这就是最大的问题。安全沙箱很难自证清白,沙箱的持有者看起来能够截获明文信息。“会话无痕”难以做到隐语所强调的密码学可证安全,本质上看起来是俄罗斯套娃般的保护机制,采用一系列的身份认证、网络隔离、操作日志记录等软性的策略。希望后续能看到关于“安全沙箱”的安全性证明。
在未获得更多关于“安全沙箱”安全性证明之前,仅从目前公开的软文评估,个人还是更看好隐语的密码学可证安全路线、Fate探索的横向联邦Fed-LLM以及基于TEE硬件安全的隐私计算路线,在安全性层面有充分的保护,当然性能是目前各方在持续推进解决的关键点。
2. 隐私计算文章小结
2.1 密码学
OT三部曲
《OT&OT扩展(不经意传输扩展)深入浅出》
《不经意传输协议(OT/OTE)的进一步补充(COT、ROT、依赖的困难假设等)》
《不经意传输OT及OT Extension(OT变体、恶意敌手模型、silent OT、OT扩展等)》
《多方安全计算之函数秘密共享(FSS)》
《Diffie-Hellman密钥交换以及离散对数问题、群论等概念》
《中国剩余定理解释以及Paillier解密加速应用》
2.2 隐私集合求交
《隐私集合求交(PSI)原理深入浅出》
2.3 隐私信息检索(匿踪查询)
《隐私计算匿踪查询技术深入浅出》
《一种批量匿踪查询友好算法PIRANA的原理分析》
《Simple PIR-单服务器开源最快匿踪查询算法解析》
2.4 PPML(联邦学习、多方联合建模
《替换半同态使用全同态加速计算联邦机器学习算法的实证分析以及性能对比》
《GPU加速计算联邦学习XGBOOST以及对NVIDIA FLARE的介绍》
《基于横纵向的混合联邦学习原理分析》
《SGB、SS-XGB算法原理及编程实战》
《逻辑回归LR与广义线性模型GLM开发实践》
《隐私保护机器学习算法概要》
《SML入门/基于SPU实现明文算法迁移密文模型的实践》
2.5 安全多方计算
《混淆电路深入浅出》
《MPC安全多方计算矩阵乘法算子的原理分析及模型推理应用介绍(涉及SPDZ、GMW、ABY、ABY2.0、ABY3、Cheetah、CipherGPT、VOLE、模型推理等)》
《理解密态引擎SPU框架》
2.6 隐私计算与大模型
《大模型的安全由隐私计算来保护(涉及联邦学习、可信执行环境、差分隐私、多方安全计算、同态加密、端云协同、GPU安全加速等技术)》
《全同态加密应用场景案例(隐私云计算中的大模型推理、生物识别等)》
《基于隐语的VisionTransformer框架》
2.7 隐私计算技术思考
《隐私计算使用不当也会泄露原始数据》
2.8 隐私计算应用探索
《隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)》
《利用多方安全计算MPC实现VGG16人脸识别隐私推理》
3. 参考材料
【1】火山方舟公开会话无痕技术细节