一文学会编写大模型备案安全评估报告「小白也可学会」

文章目录

一、语料安全评估

(一) 评估内容

(二) 评估结论

二、模型安全评估

三、安全措施评估

四、总体结论

适用于不会大模型备案过程中对大模型备案安全评估报告不会如何编写的业务人员。

*图：大模型备案全套素材文件

一、语料安全评估

(一) 评估内容

文本训练语料规模
- 训练语料存储规模：详细说明训练语料按文本格式存储时的总容量。
- 训练语料数量：统计训练语料中词元(Token)的总数，确保语料的丰富性和多样性。
各类型语料规模
- 中文文本、英文文本、代码、图片、音频、视频及其他语料：分类统计各类语料的规模，以确保模型训练的全面性。
训练语料来源
- 开源语料、自采语料、商业语料：分析语料来源的组成，确保来源的合法性和多样性。
- 境外开源网站语料：详细统计境外开源网站提供的各类语料规模。
- 自采语料：统计企业自行采集的各类语料规模。
- 商业语料：统计购买的商业语料规模。
语料标注数量
- 标注数量：统计文本和图片的标注数量，按标注单元计数。
标注人员情况
- 人员数量和类型：统计标注人员的数量和类型，包括内部员工和外包人员。
- 培训情况：记录标注人员的培训时间、培训数量等，确保标注质量。
标注规则
- 规则制定：根据《生成式人工智能服务管理暂行办法》第四条要求，制定详细的标注规则。
标注内容准确性核验
- 人工核验比例：统计标注内容准确性的人工核验比例，确保标注的准确性。
语料合法性
- 来源合法性：评估语料来源的合法性，确保所有语料均来自合法渠道。
- 知识产权内容：检查语料中是否含有侵害他人知识产权的内容。
- 个人信息内容：确保语料中不包含违法违规的个人信息内容。

(二) 评估结论

合规性评估：判断语料是否符合《生成式人工智能服务管理暂行办法》的相关规定，是否含有违反我国法律法规的内容。
个人信息评估：统计包含个人信息的语料数量和种类，评估是否符合规定。
知识产权风险分析：分析因语料产生知识产权纠纷的风险。
安全风险防范建议：提出防范语料安全风险的措施和建议。

二、模型安全评估

语料内容评估
- 人工抽检：说明抽检数量与合格率。
- 关键词抽检：说明抽检数量与合格率。
- 分类模型抽检：说明抽检数量与合格率。
生成内容评估
- 人工抽检：说明抽检数量与合格率。
- 关键词抽检：说明抽检数量与合格率。
- 分类模型抽检：说明抽检数量与合格率。
涉知识产权、商业秘密的评估
- 评估方法：详细说明评估方法。
- 评判标准：列出评判标准。
- 评估结果：展示评估结果。
涉民族、信仰、性别等的评估
- 评估方法：详细说明评估方法。
- 评判标准：列出评判标准。
- 评估结果：展示评估结果。
涉透明性、准确性、可靠性等的评估
- 评估方法：详细说明评估方法。
- 评判标准：列出评判标准。
- 评估结果：展示评估结果。

三、安全措施评估

模型适用人群、场合、用途
- 适用人群：明确服务的适用人群，包括未成年人、学生等。
- 适用场合：明确适用场合，如关键信息基础设施、自动控制、医疗信息服务、心理咨询等。
- 服务范围：说明服务范围是否限定或未限定特定领域。
服务过程中收集保存个人信息情况
- 个人信息类型、数量、用途及保存期限：详细说明服务过程中收集保存的个人信息情况。
收集个人信息征得个人同意情况
- 同意方式：说明收集个人信息征得个人同意的方式。
受理处理使用者请求的情况
- 条件及途径方法：详细说明受理处理使用者查阅、复制、更正、补充、删除个人信息请求的条件和途径方法。
图片、视频标识情况
- 标识样式：描述标识的样式。
- 位置：说明标识在图片、视频中的具体位置。
- 频度：描述标识的频度，如每帧、跳帧等。
接受公众或使用者投诉举报情况
- 途径及反馈方式：说明接受公众或使用者投诉举报的途径及反馈方式。
服务协议情况
- 协议内容：确认上述1至6内容是否已经写入模型服务协议。
非法内容拦截措施
- 监看人员数量：统计监看人员的数量。
- 预置关键词拦截：提供预置关键词拦截列表。
- 分类模型检测：说明分类模型研制情况和准确性。
拒答率
- 拒答数量比率：统计拒绝回答或者以简单模板回答的数量占总测试数量的比率。
模型更新、升级
- 重新预训练情况：说明在何种情况下重新进行预训练，如较频繁发现生成非法内容。
- 所需时间：统计重新预训练所需的时间。
- 优化训练频度及时间：计划优化训练(fine-tuning)的频度及所需时间。