【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Towards Privacy-Aware Sign Language Translation at Scale
作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表: ACL 2024
arXiv: https://arxiv.org/abs/2402.09611

基本信息

摘要

主要阻碍手语翻译（SLT）进步的因素是数据稀缺。

目前网络上可用的手语数据中，很大一部分由于缺乏对齐字幕，无法用于训练监督模型。

此外，使用大规模网络爬取的数据集进行SLT扩展存在隐私风险，因为其中包含生物识别信息，而SLT技术的负责任开发应考虑到这一点。

在本研究中，我们提出了一种两阶段框架，用于大规模隐私感知SLT，以解决这两个问题。

我们引入了SSVP-SLT，该系统利用匿名和无标注视频上的自监督视频预训练，随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能，其性能超过最强基线3 BLEU-4。

基于控制实验，我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

Our proposed generic, scalable and privacyaware SLT framework

我们概述了一个通用的、可扩展且隐私保护的SLT（手语翻译）两阶段迁移学习框架。

Stage I: 我们通过自监督学习训练一个模型，目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设，即不涉及面部模糊，也不涉及使用合成外观等更复杂的方法。
Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下，由于微调数据集规模可管理，在从数据中的手语者获得明确同意后，可以取消匿名化以最大限度地减少信息损失。

方法

Overview of our two-stage SSVP-SLT method

我们的框架的基本实现采用两步法，称为SSVP-SLT。

Self-Supervised Video Pretraining (MAE)
Supervised SLT Finetuning

Adding Language-supervised Pretraining

Overview of our LSP extension

我们还在实验中使用语言监督预训练（LSP）步骤扩展了SSVP-SLT，以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

How2Sign test performance of SSVP-SLT in different pretraining configurations compared to baselines

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

How2Sign test BLEU of SSVP-SLT after pretraining on YouTube-ASL and How2Sign or How2Sign only and finetuning on the same data

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

Performance on unblurred test data for SSVPSLT trained and evaluated on DailyMoth-70h with or without facial blurring during pretraining and SLT

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

How2Sign test performance of SSVP-SLT when pretraining on (YouTube-ASL and) How2Sign with a clip size of 16 versus 128 video frames

在（YouTube-ASL和）How2Sign上进行预训练时，SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

How2Sign test performance of SSVPSLT YT+H2S 800 when finetuning BART and T5, initialized randomly (PT = ✗) or from the pretrained model (✓)

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

How2Sign test performance when including (✓) or removing (✗) the MAE and CLIP objectives and pretraining from the original Hiera K400 800 or SSVPSLT YT+H2S 600 checkpoint for 200 epochs on YT+H2S, followed by finetuning on the same data