FairJob：促进在线广告系统公平性研究

在人工智能（AI）与人类动态的交汇处，既存在机遇也存在挑战，特别是在人工智能领域。尽管取得了进步，但根植于历史不平等中的持续偏见仍然渗透在我们的数据驱动系统中，这些偏见不仅延续了不公平现象，还加剧了社会的分歧。历史上的偏见影响了数据收集，对AI模型的结果产生了影响，经常放大了现有的不平等状况。尽管存在关于隐私、责任和公共关系的担忧，但收集特殊和敏感类别数据对于偏见评估至关重要。此外，不断演变的法律框架，例如最近的AI法案和通用数据保护条例[英国信息专员办公室，2022年]，要求检测、预防和减轻偏见，同时对敏感数据的使用施加了一些限制。

在广告中的算法歧视可能与敏感垂直领域有关，这些领域突出了有益的就业、金融和住房机会，或者关于谁看到了可能不太受欢迎的广告，例如掠夺性贷款服务的广告。虽然广告中的不公平行为不是惩罚性的，而是辅助性的，即公平性在于提供平等获取宝贵机会的机会，但确保广告实践的公平性至关重要。

大多数关于广告中歧视行为的研究都是通过创建广告活动、选择目标受众，并从用户的角度分析数据进行的，而没有访问算法特征。缺乏公开可用的、现实的数据集导致研究人员基于私有数据发布结果，导致科学界的主张无法复现。这为关键评估和在科学界建立在先前工作之上带来了挑战。

在线广告筛选简化流程

为了促进现实场景中的公平性研究，本文发布了一个大规模的公平意识广告FairJob数据集。

链接：https://huggingface.co/datasets/criteo/FairJob。

1 广告中的公平性问题

1.1 招聘广告中的性别歧视

研究表明，招聘广告的投放过程中存在性别歧视现象。例如，管理职位的招聘广告更倾向于展示给男性用户，这可能导致女性用户获得的机会更少，加剧性别差距。

这种歧视可能并非广告服务平台的本意，而是由于数据偏差或算法设计不当导致的。

1.2 市场偏差

广告投放平台通常采用实时竞价 (RTB) 机制进行广告投放。在这个过程中，平台会根据用户和广告主的特征进行竞价，并选择最优的广告进行展示。

由于市场竞争和成本效益的考虑，一些广告主可能会针对特定群体投放广告。例如女性用户可能更贵，因此平台可能会减少对女性用户的广告投放。这种市场偏差可能会导致广告投放结果出现不公平现象。

1.3 算法偏差

广告推荐算法可能会根据用户的历史行为和特征进行推荐，如果这些数据和算法存在偏差，那么推荐结果也可能存在偏差。

例如，如果算法认为男性用户更倾向于点击某些类型的广告，那么这些广告就会更频繁地展示给男性用户，从而导致女性用户获得的机会更少。

1.4 评估指标

广告推荐系统的评估指标通常包括点击率、转化率等，但这些指标可能无法完全反映广告的公平性。

例如，即使广告投放结果在不同群体之间没有显著差异，但如果某些群体对广告的响应率本身就较低，那么这种结果仍然是不公平的。

1.5 数据隐私

为了评估和解决广告中的公平性问题，需要收集和分析用户的数据，包括敏感数据（例如性别、种族等）。

然而，收集敏感数据可能涉及到数据隐私和安全问题，需要进行严格的保护和管理。

2 FairJob数据集

FairJobs 数据集是一个用于研究广告推荐系统公平性的大型数据集。它包含匿名化的用户和广告主特征，以及广告投放结果，旨在帮助研究人员评估和解决广告中的公平性问题。

2.1 数据来源

FairJobs 数据集来自 Criteo AdTech 公司在 2024 年进行的一项为期 5 个月的招聘广告投放活动。数据包含以下信息：

用户特征：包括 20 个匿名化的类别特征和 39 个匿名化的数值特征。
广告主特征：包括 7 个匿名化的类别特征。
广告投放结果：包括点击情况（是否点击广告）、广告是否为高级职位、以及用户、广告和广告投放的唯一标识符。
敏感属性代理：由于数据集不包含性别等敏感信息，因此使用用户与男性或女性产品互动的倾向作为性别代理。

2.2 数据特点

大规模：数据集包含 107 万多条记录，可以用于训练和评估大规模的机器学习模型。
多样性：数据集包含多种类型的特征，包括类别特征和数值特征，可以用于研究不同类型特征的公平性问题。
不平衡性：数据集的正负样本比例严重不平衡，可以用于研究不平衡数据下的公平性问题。
匿名化：数据集经过匿名化处理，保护用户隐私。

2.3 数据应用

FairJobs 数据集可以用于以下研究：

公平性评估：评估广告推荐系统的公平性，例如不同性别群体获得广告的机会是否平等。
公平性算法设计：开发新的公平性算法，例如“公平性惩罚”和“对抗训练”，以减少算法偏差。
评估指标改进：开发新的评估指标，例如“群体公平性”和“机会公平性”，以更全面地评估广告推荐系统的公平性。
数据隐私保护：研究数据匿名化、差分隐私等技术，保护用户数据隐私。

2.4 FairJobs 数据集的优势

真实场景：数据集来自真实的广告投放活动，可以更好地反映现实世界中的公平性问题。
匿名化：数据集经过匿名化处理，可以保护用户隐私。
开放获取：数据集开放获取，方便研究人员进行研究和实验。

2.5 FairJobs 数据集的局限性

敏感属性代理：由于数据集不包含性别等敏感信息，因此使用用户与男性或女性产品互动的倾向作为性别代理，可能存在一定的误差。
数据不平衡性：数据集的正负样本比例严重不平衡，可能会影响模型的训练和评估。
市场偏差：数据集可能存在市场偏差，例如某些广告主可能更倾向于投放给特定群体。

3 实验

3.1 实验设置

实验源代码：https://github.com/criteo-research/FairJob-dataset

3.1.1 数据集

FairJob 数据集，包含 1,072,226 条记录，每条记录包含用户特征、产品特征、点击标签、性别代理、职位等级等信息。

3.1.2 模型

3.1.2.1 基线模型

Dummy: 基于单一阈值对正类概率进行分类。在无感知设置中使用，即不考虑受保护属性。Dummy分类器的性能虽然有限，但它提供了一个基准，帮助我们理解在没有任何模型学习的情况下的公平性水平。
XGBoost:一个强大的梯度提升框架，用于处理各种类型的数据。在实验中，分别在不公平（包含受保护属性）和无感知（不包含受保护属性）设置下使用。
XGBoostLogistic Regression:逻辑回归是一种广泛应用于二元分类问题的统计方法。在实验中，使用逻辑回归来评估不公平、无感知和公平设置下的性能。

3.1.2.2 公平性模型

公平 XGBoost: 使用公平性惩罚的 XGBoost 模型。
公平 Logistic Regression: 使用公平性惩罚的 Logistic Regression 模型。

3.1.3 训练设置

特征嵌入: 使用嵌入方法将类别特征转换为数值特征。
类别不平衡: 使用过采样方法来处理类别不平衡问题。
超参数调整: 使用 Optuna 库进行贝叶斯优化，以找到最佳的超参数设置。
评估: 使用测试集评估模型的公平性和性能。

3.2 评估指标

3.2.1 公平性指标

人口统计学平等性 (Demographic Parity, DP): 该指标衡量模型对不同性别群体预测结果的差异。理想情况下，DP 应该为 0，表示模型对不同性别的用户展示高级职位广告的概率相同。
平等化机会 (Equal Opportunity): 该指标确保模型对不同性别群体预测正类结果的能力相同。然而，FairJob 论文没有使用该指标，因为它可能导致更多对弱势群体的误分类。
平等化公平 (Equalized Odds): 该指标确保模型对不同性别群体预测正类和负类结果的能力相同。FairJob 论文也没有使用该指标，因为它可能导致更多对弱势群体的误分类。

3.2.2 性能指标

负对数似然 (Negative Log-Likelihood, NLLH): 该指标衡量模型预测结果的准确度。NLLH 越低，模型的预测能力越强。
ROC 曲线下面积 (Area Under the ROC Curve, AUC): 该指标衡量模型区分正类和负类结果的能力。AUC 越高，模型的预测能力越强。
点击-排名效用 (Click-Rank Utility, U): 该指标衡量模型推荐广告的点击率。U 越高，模型推荐的广告越受用户欢迎。
产品-排名效用 (Product-Rank Utility, ˜U): 该指标考虑了选择偏差，衡量模型推荐广告的点击率。˜U 越高，模型推荐的广告越受用户欢迎，并考虑了选择偏差的影响。

3.3 实验结果

基线模型: Dummy 模型在 DP 方面表现最佳，但在 NLLH 和 AUC 方面表现较差。XGBoost 模型在 NLLH 和 AUC 方面表现较好，但在 DP 方面表现较差。
公平性模型: 使用公平性惩罚的模型在 DP 方面表现有所提高，但 NLLH 方面有所下降。公平性惩罚的 Logistic Regression 模型在 DP 和 ˜U 方面表现有所提高，同时 NLLH 方面下降较少。