推动公平学习与身份归一化的视网膜神经疾病数据集

人工智能咨询培训老师叶梓转载标明出处

在机器学习领域，公平性（也称为公正性或平等性）是一个日益受到关注的话题，它对于社会的福祉至关重要。然而，目前缺乏专门用于公平学习且包含成像数据的公共医学数据集，这限制了该领域的进展。为了解决这一问题，哈佛医学院眼科AI实验室的研究团队提出了哈佛青光眼公平性（Harvard Glaucoma Fairness，简称Harvard-GF）数据集，这是一个包含3300名受试者的视网膜神经疾病数据集，涵盖了2D和3D成像数据，并针对青光病检测进行了种族群体的平衡。

公平性数据集

数据集涵盖了2010年至2021年间来自大型学术眼科医院的3300名受试者，包括了光学相干断层扫描（OCT）图像、患者人口统计学特征以及基于视野测试的青光眼诊断。数据质量进行了严格控制，例如，排除了信号强度低于6的OCT扫描图像（信号强度10表示最佳成像质量）。

Harvard-GF数据集包含3300个样本，其中1748个样本为青光眼患者。数据被分为训练集（2100个样本）、验证集（300个样本）和测试集（900个样本）。每个受试者选择了最后一次就诊的数据，并随机选择了一只眼睛。

图3展示了样本在青光眼类别、种族、性别、民族和年龄等不同因素下的分布情况。数据显示，亚洲人、黑人和白人分别占样本的33.3%，女性占54.9%。此外，91.7%的样本为非西班牙裔，平均年龄为59.13岁，中位数为61.41岁。

研究团队提出了公平身份归一化（Fair Identity Normalization, FIN）方法，以增强具有相同身份样本的区分性特征。这种方法考虑了个体身份的统计特性，以期产生更公平的预测结果。

图5展示了所提出的公平身份归一化方法的框架，该方法通过考虑个体身份的统计特性来增强样本的区分性特征。方法将模型视为两个组件：生成区分性特征的骨干网络和将特征映射到逻辑值的最终线性模块。FIN方法通过考虑身份a，输入特征z和身份a，产生估计统计量，并进行归一化处理。

骨干网络（Backbone Network）：这部分负责从输入数据中提取区分性特征 z。骨干网络是深度学习模型中用于特征提取的基础架构，它可以是卷积神经网络（CNN）或其他类型的神经网络，具体取决于数据的类型和任务的需求。
最终线性模块（Final Linear Module）：这个组件的作用是将从骨干网络得到的特征 z 映射到逻辑值z′，这些逻辑值通常用于后续的分类或回归任务。

在这两个组件之间，引入了公平身份归一化（FIN）方法：

公平身份归一化（FIN）：该方法的核心在于考虑每个样本的身份信息 a，并将这些身份信息与特征 z 结合起来，进行归一化处理。归一化处理的目的是调整特征，使得不同身份群体的特征分布更加均衡，从而减少模型在预测时的偏见。
归一化处理：通过计算每个身份群体的统计量（如均值和标准差），将特征z 进行调整。具体来说，特征 z 会被减去对应身份群体的均值，并除以标准差，以实现归一化。这一步骤的数学表达式为，其中和分别是对应身份群体的均值和标准差。
可学习的统计量：在FIN方法中，均值和标准差是可学习的参数，这意味着它们可以通过训练过程进行优化，以更好地适应数据和任务的需求。

研究团队还引入了一种公平性缩放机制，考虑了身份依赖的公平性对性能指标（如准确性和AUC）的影响。这种机制通过衡量整体与身份群体之间的性能差异，提出了一种新的公平性缩放度量方法。

为了解决传统公平性度量（如DDP和DEOdds）无法捕捉公平性与效率之间权衡的问题，研究团队提出了一种新的度量方法。这种方法不仅考虑了公平性，还考虑了效率，以确保模型在所有身份群体中不仅公平而且准确有效。

通过这些创新的方法和度量，哈佛医学院眼科AI实验室的研究团队为医学影像分析中的公平学习提供了有力的支持和工具，推动了该领域的发展。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

研究使用了2100个视网膜神经纤维层厚度图（RNFLT maps）或OCT B扫描图像进行训练，另外900个用于评估。样本不仅包含青光眼/非青光眼的标签，还包括种族（亚洲、黑人、白人）和性别（男性、女性）这两种社会身份信息。验证集包含100个亚洲样本、100个黑人样本和100个白人样本，而测试集则用于最终评估模型性能。

研究采用了EfficientNet-B1作为处理RNFLT地图的基线模型，而3D ResNet-18用于处理3D OCT B扫描图像。除了没有归一化的基线模型（No Norm），还在最终线性层之前插入了批量归一化（Batch Normalization, BN）、可学习的批量归一化（Learnable Batch Normalization, L-BN）以及提出的公平身份归一化（Fair Identity Normalization, FIN，其中动量m设置为0.3）进行综合比较。

研究使用了准确率（Accuracy）、接收者操作特征曲线下面积（AUC）、群体间差异（DPD）和等机会差异（DEOdds）等多种评估指标来全面理解效率和公平性之间的平衡。DPD衡量由敏感属性定义的群体之间选择率的最大差异，而DEOdds则关注不同群体间假阳性率（FPR）和真阳性率（TPR）的相似性。

模型使用AdamW优化器进行训练，并在NVIDIA RTX A6000图形卡上进行。对于RNFLT地图的实验，使用了5e-5的学习率和(0, 0.1)的beta值。对于OCT B扫描图像，使用了1e-5的学习率和相同的beta值。对比学习基线训练遵循SimCLR和FSCL的方法，应用数据增强技术。

表II展示了在考虑种族身份的RNFLT地图测试集上的实验结果。结果显示，黑人组的AUC一致低于白人组，而白人组的AUC通常低于亚洲组。这表明在黑人群体中，使用深度学习进行自动化青光眼检测尤其具有挑战性。与基线模型（No Norm）相比，提出的FIN在黑人组的青光眼检测性能提高了2.69%（p值=0.002）。此外，FIN在ESAcc、Acc、ESAUC和AUC等指标上优于其他方法。

表III和表IV分别展示了在考虑性别身份和种族身份的RNFLT地图和OCT B扫描图像测试集上的实验结果。这些结果进一步证实了FIN在提高模型公平性和效率方面的有效性。

消融研究探讨了动量m在公平身份归一化（FIN）中的作用，m的值从0到1变化。图6展示了动量m与AUC/ESAUC以及DPD/DEOdds之间的关系。结果表明，对于种族身份，m=0.3时在AUC和ESAUC上表现最佳；对于性别身份，m=0.2时表现最佳。

为了检验提出的FIN对学习过程的影响，研究可视化了基线模型、带有BN的基线模型、带有L-BN的基线模型和带有FIN的基线模型生成的预测结果中的真正例（TPs）、假正例（FPs）、真负例（TNs）和假负例（FNs）。图7显示，提出的FIN将TPs和TNs分别向右和左移动，这是因为FIN根据其身份特定的特征增强了特征。