
目前
,
深度学习算法已经取得了巨大的进步
,
并
且越来越多地用于 影 响个 人 生活 的 决策 应 用中
,
包
括图 像 分 类
[
1
]
、
欺 诈 检 测
[
2
]
、
情 绪 分 析
[
3
]
、
面 部 识
别
[
4
]
、
语音理解
[
5
]
、
自动驾驶
[
6
]
、
医学诊断
[
7
]
等
,
深度
学习在这些复杂任务上的性能已经达到甚至超过了
人类决策的水平
,
能够 实 现比 机 器学 习 更高 的 准确
率
.
然而
,
深度学习在基于种族
、
年龄
、
性别等敏感属
性上的应用仍然具 有 不公 平 性
,
这种 基 于数 据 的学
习方法会过度关联 敏 感属 性
,
可能 会 对受 保 护群 体
表现出歧视行为
,
从而 对 个人 和 社会 产 生潜 在 的负
面影响
.
例如
,
美国 法 院使 用
COMPAS
作为 刑 事司
法系统中的风险评 估 工具
,
用来 衡 量每 一 个被 告 再
次 犯 罪 的 概 率
.
然 而
,
对 此 工 具 的 调 查 发 现
COMPAS
对于种族这一敏感属性存在不公平性
,
非
裔美国人被告再次犯罪的风险估计平均高于白人被
告
[
8
]
.
在医学领 域
,
年 龄 作 为 一 种 潜 在 的 敏 感属 性
,
会影响基于深度学习诊断系统的评估结果
.
例如
,
来
自
UCI
机 器 学 习 知 识 库 的
HeartDataset
包 含 了
906
名不同年龄段 患 者的
14
个处 理 过的 特 征
[
9
]
.
这
个数据集的目标是准确地预测一个人是否患有心脏
病
,
而研究发现系统 对 年龄 的 偏见 可 能会 导 致不 必
要的医疗护理
.
在某些简历筛选工具中
,
存在对性别
这一敏感属性产生 歧 视性 行 为的 现 象
,
导致 男 性在
应聘过程中比 女 性 更 有 优 势
.
深 度 学 习 在 应 用 过 程
中存在的不公平现象引起了业界和学术界的广泛关
注
,
Du
[
10
]
和
Ross
等 人
[
11
]
使 用 局 部 解 释 对 深 度 模
型进行正则化 训 练 从 而 实 现 模 型 的 公 平
;
Elazar
[
12
]
和
Zhan
g
等人
[
13
]
使 用 对 抗 性 训 练 从 模 型 的 隐 层 表
示中去除敏感属性 的 信息
,
从而 得 到一 个 公平 的 分
类器
.
与机器学 习方法 相同
,
深度学 习存在 的偏见 也
是来自于数据和模型
.
一方面
,
深度学习是基于数据
驱动的学习范式
,
它使 模 型能 够 自动 从 数据 中 学习
有用的表示
.
但 是 这 些 数 据 在 标 注 过 程 中 会 引 入 偏
见
,
这些数据偏见被深度模型复制甚至放大
.
另一方
面
,
深度模型的结构是基于经验设计的
,
其训练是一
个黑盒过程
,
因此很 难确 定 训练 好 的模 型 是基 于 正
确的理由做出的决 定
,
还是 受 偏见 影 响做 出 的不 公
平判断
,
这也使得模型去偏成为极具挑战性的任务
.
目前
,
面向深 度学习 的公平 性研究 领域还 有很
大的发展空间
,
针对来自数据
、
模型的偏见问题已经
成为重点关注对象
,
仍需要不断的探索
.
同时由于深
度学习在高风险领 域 中的 应 用
,
对数 据 偏见 的 预处
理去偏
、
对模型偏见的中处理去偏
、
以及后验性去偏
方法
,
正在引起业界和学术界的关注
.
为了更好地探究深度学习的公平性与未来的发
展方向
,
本文将综述深 度 学习 偏 见的 不 同来 源 并分
类
,
对预处理去偏方法
、
深度模型的公平性训练方法
以及后验去偏方法 进 行介 绍
,
并列 举 目前 主 流的 面
向深度学习的去偏平台及去偏方法的公平性评估指
标
,
同时对未来可能的研究方向作出展望
.
1
偏见的来源
由于训练数据标注和深度模型结构设计本身存
在偏见
,
会导致深度学 习 任务 的 预测 结 果存 在 不公
平现象
.
根据偏见的来源不同
,
我们将偏见类型分为
数据偏见和模型偏见
.
1.1
数据偏见
训练数据中可能存在由历史社会原因产生的偏
见
,
在有偏见的数据 上 学习 的 模型 可 能会 导 致预 测
结果的不 公 平 性
.
数 据 的 偏 见 会 以 多 种 形 式 存 在
,
Suresh
等人
[
14
]
讨论了数据偏见的不同来源
,
以及这
些偏见的产 生 方 式
;
Olteanu
等 人
[
15
]
准 备 了 一 份 完
整的不同类型偏见 的 列表
,
并对 由 于数 据 偏见 而 产
生的后果进 行 分 析
;
Mehrabi
等 人
[
16
]
总 结 了 以上
2
篇论文中引入的一 些 最普 遍 数据 偏 见的 来 源
,
但是
缺少对偏见来源的细粒度分类
.
在本文中
,
我们将 介绍这 些数据 偏见的 定义并
进行详细说明
,
此外还 将 按照 发 生的 原 因对 这 些数
据偏见进行细粒度的分类
.
我们将其分为时间偏见
、
空间偏见
、
行为偏见
、
群体偏见
、
先验偏见
、
后验偏见
.
1.1.1
时间偏见
时 间 偏 见是 指由 于时 间维 度的 差异 引起 的偏
见
.
例如
,
在
Twitter
上 可 以 观察 到一 个例 子
,
人 们
谈论一个特 定的 话题 时开 始使 用 标 签 来 吸 引 注 意
力
,
然后不 使用 标签 继 续 讨 论 该 事 件
[
15
,
17
]
,
这 是 由
不同时期人群和行 为的差 异产 生 的
[
15
]
.
另一 个 典型
的时间偏见是纵向 数 据偏 见
,
观察 性 研究 经 常把 横
断面数据当 作 纵向 的
.
例 如
,
对 大 量
Reddit
数 据 的
分析显示
,
评论长度会随着时间的推移而减少
[
18
]
.
然而
,
大量的数据代表的是人口的横截面快照
,
实际上包含了不同年 份加入
Reddit
的不 同 群体
.
当
数据按队列分列时
,
发现 每 个队 列 中的 评 论长 度 随
时间增加
[
18
]
.
时 间 偏 见可 能 会 导 致 数 据 缺 失
,
对 后
续的分析统计带来困难
.
1.1.2
空间偏见
空间偏见主要指的是由数据空间维度产生的偏
见
,
也就是常说 的 维数 灾 难
.Verle
y
sen
等人
[
19
]
指出
562
陈晋音等
:
面向深度学习的公平性研究综述
评论