加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

算法偏见侦探

发布时间:2018-12-24 13:57:11 所属栏目:编程 来源:雷锋网
导读:原标题:算法偏见侦探 雷锋网AI 科技评论按,随着越来越多的算法不断渗透入社会的层层面面,如医疗机构、政府部门,对算法偏见的讨论越来越多。这个月,Nature 杂志评选出2018 年最受欢迎的十大科学长篇专题报道,其中,Rachel Courtland 一篇讨论算法偏见

Propublica 团队调查了数千名被告的COMPAS 得分,这些分数是该团队通过公共记录请求获得的。通过比较黑人和白人被告,记者们发现,「假正例」(被判断为有罪,实际无罪)的黑人被告与白人被告的比例是严重失调的:黑人被COMPAS 列为高风险人群,但实际上他们随后却没有被指控罪行。

该算法的开发者是一家总部位于密歇根州的名为Northpointe (现在是俄亥俄州坎顿市的Equivant)的公司,该公司认为这个工具没有偏见。他们说,COMPAS 还能够很好地预测被归类为高犯罪风险人群的白人或黑人被告是否会再次犯罪(这是一个「预测性平价」的例子)。Chouldechova 很快发现,Northpointe 和ProPublica 的公平度量是对立的。预测性平价、相等的假正例错误率和相等的假负例错误率都可以作为体现「公平」的方式,但是如果两个群体之间存在差异——例如白人和黑人被再次逮捕的概率(参见后文「如何定义『公平』」章节) ,那么在统计学上,就不可能实现完全的公平。伦敦大学学院研究可靠性机器学习的研究员Michael Veale 表示:「鱼和熊掌不可兼得!如果你想在某一方面做到公平,那么在另一个听起来也很合理的情况下,你可能必然做不到公平」。

如何定义「公平」?

研究算法中的偏见的研究人员说,定义公平的方法有很多,但这些方法有时候是矛盾的。

我们不妨想象一下,在刑事司法系统中使用一种算法为两组嫌疑人(用蓝色和紫色表示)打分,从而衡量他们再次被捕的风险。历史数据表明,紫色组被捕的概率更高,因此模型会将更多的紫色组的人归类为高危人群(见下图顶部)。即使模型开发人员试图不直接告诉模型一个人应该被归为蓝色还是紫色,以避免产生偏见,但这种情况也会发生。这是因为用作训练输入的其他数据可能与蓝色或紫色相关。

尽管高风险状态不能完美地预测该嫌疑人是否会再次被捕,但该算法的开发者试图使预测结果公平:对于这两组人来说,「高风险」指的是有2/3 的几率在两年内再次被捕。(这种公平称为预测性平价。)未来的逮捕率可能不会遵循过去的模式,但是在这个简单的例子中,假设它们确实如预期的那样:蓝色组的3/10 和紫色组的6/10(以及每组中2/3 被标记为高风险的人)确实被再次逮捕了(见下图中底部的灰条)。

该算法满足预测性平价(无论黑人和白人被告是否有相同的风险评分总体准确率),但是仍然存在一个问题。在蓝色组中,7 人中有1 人(14%)被误认为是高危人群,而在紫色组中,4 人中有2 人(50%)被误认为高危人群。因此,紫色个体更有可能成为「假正例」——被误认为高风险。

只要蓝色组和紫色组的成员再次被捕的概率不同,那么就很难实现预测性平价和相等的假正例率。从数学上来说,要做到这一点同时满足第三项公平标准(除了预测性平价和相等的假正例率)是不可能的:相等的假负例率(被认定为低风险但随后又再次被捕的个体;在上面的例子中,紫色和蓝色组的假负例率恰好相等,同为33%)。

一些人认为紫色组的假正例率更高体现出了算法的歧视性。但其他研究人员认为,这并不一定是算法存在偏见的确凿证据。这种不平衡还可能有一个更深层次的原因:紫色组可能一开始就不公平地成为了逮捕的目标。根据过去的数据,该算法能够准确地预测更多的紫色组成员将被再次逮捕。因此,我们可以认为该算法(甚至可以确定)有事先存在的社会偏见。

雷锋网注:更多关于统计悖论的信息,可以参见这个著名的统计学悖论,第一次听说的人很可能怀疑人生一文。

事实上,从数学角度来说,还有更多的方式来定义公平:在今年2 月的一次会议上,计算机科学家Arvind Narayanan 发表了题为「21 个公平性的定义及其策略」的演讲,他指出还有其它的定义方式。一些调查过ProPublica 的案例的研究人员,包括Chouldchova,指出「不相等的错误率是否表明算法存在偏见」尚不清楚。斯坦福大学的计算机科学家Sharad Goel 说,他们反而反映了这样一个事实:即算法对一个群体比对另一个群体更难做出预测。「事实证明,这或多或少是一种统计学的假象」。

对于某些人来说,ProPublica 的案例凸显了这样一个事实,即许多机构缺乏资源来寻求并正确评估算法工具。芝加哥大学的数据科学与公共政策中心的主任Rayid Ghani 表示:「如果有的话,这样的情况告诉我们的是:雇佣Northpointe 的政府机构没有给出明确的衡量算法公平性的定义。我认为,各国政府需要学习并接受培训,学习如何寻求这些系统,如何定义算法应该被衡量的指标,以及如何确保供应商、咨询师和研究人员提供的系统实际上是公平的」。

Allegheny 郡的经验表明要解决这些问题是多么困难。Chouldchova 受邀在2017 年初开始研究Allegheny 的数据,她发现这个工具也存在类似统计上的失衡现象。她说,该模型有一些「非常不理想的特性」。在不同的种族之间的错误率的差异远远高于预期。而且,由于尚不清楚的原因,被认为受虐待风险最高的白人儿童被从家中带走的可能性小于被认为受虐待风险最高的黑人儿童。Allegheny 和Vaithianathan 的团队目前正在考虑转而使用另一种模型。「这可能有助于减少不公正的现象」,Chouldchova 说。

尽管统计失衡是一个有待解决的问题,但算法中潜藏着更深层次的不公平性(它们可能会加剧社会的不公正现象)。例如,像COMPAS 这样的算法可能原本是旨在预测未来犯罪活动的可能性,但它只能依赖于可测量的模式:例如被逮捕。警务实践的差异可能意味着一些社会团体成为被逮捕几率更高的目标,他们可能因为会在其他社会团体中被忽视的罪行而被捕。David Robinson是Upturn 的执行董事(Upturn 是一个位于华盛顿特区的非营利性社会司法组织),他说:「即使我们准确地预测了一些案件,但我们在准确地预测案件的同时可能也对一些人群采取了不公正的对待」。这在很大程度上将取决于法官在多大程度上依赖此类算法来做出裁决,而我们对此知之甚少。

算法偏见侦探

新泽西州卡姆登市的警察使用自动化工具来帮助确定哪些地区需要巡逻。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读