在基于机器学习模型预测的决策中引入结构化随机化可以解决固有的不确定性,同时保持效率。
组织越来越多地利用机器学习模型来分配稀缺资源或机会。例如,这些模型可以帮助公司筛选简历以选择面试候选人,或帮助医院根据肾移植患者的生存可能性对其进行排名。
在部署模型时,用户通常会努力通过减少偏差来确保其预测是公平的。这通常涉及调整模型用于决策的特征或校准其生成的分数等技术。
然而,麻省理工学院和东北大学的研究人员认为,这些公平方法不足以解决结构性不公正和固有的不确定性。在一篇新论文中,他们展示了如何以结构化的方式随机化模型的决策,以提高某些情况下的公平性。
例如,如果多家公司使用相同的机器学习模型对面试候选人进行确定性排名,而不进行任何随机化,那么一个值得的人可能会成为每个职位排名最低的候选人,这可能是由于该模型如何权衡在线表格中提供的答案。在模型的决策中引入随机化可以防止一个值得尊敬的人或群体总是被剥夺稀缺资源,比如面试。
通过他们的分析,研究人员发现,当模型的决策涉及不确定性或同一组持续收到负面决策时,随机化尤其有益。
他们提出了一个框架,可以通过加权彩票分配资源,将特定数量的随机化引入模型的决策中。这种方法,个人可以根据自己的情况量身定制,可以在不损害模型效率或准确性的情况下提高公平性。
“即使你能做出公平的预测,你是否应该严格按照分数或排名来决定稀缺资源或机会的社会分配?随着事情的发展,我们看到越来越多的机会由这些算法决定,这些分数中固有的不确定性可能会被放大。我们表明,公平可能需要某种随机化,”数据、系统和社会研究所(IDSS)的研究生、该论文的主要作者Shomik Jain说。
Jain与东北大学哲学和计算机科学助理教授Kathleen Creel一起发表了这篇论文;资深作者Ashia Wilson是电气工程与计算机科学系李斯特兄弟职业发展教授,也是信息与决策系统实验室(LIDS)的首席研究员。这项研究将在国际机器学习会议上发表。
考虑索赔
这项工作建立在之前的一篇论文的基础上,在该论文中,研究人员探讨了大规模使用确定性系统时可能发生的危害。他们发现,使用机器学习模型来确定地分配资源会放大训练数据中存在的不平等,从而加剧偏见和系统性不平等。
威尔逊说:“随机化在统计学中是一个非常有用的概念,令我们高兴的是,它满足了从系统和个人角度提出的公平要求。”。
在这篇论文中,他们探讨了随机化何时可以提高公平性的问题。他们围绕哲学家约翰·布鲁姆的思想进行了分析,布鲁姆写道,使用彩票以尊重个人所有主张的方式奖励稀缺资源的价值。
一个人对稀缺资源的要求,如肾移植,可能源于功绩、应得或需求。例如,威尔逊解释说,每个人都有生命权,他们对肾移植的要求可能源于这一权利。
贾恩说:“当你承认人们对这些稀缺资源有不同的要求时,公平就要求我们尊重个人的所有要求。如果我们总是把资源交给有更强要求的人,这公平吗?”。
这种确定性分配可能会导致系统性排斥或加剧有模式的不平等,当收到一份分配增加了个人收到未来分配的可能性时,就会发生这种情况。此外,机器学习模型可能会出错,而确定性方法可能会导致同样的错误重复出现。
随机化可以克服这些问题,但这并不意味着模型做出的所有决策都应该被平均随机化。
结构化随机化
研究人员使用加权彩票根据模型决策中涉及的不确定性来调整随机化水平。一个不太确定的决定应该包含更多的随机化。
威尔逊说:“在肾脏分配中,通常计划是围绕预期寿命进行的,这是非常不确定的。如果两名患者相距仅五年,则很难测量。我们希望利用这种不确定性来调整随机化。”。
研究人员使用统计不确定性量化方法来确定在不同情况下需要多少随机化。他们表明,校准的随机化可以为个人带来更公平的结果,而不会显著影响模型的效用或有效性。
威尔逊说:“在整体效用和尊重获得稀缺资源的个人的权利之间需要取得平衡,但通常这种权衡相对较小。”。
然而,研究人员强调,在某些情况下,随机化决策不会提高公平性,反而可能对个人造成伤害,例如在刑事司法背景下。
但在其他领域,随机化可以提高公平性,如大学录取,研究人员计划在未来的工作中研究其他用例。他们还想探索随机化如何影响其他因素,如竞争或价格,以及如何利用随机化来提高机器学习模型的鲁棒性。
威尔逊说:“我们希望我们的论文是说明随机化可能有益的第一步。我们提供随机化作为一种工具。你想做多少取决于分配中的所有利益相关者。当然,他们如何决定是另一个研究问题。”。
图片