对招聘算法的厌恶:透明度、性别分析和自信

时间: 2024-10-15 22:19:54   阅读:


  2024年10月13日晚上六点,中国营销工程与创新研究中心(以下简称“MEI”)2024-2025年第二学期第6次研讨会(以下简称“Seminar”)在MEI如期举行,参与本次研讨会的有黄敏学老师及MEI各位成员。

  本次Seminar由廖佐江研读文章《Aversion to Hiring Algorithms: Transparency, Gender Profiling, and Self-Confidence》

微信图片_20241015222127.png

 

 

  1.研究导入

  当前,我国互联网招聘平台快速发展。数据显示,一些头部平台累计服务求职者已超过1亿人次,求职有效简历数超过1.5亿份,认证企业接近1000万家。利用人工智能技术进行简历筛选和人力资源开发正在成为招聘领域发展趋势,多家招聘平台纷纷探索通过AI算法为数据赋能。近年来,利用算法进行AI招聘已成为职场中的一大新热点,如何规避AI算法可能带来的歧视问题成为保障就业公平面临的一个新问题。

  研究问题:如何去规避AI算法的性别歧视问题产生的算法厌恶呢?

  2.理论框架

  2.1为何员工要接受招聘算法:员工直接受到招聘决策的影响,因此本研究预计,自身利益将影响他们对算法决策的偏好。也就是说,员工会倾向于选择他们认为更有可能对他们有利的招聘方式。

  2.2为何管理者不愿意授权给招聘算法:过度自信是一种常见的偏见,其对经济行为的影响已被证明。在本研究的背景下,过度自信可能会导致管理者很少将招聘决策委托给算法,因为他们认为自己做出的招聘决策比实际情况更好。授权给算法与管理者对他们正确雇佣了多少工人的信念呈负相关。对管理者雇用员工的能力的反馈将增加对算法的授权,特别是对于那些过度自信的管理者,因为他们收到的反馈表明他们做出的正确招聘决定比他们想象的要少得多。

  3.假设提出

  H1:与BaselineW相比,NoGenderW中更高比例的员工更喜欢被算法雇用,而不是被管理者雇用。NoGenderW

  中的算法规避比BaselineW中少。

  H2:一旦解释了算法,更高比例的员工更愿意被算法雇用,而不是被管理者雇用,也就是说,在Transp W中相对于

  BaselineW。与BaselineW相比,TranspW中的算法规避较少。

  H3:更多的管理者委托的算法ConfidM比BaselineM的招聘决策。这种效应是由那些对正确招聘数量过于自信的管

  理者推动的。ConfidM中的算法规避比BaselineM少。

  H4:当解释算法时,管理者将招聘决策委托给算法的比例更高,也就是说,与BaselineM相比,在TranspM中的算法规避比BaselineM中的算法规避少。

  4.实验概述

  员工:BaselineW:员工在算法或管理者之间进行选择,以做出招聘决定。

  管理者:BaselineM: 管理者在成对的员工之间做出20个雇佣决定。然后,他们选择是否将招聘决策委托给算法。

图片1.png

  实验设计

  在美国的Prolific平台上进行了一个在线实验。

  Baseline Treatment for Workers:工人首先有两分钟时间解决任务1,然后有两分钟时间解决任务2。

  Gender-Blind Algorithm Treatment for Workers:与BaselineW处理的唯一区别是,算法基于工人在任务1和任务2中的表现做出招聘决策,而不是基于他们的性别。

  Transparency Treatment for Workers:与BaselineW处理相比,唯一的区别是参与者在决定他们是否希望管理者或算法做出招聘决策之前,会被告知算法的工作方式。

  5.1 Baseline Treatment for Workers (员工基线处理)

  工人首先有两分钟时间解决任务1,然后有两分钟时间解决任务2。他们接着解决所谓的工作任务,持续两分钟,该任务由任务1和任务2中的练习组成。完成这些任务后,工人被告知算法和扮演管理者角色的参与者将不得不在工人之间做出招聘决定。工人必须选择他们是否更倾向于让算法或管理者做出招聘决定。询问参与者对他们在工作任务中的相对表现的信心。如果他们能猜测自己的表现比多少百分比的工人低,并且误差在五个百分点内,他们可以额外赚取25便士。询问参与者对管理者和算法做出招聘决定时所雇佣工人的性别构成的看法。鉴于候选人池中男性和女性数量相等,我们询问他们认为100名被雇佣工人中有多少是男性。如果他们的猜测与正确答案相差不超过5,他们可以额外赚取25便士。最后,我们询问对表现最好的工人的性别构成的看法,即50名表现最好的工人中有多少是男性。和之前一样,如果他们的猜测与正确答案相差不超过5,他们可以额外赚取25便士。

  5.2Gender-Blind Algorithm Treatment for Workers (员工性别盲算法处理)

  与BaselineW处理的唯一区别是,算法基于工人在任务1和任务2中的表现做出招聘决策,而不是基于他们的性别。请注意,管理者仍然了解工人的性别。

  5.3 Transparency Treatment for Workers (员工透明度处理)

  与BaselineW处理相比,唯一的区别是参与者在决定他们是否希望管理者或算法做出招聘决策之前,会被告知算法的工作方式。更具体地说,我们披露了算法用于预测工作任务表现的回归方程。

  5.4 Baseline Treatment for Managers (管理者基线处理)

  管理者观察工人必须解决的三个任务中的所有问题,但管理者不需要解决它们。管理者还观察了来自BaselineW和NoGenderW处理中称为训练集的20名工人的任务1、任务2和工作任务的表现以及性别。每个管理者观察了从BaselineW和NoGenderW处理中的所有工人中随机抽取的20名工人的不同集合。

  我们要求管理者从BaselineW处理中的工人对中做出20个招聘决定。我们生成了工人对,使得对中工人在任务1和任务2中的总表现相似(差异不超过每个任务的4分)。管理者必须做出招聘决定的20对工人被称为预测集。

  在招聘决定做出后,我们询问管理者关于他们在预测集的20对中选择更好工人的频率的看法,即具有更高工作任务表现的工人。

  最后,我们询问管理者是否希望将招聘决定委托给算法。我们告诉他们算法是一个计算机程序,它根据工人的性别和他们在任务1和任务2中的表现来选择雇佣哪两个工人中的哪一个。如果管理者决定将招聘决定委托给算法,如果管理者决定将招聘决定委托给算法,她的收益将取决于算法做出的一个随机选择的招聘决定。

  5.5 Confidence-Feedback Treatment for Managers (管理者信心反馈处理)

  与BaselineM处理不同,ConfidM中的管理者在信念征集阶段之后、在他们决定是否委托给算法之前,会收到关于他们在预测集中20个招聘决定中正确雇佣数量的反馈。此外,我们告知他们是否过于自信(猜测的正确雇佣数量至少比实际表现多两个)、缺乏自信(猜测的正确雇佣数量至少比实际表现少两个)或校准良好(正确雇佣数量在±1的区间内与所述相符)。

  5.6 Transparency Treatment for Managers (管理者透明度处理)

  与BaselineM处理的唯一区别是我们在管理者决定是否将招聘决定委托给算法之前,向他们提供了关于算法如何工作的信息。他们收到的关于算法的信息与TranspW处理中的信息相同。

  6.数据分析

  6.1 Analysis result for Workers (工人分析结果)

  对算法的厌恶:图表显示工人不愿意受到基于性别做出招聘决策的算法的约束。在TranspW中,选择算法的工人比例与BaselineW没有显著差异(50.63% 对比 46.67%;双尾Fisher精确检验得出 p = 0.42),并且略低于NoGenderW(p = 0.07,双尾Fisher精确检验)。男性工人是当性别被移除时,选择算法偏好增加的主要原因。这一发现与男性工人预期算法会偏爱女性一致。

  工人对自己表现的信心与选择算法之间的相关性:工人对自己表现得越好,他们选择算法的可能性就越大。

  对算法歧视或管理者偏爱自己性别的看法:那些认为算法会歧视自己性别或管理者会偏爱自己性别的工人对算法的偏好较弱。

  算法厌恶的减少:工人在NoGenderW中的算法厌恶显著低于基线,而在TranspW和BaselineW之间没有显著差异。

图片2.png

  6.2管理者分析结果

  管理者的过度自信:观察到男性管理者的显著过度自信(t检验得出 p < 0.01),但女性管理者没有(t检验得出 p = 0.66)。

  纠正管理者对自己招聘决策的信念对其委托决策的影响:在TranspM中,将招聘决策委托给算法的管理者比例为32.2%,与BaselineM没有显著差异(双尾Fisher精确检验得出 p = 0.71),但显著低于ConfidM(双尾Fisher精确检验得出 p < 0.01)。

  管理者对自己雇佣成功估计过高的影响:回归分析的结果证实,提供关于他们表现的反馈可以增加管理者将招聘决策委托给算法的比例。这一发现表明,过高估计自己招聘成功的管理者不太可能将决策委托给算法。回归分析证实,提供算法工作细节不会增加管理者对算法的委托。

  反馈对管理者过度或缺乏自信的影响:提供关于管理者过度或缺乏自信的反馈显著增加了委托决策的最优性和显著减少了算法厌恶。而且,TranspM和BaselineM之间没有显著差异。

图片3.png

  7.一般讨论

  文章通过在线实验探究了工人和管理者对算法招聘决策的偏好,并分析了性别盲算法、透明度和反馈对这些偏好的影响。

  研究发现:

  工人更倾向于选择性别盲的算法,并且对性别盲算法的算法厌恶比使用性别的算法要低。算法细节的披露对工人对算法招聘的偏好或算法厌恶没有影响。

  当管理者收到关于他们绩效的反馈时,他们更倾向于将招聘决策委托给算法,并且这种效应随着管理者自信度的增加而增强。算法的披露并没有增加管理者对算法的委托,也没有提高委托决策的最优性。

  7.1 理论意义

  对招聘算法偏好的研究贡献:文章研究了性别中立或透明算法的相对接受度,并探讨了推动管理者将招聘决策委托给算法的因素。

  性别歧视的新视角:研究发现,在提供给管理者的信息比以往研究更多的情况下,女性相对于男性在相似的过去表现下更受青睐。这表明,管理者能够了解到相对于男性,女性在工作表现上的优势。

  人机交互的文献贡献:这项工作是关于人机交互的更广泛文献的一部分,包括但不限于计算机化代理管理供应链和交易平台上的电子声誉系统的作用。

  7.2 现实意义

  对工人的启示:研究发现,当算法是性别盲定时,工人对算法招聘的偏好显著增加。这表明工人倾向于反对基于性别的任何歧视(无论这种歧视对他们是否有利),这为禁止基于种族、性别或其他群体属性的任何 profiling 提供了直接支持。

  对管理者的启示:研究复制了文献中的发现,即管理者太少地将决策委托给算法。管理者对自己招聘更好工人的能力过于自信,导致他们犯了这个代价高昂的错误。提供管理者关于他们招聘决策质量的反馈,可以增加委托决策的频率和最优性。研究表明,通过反馈过去的表现,可以通过自愿采用算法来提高效率。

  至此,本次Seminar文章研读完毕。

  之后,由向潇潼 、赖姿霖、唐垚 、朱伊平分享了最近的研究进展。针对研究中的问题,老师与同学们提出了一些建议,并且明确了进一步的研究计划。

  至此,本学期第6次Seminar圆满结束。

  文字/许乐

  排版 /许乐

  审核 /左翎