技术辅助的家教服务:使用随机现场实验研究人工智能的作用

时间: 2022-11-12 20:24:44   阅读:


  2022年11月11日下午两点,中国营销工程与创新研究中心(以下简称“MEI”)2022-2023年第一学期第11次研讨会(以下简称“Seminar”)在MEI如期举行,参与本次研讨会的有黄敏学老师、朱华伟老师及MEI各位成员。

  本次Seminar由王娅婷研读文章《Home-Tutoring Services Assisted with Technology: Investigating the Role of Artificial Intelligence Using a Randomized Field Experiment》。

1.png

  一、研究导入

  营销研究人员长期以来一直强调服务员工适应服务个人客户的重要性(例如,Solomon等人,1985年),并注意到员工适应能力与客户满意度之间的积极联系(例如,Bitner、Booms和Tetreault 1990年)。鉴于提高服务员工的适应性和理解个人客户的多样化需求的挑战,技术已成为帮助一线服务员工的有效手段,它以有效履行其职责所需的显著信息的形式提供服务指导(例如,Ahearne等人,2008)。在这种背景下,本文关注人工智能(AI)如何作为一种使能技术来实现,使公司了解客户需求,并通过收集和分析大量客户数据帮助一线服务员工提供更多定制服务。 例如,在医药细节方面,销售人员技术的使用可以通过提高销售人员的适应性来提高销售业绩(Ahearne等人,2008)。然而,不能保证员工的人工智能辅助会帮助公司改善服务结果 。

  在本研究中,我们旨在检查向员工提供人工智能援助是否以及以何种方式改善服务结果。

  二、理论框架

  1、人工智能厌恶(Tutors’ AI Aversion)

  人工智能厌恶被定义为即用户即使知道人工智能技术比其他技术表现更好,也不使用人工智能技术的现象(Castelo、Bos和Lehmann 2019;Dietvorst、Simmons和Massey 2015)。 本文并未将人工智能厌恶定义为用户对人工智能产生厌恶的“感觉”。而是定义为用户选择不使用可用的人工智能技术,而不管他们可能有什么感受 。

2.png

  2、技术过载(Technology Overload)

  一些导师大量使用人工智能辅助,但从学生的成绩来看,他们未能从中受益。文献表明,采用新技术的工人在有效使用技术方面可能面临意外障碍和成本,称为“技术过载”(Karr Wisniewski和Lu,2010;Luo等人,2021)。这可能会在使用人工智能援助的感知和实际收益之间产生差异。技术过载可以通过三种不同的方式在本文的环境中表现出来:

  l  信息过载(information overload):无论所提供的信息与任务的相关性如何,其数量都超过了导师的处理能力,从而导致了次优决策(Jacoby 1984;Malhotra 1984)。如果教师能够处理大量信息,信息过载的程度可能会降低 。导师的教育和经验可能使导师具备梳理大量信息的技能,从而减少信息过载。

  l  沟通过载( communication overload):学生和家长沟通频繁,导师很难集中精力进行教学(Fried 2005)。现有的教育文献也表明,手机的发展可以增加家长与导师之间的沟通(Ho,Hung,and Chen 2013;Thompson 2008)。由于导师和家长之间有更多的互动方式,沟通过载对导师来说变得更加严重(Ahad和Lim 2014)。

  l  系统功能过载(system feature overload):指导师由于其复杂的用户界面和体验而在导航AI辅助时遇到困难。使用人工智能辅助所需的努力程度可能会让导师感到沮丧,因为他们有责任熟悉人工智能(Ayyagari、Grover和Purvis 2011)。对于年长的导师来说,这样的负担可能更大。

  本文开发了一个两阶段的概念框架来理解和评估人工智能的实施,并考虑了可能缓和其影响的因素。

  第一阶段,服务员工决定是否使用人工智能辅助。如果员工决定不使用可用的人工智能辅助,他们就会表现出对人工智能的厌恶。员工的使用决定部分取决于内部员工特征和外部工作环境,这些因素会影响他们使用人工智能辅助的预期收益和成本。

  第二阶段,员工对人工智能辅助的使用会影响服务结果,从而影响客户满意度。由于感知到的效益和成本可能与使用人工智能援助的实际效益和成本不同,因此,不可预见的障碍即技术过载,可能会减缓影响。同样,每个员工的内部特征和外部工作环境决定了潜在技术过载的严重程度。

  、研究模型

3.png

  四、实证过程

  本研究与韩国最大的私立教育公司之一合作,进行了一项随机对照试验,样本包括136名服务员工(导师),他们在五个随机选择的处理组。这些导师有机会使用人工智能生成的关于学生每周进度和成绩的报告,这些报告基于每个学生在公司教育计划中的学习活动历史。然后,我们将处理组的学生和导师与对照组的学生进行了比较,在对照组,人工智能生成的报告无法提供。实时数据使我们能够跟踪导师的行为(例如,每个学生的报告被查看的次数)和学生的表现(例如,正确回答问题的百分比)。

  我们根据地理位置的邻近性(即同一学区的邻近区域)将这些区域进行配对,以最大限度地提高实验区域和控制区域之间的相似性。我们为五个区域中实验组的所有导师提供了人工智能生成的报告。控制组的导师在没有人工智能生成的报告的情况下继续评估学生的学习进展。

4.png

  数据集包含了所有导师的日常报告访问量,以及所有学生在实验组和控制组的实时学习活动。我们将3周的所有测量进行平均,因此我们最终有5个干预前期包括15周,4个干预后期包括12周。最终的样本包括234名导师和2220名学生。

5.png

  ①政策变量:导师的行为(例如,他们是否为每个学生看报告以及看多少次)

  ②结果变量:学生的测试分数(以三周的平均测试分数衡量,即正确回答的问题总数除以所提供的问题总数)。

  ③控制变量:导师和学生的人口统计学信息

  (一)平衡测试和匹配

  确认处理区域和对照区域之间的相似性,我们使用平衡测试检查了相似性。通过配对处理区和对照区,仍有可能发现处理区和控制区之间存在一定程度的不平衡。在表1的前两列中,我们给出了比较处理组和对照组的平衡测试结果。使用样本期前三周的数据对观测变量的平均值。我们发现学生和导师水平的观察变量存在一些显著差异。一方面,处理组的导师比对照组的导师年轻1.66岁,有大学血统的可能性低11.4个百分点,并且为公司工作的时间比对照组少了大约8个月。另一方面,处理组的导师负责的女生比例高于对照组的导师。最后,我们发现干预前的测试得分没有显著差异。

6.png

  为了进一步提高处理组和对照组的可比性,我们在学生水平上进行了倾向评分匹配(PSM)。我们使用五个干预前阶段和四个干预后阶段的结果的视觉图,检查了干预前处理组和对照组的结果的可比性。在图4中,我们绘制了δj,它捕捉了处理组和对照组在每个时间段的结果差异,从j=−5toj=3使用周期−1作为基线,使用以下公式:

7.png

  其中,Yijt是学生i与导师j在时间t的考试成绩(即学业成绩结果,这是一个与客户保持率相关的KPI);Treatij是在处理区域的导师j的指标(即AI生成报告可用性的指标);τ(j)t是一个周期指标,如果当前周期t是AI生成报告规定之前的j个周期,则值为1,否则为0;Xijt 包括观察学生和导师的特点;vs代表区域缺陷(五个处理区域,五个对照区域);uijt是一个特殊的错误,包括所有剩余的未被发现的因素。如图4所示,在干预前期间未发现显著的趋势差异(一系列DID系数δj,通过使用匹配样本和整个样本对测试分数的等式1进行估计获得),且差异交叉平均值的大小接近于零。因此,我们的结果没有证据表明违反了DID方法下的共同趋势假设。

8.png

  (二)经验模型和结果

  我们首先根据以下两个公式,使用DID方法估计人工智能生成的报告的影响。第一个公式是

9.png

  其中After是AI生成的报告在时间t是否可用的指示符,并且所有其他变量在等式1中相同。因为我们通过人工智能生成报告的可用性来定义处理期,而不是通过自我选择来实际查看人工智能生成的报告,报告查看时,估计的效果可以解释为注意处理(ITT)效果。第二个公式包括学生固定效应

10.png

  其中θi表示学生固定效应[等式3中的学生固定效应包含了Xijt和等式2中的时间不变量的所有变化],所有其他变量与等式2中的相同。在平行趋势假设的有效性下,相互作用项的系数不应显著不同。

  如表2所示,在平行趋势假设的有效性下,交互项系数不应存在显著差异。我们发现,在有人工智能生成报告的地区,学生的考试分数有所提高。实验组学生的测试分数比对照组学生高出9.2个百分点(SD= .31 ,因为平均测试分数为41.6%,1个SD为30个百分点)。效应的大小和显著性对纳入学生固定效应是稳健的(表2中的第2列)。

11.png

  (二)安慰剂检验—Falsification Test

  ITT估计量衡量的是报告可用性对测试分数的影响,而不是实际报告视图对测试分数的影响。结果表明,报告可用性的影响只能通过实际查看报告来实现。

12.png

  (三)工具变量法

  证伪测试的结果表明,只有当导师实际查看报告时,报告的可用性才能有效地提高考试分数。我们扩展了公式2,以检验实际查看报告对测试分数的影响,将Viewij、报告可用性的指标Treatij替换为测试wij。

13.png

  我们使用两阶段最小二乘法,将报告的可用性作为实际报告视图的工具。在第一阶段估计中,我们使用以下方程来获得Viewij的给定值:

14.png

  从该估计中,我们获得了拟合值。我们使用Treatij 在方程5作为排除限制(即IV),该限制未出现在方程4的第二阶段估计中。

  在第二阶段,我们分别使用Treatij和TreatijAftert 作为Viewij 和ViewijAftert的IV来估计方程4。IV估计值表明,提出的平均处理效果是由导师查看AI生成的报告所驱动的,这与我们的想法一致。

  (四)导师的AI援助使用决策

  在上一节的概念框架的指导下,我们考察了导师的外部环境以及内部特征,这些特征是导师在决定查看报告时存在差异的潜在来源。结果表明,导师特点和外部环境有所影响。正规教育程度较低、能力较低的导师更有可能查看报告。年长的导师更有可能查看这些报告。任务数量多,以学生数量为代理,任务复杂度高的导师更有可能查看报告。

  (五)学生成绩改善

  我们使用下面的三种交互模型,直接检验了AI生成的报告对学生考试成绩的影响是否更大(更小)。表6结果显示了利用人工智能生成的报告和测试分数结果之间的差异,其中导师更有可能利用报告从它们中获益更少。

15.png

  (六)稳健性检验

  我们检验了人工智能生成的报告对测试分数的强烈积极影响的稳健性。对于额外的数据,所有导师和学生同时获得报告,而人工智能生成的报告的采用不是随机的,这导致了人工智能生成报告的自我选择问题。

  五、研究结论

  结论表明,旨在帮助服务员工的人工智能技术可能是一把双刃剑。导师的内部特征和外部辅导环境对他们决定如何利用人工智能辅助以及人工智能辅助如何最终影响学生的学习成绩有不同的影响。这些结果与导师根据利用人工智能辅助的预期收益和成本做出利用决策一致,而不考虑实际收益和成本。

  至此,本次Seminar文章研读完毕。

  之后,由黄思琢、韦玉珍、纪晓媛、翟昊淳分享了最近的研究进展。针对研究中的问题,老师与同学们提出了一些建议,并且明确了进一步的研究计划。

  至此,本学期第11次Seminar圆满结束。

  文字/李彦霓

  排版 /李彦霓

  审核 / 刘冰怡