营销工程与创新研究中心

评判性机器人：在线心理健康筛查中的对话代理

时间： 2026-04-06 15:07:34 阅读：次

　　2026年4月1日18：00，中国营销工程与创新研究中心(以下简称“MEI”)2025-2026年第二学期第5次研讨会(以下简称“Seminar”)在MEI如期举行，参与本次研讨会的有黄敏学老师及MEI各位成员。

　　本次Seminar由李可欣研读文章《Judgmental Bot: Conversational Agents in Online Mental Health Screening》。

　　一、 研究背景

　　心理健康危机正成为21世纪的“无声流行病”(Morawska, 2019)。预计到2030年，心理健康专业人员的短缺将极为严重(Larson, 2021)，亟需探索替代性的服务模式。

　　一种前景广阔的方案是利用人工智能驱动的对话代理，如基于文本的聊天机器人(Dahiya, 2017)。在心理健康领域，聊天机器人特别适用于心理健康筛查——即评估个体是否需要寻求进一步治疗。这一流程高度结构化，通常要求用户完成标准化问卷(如PHQ-9)(Auerbach et al., 2007; Nash, 2023)。

　　传统观点认为，由于聊天机器人缺乏个人观点、文化背景和道德标准，用户会认为它们比人类心理健康专业人员更少评判性(Lucas et al., 2014)。这一假设源于心理健康领域的特殊困境：用户因害怕被人类评判而回避沟通(Stiefel, 2018; Waskow, 1963)。然而，作者通过初步观察发现了一个与预期完全相悖的现象：尽管交互方式完全相同，用户反而认为聊天机器人比人类专业人员更具评判倾向。

　　由此引出核心研究问题：

　　当聊天机器人既无个人观点也无道德标准时，为何会被认为更具评判性？

　　二、 文献综述

　　评判性（Judgmentalness）

　　评判性被定义为一种缺乏理解、倾向于批评他人的特质(Stiefel, 2018; Waskow, 1963)，其诱因常与世界观、文化背景和价值观差异相关(Mathieu, 2019; Tran et al., 2019)。

　　核心影响：害怕被评判是寻求心理健康治疗的主要障碍(Gulliver et al., 2010)。当沟通者表现出评判性时，个体会减少自我披露、回避治疗(Daley et al., 2020)。本研究聚焦于用户感知到的沟通者行为的评判性，而非对评判的预期恐惧，并以专业人类医疗提供者为参照点。

　　聊天机器人在心理健康筛查中的应用

　　聊天机器人适合结构化筛查流程(Ghosh et al., 2018; Lee et al., 2017)，在医疗筛查场景中表现与人类相当甚至更优(Ghosh et al., 2018; Lai et al., 2020; Liu et al., 2021)。

　　评判性与污名化：传统观点

　　传统观点：社会文化经验催生价值观差异(Hall, 1976)，引发道德判断(Haidt, 2001)。聊天机器人缺乏这种文化价值观，因此理论上应更少评判性(Aggarwal et al., 2023)，用户向它们披露信息时不易产生羞耻感(de Gennaro et al., 2020)。这一非评判性特质被认为是聊天机器人在医疗健康(Parviainen & Rantala, 2022)、尤其是心理健康领域广受欢迎的关键(Greer, 2019; Harmon, 2021)，也是Replika等应用吸引数百万用户的核心(Medhi Thies et al., 2017; Skjuve et al., 2021)。

　　污名化的作用：对被评判的恐惧与污名化密切相关，是阻碍心理求助的主要因素(Clement et al., 2015)。高污名化个体更可能将照护者视为评判者(Kurzban & Leary, 2001)。由于聊天机器人不受文化规范约束(Greer et al., 2019)，高污名化人群向机器人倾诉时尴尬感更低(Lee et al., 2020; Skjuve et al., 2021)，因此可能更倾向于认为人类更具评判性。

　　聊天机器人被感知为评判性的机制：反直觉视角

　　尽管传统观点认为聊天机器人更少评判性，本研究发现用户反而将其感知为更具评判性，主要源于三大机制：真实生活经验的缺失(缺乏共情基础，Hill & Knox, 2002)、理解能力的局限(仅能表面理解，无法深度理解情感与社会意义，Burton-Jones & Meso, 2008)、验证感的缺失(被倾听与被验证感受降低，Epstein et al., 2007; Wakslak et al., 2024)。综上，评判性源于机器人“不能做什么”，挑战了“聊天机器人天然非评判”的传统假设。

　　三、理论框架

　　H1：感知到的评判倾向会对以下行为意愿产生负面影响：(a)使用筛查服务，(b)公开个人信息，以及(c)遵从代理人的建议。

　　H2: 用户认为聊天机器人比人类客服更少做出评判性判断。

　　H3：污名化效应调节了H2中的关系，即污名化程度的增加会提升人类智能体相对于聊天机器人的感知评判性。

　　一、研究设计

　　Study 1：在线实验

　　目的：验证 H1、H2 和 H3 。

　　设计：300名参与者随机分配至“人类专业人员”或“机器人”组，观看相同的筛查脚本。

　　结果：H1成立：评判性显著降低了所有因变量。H2/H3不成立：反直觉地发现机器人被感知为更具评判性(p=0.007)，且随着污名感增加，这种感知更强。

　　稳健性检验：更换样本源(Prolific, N=1,105)并精简量表，剔除情感支持语句。结果依然支持“机器人更具评判性”的发现。

　　Study 2：定性访谈

　　目的：探索用户为何产生这种感知，提炼理论机制。

　　方法：对41名参与者进行深度访谈。

　　核心发现：评判性被重新定义为“急于做出错误/误导性的判断”(Quick to make misinformed judgments)。

　　提炼的三大路径：1.缺乏真实生活经验：机器人没有焦虑或抑郁的切身体验，无法将患者体验置于情境中;2.理解能力不足：机器人仅有“表面理解”(语义认知)，缺乏“深层理解”(情感、社会意义、默会知识);3.缺乏验证感：用户感觉不到被“真正听见”和“认同”，认为机器的回应是机械的。

　　Study 3：量化验证

　　目的：量化验证 Study 2 提出的中介路径。

　　设计：包含线上样本(3a, N=413)和实验室样本(3b, N=293)。

　　结果：1.证实差异主要由深层理解的缺失和被验证感的不足驱动;2.机器人被显著感知为在表面理解、情感理解和社会意义理解上均弱于人类;3.被验证感的缺失源于机器人无法传达“被听见”的感觉。

　　二、研究启示

　　1.理论启示

　　(1)重新思考评判性：评判性不仅源于“做了什么”(人类的显性批评)，更源于“不能做什么”(机器人无法实现深度理解与验证)。

　　(2)挑战拟人化设计：扩展了 CASA(计算机作为社会代理)范式，证明了即使行为一致，用户对机器人的身份偏见依然会影响语义理解。

　　2.管理与设计启示

　　(1)谨慎部署：心理机构在使用机器人筛查时需警惕用户的负面心理反应。

　　(2)设计优化：不应只追求表面拟人化，而应通过技术手段增强机器人对情感和社会语境的深层理解。

　　(3)人类价值：在 AI 具备真正的人类理解力之前，提供深度验证依然是人类医生的核心竞争力和价值所在。

　　至此，本次Seminar文章研读完毕。

　　之后，由贺光耀分享研究进展，老师与同学们提出了建议，并明确了进一步的研究计划。至此，本学期第5次Seminar圆满结束。

　　文字 /张宇瑄

　　排版 /张宇瑄

　　审核/赵文青

评判性机器人：在线心理健康筛查中的对话代理

热点

TAG标签