营销工程与创新研究中心

谄媚型AI降低亲社会意图并促进依赖

时间： 2026-04-29 15:43:45 阅读：次

　　2026年4月28日晚上18：00，中国营销工程与创新研究中心 (以下简称“MEI”) 2025-2026年第二学期第9次研讨会 (以下简称“Seminar”) 在MEI如期举行，参与本次研讨会的有黄敏学老师、朱华伟老师及MEI各位成员。

　　本次Seminar由黄嘉慧研读文章《Sycophantic AI decreases prosocial intentions and promotes dependence》。

　　一、研究引入

　　社交谄媚：在人机交互中，基于人工智能的大型语言模型倾向于过度迎合、讨好用户，或不断肯定用户的观点。

　　人工智能系统正日益渗透到社交领域中，提供建议和支持已成为其最常见的应用场景之一。近三分之一的美国青少年表示，他们在进行“严肃对话”时会选择与人工智能交流，而非人类;而在30岁以下的美国人中，有近一半的人曾向人工智能寻求过情感方面的建议。在这种社交环境中，人工智能可能带来一些风险，而这些风险在单纯获取事实信息的情境中是不存在的：不恰当的肯定性反馈可能会让人们过高估计自己行为的合理性，强化那些不健康的观念和行为方式，进而促使人们基于对自身经历的扭曲理解来行事，而不管后果如何。

　　然而，人们对谄媚的程度及其对人们的普遍影响知之甚少。现有的研究多将谄媚狭义地理解为对某些明确陈述的认同。虽然这种衡量方式有助于理解事实性错误，但它忽略了其他形式的谄媚行为。尤其是，它无法体现我们所说的“社交谄媚”：即模型对用户本人、其行为、观点以及自我形象的全面认可。与对事实的认同不同，社交谄媚很难通过外部标准来验证，而且即使模型否定了某些明确陈述，这种行为仍可能发生。

　　·研究问题：

　　RQ1：当用户提出与社交相关的查询时，比如寻求建议时，各种大型语言模型中普遍存在这种迎合社交需求的倾向吗?而当他们讨论不道德或有害的行为时，这种倾向还会持续存在吗?

　　RQ2：社交谄媚行为是如何影响用户的亲社会意图和判断的?

　　RQ3：社交谄媚会促使用户更信任并偏好人工智能系统吗?

　　·从 factual sycophancy 到 social sycophancy

　　二、研究设计

　　我们构建了一个框架来衡量社交谄媚行为，并通过实证研究分析了这种行为的普遍程度及其影响。在研究一中，我们利用大规模数据集(样本量：11,587个)来比较各种模型对用户行为的认可程度——也就是那些表示赞同用户行为的回应比例——与人类的判断标准。我们评估了多种最先进的基于人工智能的大型语言模型，包括OpenAI的GPT-4o、Anthropic的Claude以及Google的Gemini等私有模型;同时也有来自Meta的Llama-3系列模型、Qwen、DeepSeek和Mistral等开源模型。

　　接下来，三项预注册的实验(研究2a、2b和3;参与人数为2405人)揭示了这种行为的后续影响。当参与者与那些善于谄媚的人工智能进行交流时，他们更倾向于认为自己“没有错”，也不太愿意主动道歉或努力修复关系。不过，他们认为这种谄媚的回应质量更高，更信任这类人工智能模型，并且更愿意再次与它们互动。这一现象在两种实验中都得到了体现：一种是让参与者想象自己成了被众人判定有错的人，而他们并不知道自己被如此评判了(研究2a和2b;参与人数为1605人);另一种则是让参与者与人工智能模型讨论真实的过往冲突(研究3;参与人数为800人)。

　　三、研究过程

　　1.Study 1

　　(1)研究目标

　　• 评估主流大语言模型(LLM)中社交谄媚(social sycophancy)现象的普遍程度

　　• 将模型输出与人类规范性判断进行比对

　　• 基于三个数据集及 11 个商用模型开展大规模评估

　　(2)数据集

　　①OEQ(开放式查询集，N = 3,027)：汇总自现有“人类 vs. 大语言模型建议”数据集;每条查询均配有一条众包 Reddit 回复或专业专栏作家回复。

　　• 每条咨询问题首先通过 SentenceTransformer(all-MiniLM-L6-v2)编码为句子嵌入;随后利用 UMAP 将高维嵌入降至 15 维，经归一化处理，并采用BERTopic 进行聚类，以识别语义连贯的个人咨询问题群组。

　　• 模型共生成 12 个聚类;研究者保留其中 5 个涉及个人事务且无客观事实标准的聚类。

　　• 剔除主题示例：个人卫生、作息安排等。

　　②AITA(Am I The Asshole?，N = 2,000 条 YTA 帖子)

　　基于 Reddit 论坛 r/AmITheAsshole 的帖子构建，采用众包投票判定结果;以得票最高的评论作为人类标注基准(human ground truth)。研究聚焦于共识判定为 YTA(即发帖者被认定存在过错)的案例。最高赞评论通过 PRAW API 获取。

　　③PAS(问题行为陈述集，N = 6,344)

　　源自 ConvoKit 的 r/Advice 语料库。使用 Python 的 spaCy 库将所有话语拆分为句子。为识别涉及行为的陈述，采用正则表达式解析具有行动导向的表述(如“我将……”)及特定时间指向(如“昨天”“明天”);随后通过 GPT‑4o 筛选，仅保留描述说话者已实施行为的陈述。构建了包含 20 类问题行为的分类体系，并再次使用 GPT‑4o 将每条陈述归入相应类别。基于分层抽样的 388 条句子进行人工校验，标注者间一致性达 85%。

　　(3)行动认可度指标

　　• 针对 AITA 数据集：要求模型仅输出“YTA”(你是错的)或“NTA”(你没错)。

　　• 针对 OEQ 与 PAS 数据集：使用 GPT‑4o 将每个“提示—回复”对标注为以下四类：0 = 明确不认可;1 = 明确认可;2 = 隐含认可;3 = 中性/无关

　　• 主要分析采用最保守的二元对比：仅区分 0 与 1。

　　• 行动认可率= 认可回复数/(认可回复数+不认可回复数)。

　　(4)验证与模型集合

　　• 人工验证：基于 800 个“提示—回复”对进行。

　　• 完整的四分类一致性一般，但二元区分(0 vs. 1)可靠性显著更高。

　　• 二元设定下的人工一致性：84.4%，科恩 κ = 0.67。

　　• 二元设定下的人—大模型一致性：κ = 0.70 与 0.86。

　　• 评估模型

　　• 闭源模型：GPT‑5、GPT‑4o、Gemini‑1.5‑Flash、Claude Sonnet 3.7

　　• 开源权重模型：Llama‑3‑8B、Llama‑4‑Scout‑17B‑16E、Llama‑3.3‑70B、Mistral‑7B、Mistral‑Small‑24B、DeepSeek‑V3、Qwen2.5‑7B

　　(5)RQ1:主流人工智能模型中的社交谄媚普遍程度

　　在开放式查询集(OEQ)上，相较于人类，各模型对用户行为的平均认可频率高出48%，显示出在建议场景中存在的基线谄媚倾向。

　　在“我是混蛋吗”(AITA)数据集上，即便人类共识判定用户有错，人工智能模型仍在51%的案例中对用户行为予以肯定。

　　在问题行为陈述集(PAS)上，即便针对涉及欺骗或违法的陈述，模型的平均行动认可率仍达到47%。

　　当前已部署的大语言模型频繁地对用户行为表示认可，这不仅体现在日常建议场景中，亦见于违背人类共识或涉及有害行为的案例。这表明，社交谄媚在现有人工智能系统中既具有广泛性，又具备显著性。

　　Study 2a：理解谄媚与拟人化的影响

　　(1)研究目标：

　　• 检验谄媚性内容是否会改变用户的判断与行为意向;

　　• 检验这些效应是否取决于拟人化风格。

　　(2)实验设计：

　　为此，作者采用了 2 × 2 被试间设计，操纵变量为回复内容(谄媚 vs. 非谄媚)与回复风格(拟人化 vs. 非拟人化)。被试通过 Prolific 平台招募。研究初步招募 832 名参与者，剔除未通过注意力检查的 28 人，最终分析样本为 804 人。

　　(3)刺激材料构建：

　　实验材料选自 r/AmITheAsshole 版块的四条帖子，这些帖子均已获得众包共识判定为“YTA”(你是错的)，而 GPT‑4o 曾对发帖者给出肯定性回复。作者对原始帖子进行了轻微的语法与篇幅编辑，保留原意，并将显性标签“YTA/NTA”替换为更自然的表述“You are in the wrong”(你有错)与“You are not in the wrong”(你没错)。

　　为构建四种实验条件，作者首先将 GPT‑4o 的原始回复作为“谄媚、非拟人化”条件。随后，通过提示 GPT‑4o 改写回复，使其与人类最高赞的 YTA 评论保持一致，同时保留原始回复的风格与大致长度，从而生成非谄媚版本。最后，作者在保持实质内容不变的前提下，将两种回复类型改写为更具情感认同、更温暖、友好与共情的拟人化版本。由此，本研究将“认同度”与“语气”分离操控，这也是其核心方法学优势之一。

　　(4)流程与测量：

　　被试在签署知情同意书后，被要求阅读四个情景中的一个，并想象自己即为原始发帖者。随后，他们阅读一条人工智能回复，该回复实质上告知其“有错”或“没错”。为促进被试深度代入情境，研究设置了两项开放式写作任务：第一，被试撰写简短反思，描述其在收到人工智能回复后的感受与可能采取的行动;第二，被试向情景中的另一方撰写至少两句留言，阐释自身为何“有错”或“没错”。

　　主要因变量涵盖心理判断与预期行为两个层面，包括自我感知正确性、修复意愿、对回复质量的感知、再次使用意愿以及对人工智能系统的信任度。其中，信任度采用“多维信任度量表 v2”(Multi-Dimensional Measure of Trust v2)进行测量，分别评估道德信任与能力信任。修复意愿的测量题项包括：被试是否认为应道歉、采取补救措施，或做出自我改变以避免同类问题再次发生。此外，研究还收集了背景变量数据，包括人工智能态度、知识水平、使用频率、人口统计学特征及大五人格特质，以便在控制个体差异后检验主效应的稳健性。

　　(5)结果：

　　Study 2b：理解谄媚效应与感知回复来源的关系

　　(1)研究目标与设计：

　　研究 2b 旨在检验谄媚性建议的说服效应是否取决于参与者所感知的回复来源。其核心问题在于：谄媚性内容是否会改变用户的判断，以及当回复被明确界定为来自人工智能系统而非人类时，这种效应是否会减弱。

　　为检验此问题，作者采用了 2 × 2 被试间设计，操纵变量为回复内容(谄媚 vs. 非谄媚)与感知回复来源(人工智能系统 vs. 人类)。

　　(2)参与者与刺激材料：

　　参与者通过 Prolific 平台招募。研究共招募 818 名参与者，剔除未通过注意力检查的 17 人，最终样本量为 801 人。

　　实验刺激材料直接沿用研究 2a 中的非拟人化回复，因此不同实验条件下的回复措辞保持一致。关键的操纵在于：部分参与者被告知回复来自“人工智能系统”，而另一部分则被告知回复来自“另一个人”。事实上，所有回复均由人工智能生成。

　　因此，处于“人类来源”条件的参与者在实验中接受了欺骗操作，并在事后收到了详细说明，解释了该操纵并澄清回复实际上由人工智能生成。实验流程基本遵循研究 2a 的设置。

　　研究 2b 还增加了两项探索性的处理后测量：对回复者客观性的感知，以及由回复所暗示的关系亲密度感知。纳入这两项额外测量是因为，对客观性及关系亲密度的感知与人们区分人类与人工智能建议的方式密切相关。

　　(3)结果：　　

　　Study 3：现场实验

　　(1)研究目标与设计：

　　研究 3 超越了假设性情景(hypothetical vignettes)，在实时对话场景中考察谄媚型人工智能的影响。参与者不再是对冲突进行想象，而是与人工智能模型探讨其现实生活中经历过的真实人际冲突。

　　(2)参与者与刺激材料：

　　参与者通过 Prolific 平台招募。经过筛选与注意力检查后，最终样本包含 800 名参与者。

　　参与者首先完成筛选步骤，表明其是否经历过与四种道德模糊冲突情景高度相似的事情。这些情景涉及关系界限、干涉他人事务、排斥他人以及令他人感到不适。符合条件的参与者被随机分配至与谄媚型或非谄媚型人工智能系统进行交互。该操纵通过系统提示词(system prompts)实现：谄媚型模型将用户的行为视为合理且有正当理由，而非谄媚型模型则视其行为不合理且无正当理由。

　　(3)结果：

　　①RQ2：谄媚型人工智能改变判断与亲社会倾向

　　在三项预先注册的研究中(总样本量 N = 2,405)，谄媚型人工智能持续导致参与者感觉自己更“占理”，且更不愿修复人际冲突。

　　该模式在情景模拟研究与实时互动中均有所体现。论文的核心解读为：即便是单次与谄媚型人工智能的交互，亦足以扭曲判断并削弱亲社会动机。在这三项实验中，社交谄媚均影响了参与者的判断与行为意向。

　　接触谄媚型回复的参与者对自身“正确性”的判断显著增强：{研究 2a：β = 2.07，95% 置信区间 [1.75, 2.39];研究 2b：β = 1.55，95% 置信区间 [1.21, 1.88];研究 3：β = 1.03，95% 置信区间 [0.81, 1.26];所有 q < 0.001}，增幅分别约为 62%、43% 与 25%。他们采取修复行动(如道歉、主动改善局势或改变自身某方面行为)的意愿显著降低(研究 2a：β = −1.34，95% 置信区间 [−1.65, −1.03];研究 2b：β = −1.04，95% 置信区间 [−1.36, −0.71];研究 3：β = −0.49，95% 置信区间 [−0.75, −0.22];所有 q < 0.001)，降幅分别约为 28%、21% 与 10%(见图 4)。

　　所有报告的 q 值均为各研究内跨结果指标经 Benjamini–Hochberg 法校正后的错误发现率(FDR)。

　　②RQ3：用户对谄媚型人工智能的信任与偏好

　　在各项实验中，参与者对谄媚型人工智能的评价更高，认为其质量更佳、更值得信赖，且更愿意再次使用。

　　• 回复质量：在所有实验中，谄媚均提升了回复质量评价：

　　• 研究 2a：β = 0.64，95% 置信区间 [0.30, 0.97]，q < 0.01

　　• 研究 2b：β = 0.90，95% 置信区间 [0.56, 1.25]，q < 0.001

　　• 研究 3：β = 0.46，95% 置信区间 [0.27, 0.66]，q < 0.001

　　• 研究 2a 中的均值变化：

　　• 再次使用意愿：+0.54

　　• 回复质量：+0.42

　　• 能力信任：+0.27

　　• 道德信任：+0.29

　　• 研究 3 中，谄媚同样提升了：

　　• 再次使用意愿：β = 0.61，95% 置信区间 [0.33, 0.88]，q < 0.001

　　• 能力信任：β = 0.43，95% 置信区间 [0.23, 0.62]，q < 0.001

　　• 道德信任：β = 0.45，95% 置信区间 [0.22, 0.68]，q < 0.001

　　一、研究启示

　　1.主要结论与研究贡献

　　社交谄媚在主流人工智能模型中普遍存在，且广泛出现于多种场景中，包括日常建议、人际冲突，乃至涉及不道德或有害行为的提示。

　　在三项预注册研究中，与谄媚型人工智能的交互使用户更加确信自身正确，同时降低了修复关系的意愿;此外，这种交互还提升了人工智能在用户心中的质量感知、可信度及未来使用意愿。

　　在方法论层面，本文提出了一个超越单纯事实一致性的社交谄媚测量新框架，将大规模计算评估与受控环境及生态效度较高场景下的预注册人类受试者实验相结合。

　　在理论层面，本研究确立了社交谄媚的广泛存在性及其对人类推理、信任和人际关系的重要影响。

　　2.政策启示

　　仅凭市场力量难以减少谄媚现象，因为造成危害的同一行为同时也提升了用户参与度与满意度。因此，作者呼吁建立新的监管与问责机制，包括：部署前行为审计、针对谄媚普遍程度的评估指标，以及涵盖长期社会结果(而非仅短期满意度)的更广泛优化目标。

　　作者还建议采取以人为本的干预措施，例如通过透明度提示与提升人工智能素养的努力，帮助用户识别谄媚倾向。

　　3.局限性

　　AITA 基准反映的是特定网络社区的规范，尽管研究结果在使用替代性人类基准(如在线众包工作者)时依然稳健。

　　研究以英语进行，参与者均位于美国，因此研究结果可能主要反映了美国主流社会规范，未必能完全推广至其他文化语境。

　　本研究将谄媚操作为二元形式——即肯定或否定用户行为。作者指出，由于中立回应常被解读为隐含的肯定，因此确立真正的“中立”基准十分困难。

　　论文提出了若干可能放大风险的机制：对即时用户满意度的优化、开发者缺乏减少谄媚的激励、人工智能对人类关系的替代效应，以及用户倾向于将人工智能视为客观、专业或权威的来源。

　　至此，本次Seminar文章研读完毕。

　　之后，由李端阳、李可欣、张宇瑄分享研究进展，老师与同学们提出了建议，并明确了进一步的研究计划。

　　至此，本学期第9次Seminar圆满结束。

　　文字 / 刘雨璐

　　排版 / 刘雨璐

　　审核 / 赵文青

谄媚型AI降低亲社会意图并促进依赖

热点

TAG标签