人机议价:通过算法拟人构建人工智能超级议价者

时间: 2026-04-12 10:26:10   阅读:


  2026年4月7日18:00,中国营销工程与创新研究中心 (以下简称“MEI”) 2025-2026年第二学期第6次研讨会 (以下简称“Seminar”) 在MEI如期举行,参与本次研讨会的有黄敏学老师及MEI各位成员。

  本次Seminar由李云芝研读文章Bots Bargaining with Humans: Building AI Super-Bargainers with Algorithmic Anthropomorphization

wps_doc_0.png

  一、研究背景

  ● AlphaGo vs.商务谈判:2016年 AlphaGo 击败李世石,让全人类感受到了算法绝对理性的恐怖。但在商业世界里, 谈判不仅仅是下棋。如果一家公司派出一个几秒钟就能看穿你所有底牌、出价极其机械且毫不退让的AI跟你砍价, 你的第一反应是什么?

  ● 算法厌恶:研究表明,人类并不想和“外星人”做生意。这种过于冷血的效率会让人感到被算法剥削,从而引发强烈的防御心理,甚至导致本该达成的合作直接破裂。

  ● 反转:那么,如果这个AI没那么强势,而是“绝对理智 呢?

  这个程序有个致命的弱点——它是纯粹的理性经济人。它算准了: 只要能获利,哪怕只赚一分钱,也比谈崩了赚零元要好。所以它总是在截止时间的最后一秒,无奈地接受你提出的任何过分要求。这种完美理性在人类看来其实非常假,而且极其容易被预测。

  研究缺口(GAP) :现有文献多关注AI的效率,却忽略了竞争场景下,AI的“机械感”引发的算法反感。

  GAP:以往的研究总是在说AI多么高效省时,但作者指出,谈判是一个充满矛盾的灰色地带--它既需要协作达成共识,又存在零和博弈的对抗。目前的AI往往只学会了算账,却丢掉了人情。这种机械感引发了严重的算法反感Algorithm Aversion,不仅伤钱,更伤感情。

  Q:能否构建一种既能高效获利,又具备“策略拟人化”特征的超级机器人,让它在谈判中骗过人类的防御心理?

  讨论的核心:如何构建一个既能赚钱,又能像人一样思考、甚至会‘耍点小脾气来保护自身利益的超级谈判官?

  二、文献综述

  1.现实背景

  Ø AI谈判的现状:主要企业(如沃尔玛、Lindy)已开始使用 AI 自动化采购和合同谈判 。

  Ø 效率优势:AI具备高理智度、无情感偏见、可大规模并行处理等特点 。

  Ø 痛点:谈判不只是为了钱,还是为了“情” 。过度关注经济收益的AI可能会破坏长期客户关系 。

  2.算法厌恶

  人们即使看到算法表现优于人类,也往往更排斥算法的建议 。

  Gap:以往研究多关注目标一致(如预测、诊断)的场景,本研究首次切入具有对抗性的谈判场景 。

  主观价值评估 (SVI - Subjective Value Inventory):谈判的成功不能仅看金钱产出,还要看参与者对过程、关系、自我表现和结果的心理满意度 。这些主观评价会影响未来是否愿意继续谈,以及后续谈判结果 。

  关键点:主观价值是长期合作关系的预测指标 。

  3.拟人化的阶梯

  Ø 表面拟人化 (Superficial):改名字、换头像 。文章认为这在谈判场景中是远远不够的 。

  Ø 算法拟人化 (Algorithmic):本文核心贡献 。目标不是看起来像人,而是行为轨迹像人 。指AI在策略逻辑、出价节奏上模仿人类,从而通过行为图灵测试 。

  4.技术路线与模型逻辑

  l LSTM 序列建模:由于谈判是动态的时间序列,每一招都受前一招影响,因此采用LSTM 网络捕捉上下文 。

  l GAN 框架 (猫鼠游戏):Earner (生成者):通过强化学习优化收益,同时被要求行为得像人 。Judge (判别者):负责识破谁是

  l 目标函数:$Reward = \text{经济收益} + (1 - \lambda) \times \text{欺骗成功率}$

  l 三种机器人基准 :

  PRIMITIVE:纯粹模仿者——原始型ai(复刻人类的非理性和错误) 。

  EFFICIENT:纯粹获利者——高效性ai(冷血理性的极端) 。

  SUPERHUMAN:平衡者——超级人类型ai(既要钱,也要像人) 。

  5.假设推导

  人机隔阂 (H1, H2, H3) :

  直觉:和AI谈判总觉得心里不舒服,评价肯定比和人谈要低 (H1) 。

  传统手段:既然觉得AI冷冰冰,那给它取个名字、换个真人头像,表面拟人化行不行?

  作者认为这能让AI看起来像人 (H2),从而提高评价 (H3) 。

  三种AI对比 (H4-H8):为了验证什么样的AI最厉害,作者设计了三个机器人 :

  PRIMITIVE 原始型:纯粹模仿人类 。人类有什么毛病比如冲动、不理智,它就有 。预期:它能骗过人类(能通过图灵测试,H4) 。

  EFFICIENT 高效型:满脑子只有钱 。只要能赚更多,怎么出招都行 。预期:它比原始型赚钱多 (H5),但看起来不像人 (H6) 。

  SUPERHUMAN 超人型:本文的主角 。既要赚钱,又要像人 。预期:比原始型赚钱多 (H7),比高效型更像人 (H8) 。

  知识自信通过该领域的主动参与和学习而发展。(Hoch and Deighton 1989).

  提升此类知识的主要方法包括浏览文献库并探索多种内容。 (Clarkson, Janiszewski, and Cinelli 2013).

  6.实证模型

  H1:产品类型(低科技vs高科技)会影响公司规模(大vs小)与质量推断间的关系。具体而言,消费者会推断大公司的 高科技产品质量比小公司好;消费者会推断小公司的低科技产品质量比大公司好。

  H2:产品类型对公司规模与质量推断间关系的影响由两种常人理论可及性中介。具体而言,当消费者对看似低技术 (vs高技术)的产品进行评价时,内在动机常人理论可及性更高,从而导致消费者推断大公司生产的产品比小公司生产的同类产品 质量低,并降低大公司生产的低技术产品的选择份额。反之,当消费者对看似高技术(vs低技术)的产品进行评价时,财务资源常人理论可及性更高,从而导致消费者推断大公司生产的产品比小公司生产的同类产品质量高,并提高大公司生产的高技术产品的选择份额。

wps_doc_1.png

  三、研究框架

wps_doc_2.png

  研究设计

  (一)研究1——效率悖论(详细模拟实验)

  目标:校准“智能”与“人性化”之间的最佳平衡点。 

  实验设置:通过5000次高仿真度人类模拟器对比模拟实验。 

  实验设计:对比5种版本:基础版(模拟型)、高效版(收益最大化)及3种超人类版本(不同 λ 参数)。 

  核心流程:追踪接近“8.5秒截止时间”的竞标序列。 

  研究结果:纯效率型机器人因机械一致性导致盈利模式显而易见,易被人类玩家利用;超人类机器人则通过“策略性延迟”策略保护自身利润空间。

  (二)研究2——人机交互(主实验)

  目标:测试机器人在涉及人类利益的真实对抗性场景中的表现。 

  受试者:来自Prolific Academic平台的1,019名多样化参与者。 

  设计:5种机器人版本×2种身份披露方式(公开身份 vs. 隐藏身份)。 

  流程:围绕“蛋糕”(价值0-1美元)进行非结构化连续时间博弈。每位参与者完成20轮游戏。 

  关键细节:“知情玩家”(机器人)知晓实际蛋糕价值;“不知情人类”需通过机器人行为推断蛋糕价值。

  (三)研究3 ——突破图灵测试(结果)

  目标指标:这款超级智能机器人实现的收益比真实人类玩家高出约20%。 

  图灵突破:在盲测中,该机器人在“类人表现”维度获得4.11/5分,显著高于真实人类玩家的3.40/5分。 

  原因:它比人类更精准地模拟了人类的“坚韧”与“犹豫”特质——在压力下容易过早妥协。

  五、研究启示

  (一)、理论贡献

  1. 将拟人化重新定义为行为策略而非视觉美学。

  2. 引入生成对抗网络(GAN)框架作为竞争性营销场景中实现“人机协同”的工具。 

  (二)、管理启示 

  1.关键绩效指标(KPI)提示:

  管理者不应仅关注“单笔交易利润”,还需追踪 SVI(主观价值评估体系),以避免长期合作关系受损。 

  2.设计建议:

  开发AI机器人时,应将“人性化特质”(如延迟响应、公平性机制)作为战略资产进行编程,而非将其视为低效环节予以舍弃。

  (三)、未来研究方向

  1. 关系持久性:在人类需要数月时间学习的多轮互动关系中,这些机器人表现如何?

  2. 文化差异:美国的“类人”机器人是否需要与日本机器人存在不同的战略特性?

  3. 伦理规范:随着机器人逐渐具备“超越人类”的智能水平,我们应如何防止其演变为具有掠夺性或操纵性谈判能力的智能体?

 

  至此,本次Seminar文章研读完毕。

  至此,本学期第6次Seminar圆满结束。

  文字 / 赵文青

  排版 / 赵文青

  审核 / 赵文青