用于估计异质性处理效应的深度双重差分法:以内容创作者筛选为例

时间: 2026-04-20 13:58:58   阅读:


  2026年4月14日18:00,中国营销工程与创新研究中心 (以下简称“MEI”) 2025-2026年第二学期第7次研讨会 (以下简称“Seminar”) 在MEI如期举行,参与本次研讨会的有黄敏学老师及MEI各位成员。

  本次Seminar由贺光耀研读文章A Deep-DiD Method to Estimate Heterogeneous Treatment Effects: Application to Content Creator Selection

wps_doc_0.png

  研究背景

  现有研究提出了多种用于估计HTEs的非参数方法。 Farrell et al.(2020)提出了一种基于 DNN 的框架,能够估计非参数个体异质性。受这些研究启发,我们在DiD框架中整合了深度神经网络(DNN)来估计HTEs。

  二、文献综述

  1.基于机器学习的因果推断

  (1)基于机器学习的因果推断方法不仅能够处理高维协变量(Belloni et al. 2017),还能通过估计异质性处理效应来实现最优目标定位(Hitsch et al. 2024)。

  (2)Wager 和 Athey (2018) 提出使用随机森林来估计异质性处理效应。作为该领域近期的一项重要进展,Farrell 等人 (2021) 展示了如何利用深度神经网络(DNNs)来估计因果参数。他们随后进一步将其扩展用于估计异质性处理效应(Farrell et al. 2020)。

  (3)这些机器学习方法的优势在于,它们能够利用高维预处理特征来估计异质性处理效应,但它们无法处理高维固定效应。

  2.涉及异质性处理效应的现代双重差分法变体

wps_doc_1.png

  三、模型构建

  标准的双重差分法设定:

wps_doc_2.png

  如今,越来越多的营销学应用都需要估计异质性处理效应。在双重差分法框架下,关键在于将β(·) 估计为如下方程中 Wi 的函数:

wps_doc_3.png

  本文创新性地将深度神经网络与双重差分法模型相结合,以估计 β(Wi)。我们将这种方法称为 Deep-DiD 方法。考虑了一种更为通用的设定,其中个体固定效应和时间固定效应可能存在交互作用,并由一个通用的函数形式f (μi, τt)来表示:

wps_doc_4.png

  性能检验

  我们通过一系列模拟实验来展示我们提出的 Deep-DiD 方法的性能:

  (1) 我们生成数据 (Wi, μi, τt, Di, At) (i = 1, ..., N, t = 1, ..., T): element in Wi ~ N(5, 3), μi ~ N(0, 5), τt ~ N(0, 1), Pr(Di = 1) = (1 + exp(-∑j(Wij - 5)/J))^{-1}, At = 1 when t ≥ T=2 / At = 0 otherwise, εit ~ N(0, 1);

  (2) 根据假设的函数形式计算 βi = β(Wi) and f(μi, τt) 并根据公式 (3) 计算 Yit。最终生成的 (Wi, Yit, Di, At)(i = 1, ..., N, t = 1, ..., T) 构成了一个面板数据集,用于后续的模型训练和测试。(训练集和测试集);

  (3) 我们将数据随机划分为 80% 的训练集和 20% 的验证集。使用训练集来训练模型,并利用验证集上的均方误差 (MSE) 损失来监控训练进度,以防止过拟合;

  (4) 网络架构与超参数设置: 我们将每个隐藏层的神经元数量设为 32。层与层之间使用 ReLU (线性整流单元) 激活函数,这是神经网络架构中一种常见且有效的选择。我们将批量大小设为 512,训练轮数设为 10。我们使用 Adam (自适应矩估计) 优化器。学习率初始化为 0.001,如果模型性能在连续两个评估周期内没有提升,学习率将减半;

  (5) 训练好的模型本质上为我们提供了一个估计出的 (非参数) 函数 β*(·);

  (6) 评估指标: 采用两个常用的指标来量化两个分布之间的差异:Kolmogorov-Smirnov (KS) 统计量和 Jensen-Shannon (JS) 散度。此外,还使用了第三个指标: 归一化均方根误差 (NRMSE)。通常认为,当 NRMSE < 0.1 时,模型拟合效果极佳。

  五、实证应用

  本文随后将 Deep-DiD 方法应用于一个真实的实证场景,以估计特定干预措施的异质性处理效应。

  1.数据来源

  与一家大型短视频分享平台合作获取数据。

  2.处理

  该平台在南美洲、非洲和欧洲的三个地区推出了“创作者签约计划”。加入该计划后,创作者会根据其当月的表现从平台获得按月支付的报酬。

  3.周期

  2022年5月1日至2022年6月30日。

  4.对照组构建

  在我们的实验设定中,签约创作者与非签约创作者存在系统性差异;即使在干预发生之前,前者的各项表现指标通常也更高。因此,我们基于结果指标的趋势进行匹配,旨在构建一个与处理组具有平行预处理趋势的对照组。

  5.具体步骤

  (1)趋势估计:对于在2022年2月1日至4月30日期间上传了至少五个视频的每一位创作者,我们使用线性回归来估计其各项表现指标的趋势。由于签约创作者的签约日期不同(5月1日之后),而非签约创作者没有签约日期,我们利用共同的时间段(2月1日至4月30日)的数据来估计这些趋势。

  (2)匹配方法:随后,我们进行倾向得分匹配,将估计出的趋势作为匹配变量。

  (3)最终样本:匹配后的数据集包含 2,343 名签约组创作者和 2,343 名对照组创作者。

  6.获取的数据主要包含方面

  创作者特征(包括创作者拥有的粉丝数、关注的用户数,以及创作者的性别、所在国家等);创作产出(例如创作者每日上传的视频数量);视频观看数据(即每个视频的播放量、完播量以及总播放时长);用户互动行为(即每个视频获得的点赞数、评论数、分享数和关注数);视频的多媒体特征(包括每个视频的视觉和音频特征)。

  7.两个关键的绩效指标,

  (1)用户贡献时长:所有观众观看该创作者视频的累计时长;

  (2)用户参与度:该指标通过视频获得的点赞、评论、分享和关注数量来衡量。为了提供一个综合性的参与度度量,我们对这四项互动指标进行了主成分分析,并提取第一主成分作为“用户参与度”指标。

wps_doc_5.png

  主要结果

  (1)DiD 基准分析:签约显著提升了两项绩效指标(系数显著为正) 。

  (2)异质性估计:使用 Deep-DiD 估计出个体层面的βi分布 。

  (3)创作者筛选优化:

  模型筛选 vs 平台筛选:模型筛选出的创作者在“用户贡献时长”上比平台实际筛选出的高出 +57.23%,在“用户参与度”上高出 +122.59% 。

  实际表现验证:在测试集中,模型选中的签约创作者其实际表现增长显著高于未被选中的组 。

  (4)筛选模式差异:人类(平台)倾向于选择粉丝数多的创作者,而 Deep-DiD 能识别出粉丝数较低但处理效应(潜力)较高的创作者。

  六、研究启示

  本文提出了一个Deep-DiD模型,该模型将两种DNN结构整合到DiD框架中以估计HTEs。本文进行了一系列模拟实验,结果表明本文的方法能够高精度地揭示HTEs的真实值。此外,本文将该方法应用于实证环境中,以估计一家大型短视频分享平台推出的“创作者签约计划”的HTEs,并利用估计出的HTEs来优化平台的创作者选择 。

  本文是Farrell等人(2020)提出的基于DNN的异质性架构在真实实证环境中的首次实现。

  本文方法的应用不仅局限于此背景,本文可以轻松调整以适用于其他实证场景,特别是那些拥有丰富数据集的场景,从而估计特定干预措施的HTEs 。

  本文方法的一个局限性在于无法为估计出的处理效应提供标准误。目前尚不清楚估计出的个体层面异质性是否具备传统的一致性(相合性)和渐近统计性质。

  至此,本次Seminar文章研读完毕。

  之后,由孙嘉悦分享AI相关研究方法、理论或行业应用,老师与同学们提出了建议,并明确了进一步的研究计划。

  至此,本学期第7次Seminar圆满结束。

  文字 / 裴珈悦

  排版 / 裴珈悦

  审核 / 赵文青