自然情感检测(NADE):通过表情符号从文本推断情感

时间: 2025-04-11 13:50:54   阅读:


  2025年4月2日晚上6点,中国营销工程与创新研究中心(以下简称“MEI”)2024-2025年第二学期第7次研讨会(以下简称“Seminar”)在MEI如期举行,参与本次研讨会的有黄敏学老师及MEI各位成员。

  本次Seminar由贺光耀研读文章《Natural Affect DEtection (Nade): Using Emojis to Infer Emotions from Text》。

图片1.png

  从社交媒体文本中提取消费者情感,能够帮助企业追踪消费者对品牌/产品/服务的感受并及时作出反应。然而,现有的情感提取工具面临几个限制:词典法受其词典的限制,机器学习模型受人工注释的训练数据的限制,以及大型语言模型受验证和解释性不足的限制。因此,市场研究仍然倾向于仅仅依赖于情感分析(提取文本的情感基调或效价(例如,积极、中性、消极)),而不是从文本中提取更细微的情感。然而,效价并不能说明全部情况,相同效价的情绪不会对消费者行为产生相同的影响。那么,如何克服现有工具的局限性,从社交媒体文本中提取更细粒度的情感呢?

  表情符号(emoji)可以作为隐式人工标记的训练数据,本文引入NADE (Natural Affect DEtection)这一工具,它首先对文本进行“表情符号化”(emojifies),然后将获得的表情符号转化为基于 Plutchik(1980)模型的八种基本情绪

图片2.png

  (二)NADE实现过程

  (1)NADE模型架构

  第一阶段,我们使用多标签分类 (fastText) 并从110M的英文推特文本中预测表情符号,在Unicode v13.0.7中标准化。

  第二阶段包括将预测的表情符号转换为情绪。我们创建了一个 5, 975 × 151 矩阵,使用经过训练的第一阶段模型将每个单词链接到 151 个表情符号。 然后,对于每种情绪,我们使用梯度提升对 “emojified” 单词的词典情绪分数进行回归,从而为 Plutchik 的八种基本情绪中的每一种生成一个模型。

图片3.png

  (2)开发过程

图片4.png

  三.实验设计

  阶段一:从词语到表情符号 (Stage I: From Words to Emojis)

  目的:训练分类器以预测社交媒体文本中观察到的表情符号。

  数据集:来自2018年5月23日至2021年2月8日(在Twitter更名为X之前)的70亿条推文中的一小部分,这些推文没有限制,除了每条文本必须包含至少一个表情符号。为了确保高质量的训练数据,作者清理了数据。

  数据集组成:大约1.1亿条独特的英文帖子,这些帖子(1)不包含任何超链接或媒体,(2)由一个句子组成,(3)包含至少一个来自“笑脸和表情”类别的151个表情符号之一。

  采样与分割:训练集(90%的数据)、验证集(5%)和测试集(5%)。

  建模方法:由于一个句子中可能出现多个表情符号,我们使用多标签分类。一个文本分类器(例如fastText,可以将单词表示为所有子词嵌入的线性组合)使用句子中所有词向量的平均值来预测表情符号。

  结果:如果我们随机预测表情符号,那么在一半的情况下,真实表情符号将占据超过75(151/2)的位置。相比之下,NADE在50%的情况下达到的排名低于20(即中位数)。

  阶段二:从表情符号到情感 (Stage II: From Emojis to Emotions)

  目的:将第一阶段预测的表情符号转换为Plutchik(1980)定义的八种基本情感。

  数据集:来自NRC情感强度词典(EIL)的预标记文本。

  数据集组成:使用众包输入对5,975个英文单词的Plutchik(1980)八种基本情感的强度进行评分。

  建模方法:

  1. 将第一阶段模型的结果与NRC-EIL覆盖的5,975个单词结合起来,以获得NRC单词与所有151个表情符号的关联强度。

  2. 使用其倾向分数作为第二阶段的输入。

  3. 使用梯度提升为每种情感估计一个独立模型,理论上我们也可以扩展情感集。

  结果:

  我们通过基于5折交叉验证的网格搜索分别对每种情感的超参数(例如,树的数量)进行优化(Goodfellow, Bengio, 和 Courville 2017)。然后,我们使用整个训练集重新训练最终模型。在图5中,我们列出了每种情感的前15个表情符号以及模型使用它们的次数,作为区分能力的衡量标准。

  第三阶段:验证

  目的:将我们的模型与人工评分者进行基准比较,然后比较NADE在该任务上的表现与其他最先进的文本到情感转换器的表现。

  样本:2,605条关于标准普尔500公司随机推文的总样本。

  程序:

  1.获得真实值(即人工评分),招募了920名Prolific工人。每位工人对2,605条关于标准普尔500公司随机推文中的25条进行评分。平均每条推文由八名评分者评估。他们使用5点李克特量表对八种基本情感(愤怒、恐惧、悲伤、厌恶、喜悦、惊讶、信任和期待)的情感强度进行标注。

  2.应用最小-最大缩放来标准化所有输出,使其范围在0到1之间,从而在不丢失信息的情况下实现一致性。

  3.计算NADE(或其他工具)与人工评分的一致性,反映三个指标:均方根误差(RMSE)、平均绝对误差(MAE)和余弦相似度(cos θ)。RMSE和MAE指的是真实值(即每条推文的八种情感的平均人工评分)与NADE预测值之间的偏差。

  4.比较人类评分和文本到情感转换器评分中情感强度的分布。

  5.比较与其他转换器的评分。

  结果:

  ①对于RMSE和MAE,较低的值表示更高的准确性。相比之下,对于cos θ,较高的值更受欢迎,因为它们表示预测值与真实值之间的相似性更高。如表所示,我们确认NADE在预测情感强度方面优于其他转换器。

  ②NRC和LIWC相对于人工评分高估了低强度情感,低估了高强度情感,这导致其表现不如NADE。

  ③我们发现NADE的输出与其他转换器的输出之间大多存在正相关,表明在情感强度的测量上存在普遍一致性。

  四、应用部分

  应用1:品牌认知度跟踪

  背景:耐克决定签下科林·卡佩尼克作为广告大使的影响。卡佩尼克公开抗议警察暴力和种族不平等,使这一活动极具争议性。

  数据:2018年9月4日活动公告前后两周内关于耐克的285,839条英文推文。

  步骤:

  使用VADER情感分析计算这些推文的效价分数。

  使用NADE衡量数据集中推文的八种核心情感的情感强度。

  结果:①活动开始时恰逢效价的显著下降;②推文的语气变得更加消极。

  ③图9中更为细致的分析显示,信任感以及喜悦和期待等积极情感显著增强。总体情感性的增强在积极情感方面远比消极情感更为强烈。这一发现与仅关注效价的分析结果相矛盾,后者会使管理者认为消费者对此次广告活动的反应主要为负面。

  应用2:创建具有情感吸引力的社交媒体内容

  背景:展示如何使用NADE设计YouTube视频标题,通过将标题中的特定情感与观众参与度(以视频观看量衡量)联系起来。

  数据:最终样本包括3,966个频道的1,330,531个视频,涵盖观看量、点赞数、不喜欢数、发布日期(从2015年10月至2018年8月)和标题(有关描述性统计,请参阅网络附录E)。

  步骤:

  应用NADE推断视频标题的情感强度。我们还使用LIWC-22提取额外的语言维度以调整潜在的混杂因素。

  估计以下模型:

  ln(Views) 是视频i的观看量的对数转换值。

  Nade 是一个向量,包含从视频i标题中提取的八种核心情感e的强度,以及焦虑(不是八种核心情感之一,但我们从期待和恐惧的交互中得出)。

  VideoControls 是一个向量,包含视频特征(点赞数占总和的比例、视频发布后的周数)。

  TextControls 是一个向量,包含从LIWC-22中提取的22种语言特征。

  ChannelMonth 是一个向量,每个频道ID和月份组合的虚拟变量,其中月份指视频发布的月份(1表示该频道在该月发布了视频,0表示未发布)。

  结果:模型1的结果显示,积极语调与观看量无显著关联,而消极语调的关联显著且为正。模型2澄清了同效价情感的系数具有不同的符号。对于消极情感,愤怒和焦虑的系数显著且为正,而悲伤和厌恶的关联不显著。这些发现突出了包含更细微情感的价值。

  应用3:利用在线评论中的情绪预测需求

  背景:将NADE应用于亚马逊在线评论数据,以预测需求并预测书籍的成功。

  数据:1996年5月至2018年10月期间发布的2.33亿条亚马逊评论(Ni, Li, 和 McAuley 2019)。从完整数据集中,我们抽取了5,000本书,这些书共积累了超过660万条评论。在这些数据中,63.6%的评论为五星评级,四星、三星、二星和一星评级分别为20.6%、8.5%、3.8%和3.4%。

  步骤:

  1.使用NADE提取所有660万条评论的情感强度,我们可以分析评论中实际出现的细微情感,从而更好地预测产品成功,我们将产品成功定义为每本书的验证购买数量。

  2.使用四组预测变量:

  (1)产品控制变量(四个特征:平均星级评分、星级评分的标准差、平均评论长度和产品年龄);

  (2)NADE对八种核心情感和24种额外情感(反映它们的交互,即Plutchik的二元组)的情感评分;

  (3)NADE第一阶段的151个表情符号预测;

  (4)从其他文本工具(包括评估词典、LIWC和VADER)中提取的126个文本特征(有关详细信息,请参阅网络附录E)。

  3.使用Lasso回归预测每本书的销售数量的对数转换值;它既有助于正则化,也有助于特征选择(Hastie, Tibshirani, 和 Friedman 2017)。

  4.为了降低过拟合的风险,我们应用10折交叉验证,系统地将数据分为十个子集,其中九个用于训练,一个用于验证,依次进行。

  5.我们报告了三个样本外预测性能指标:交叉验证中解释的方差(VEcv;表示模型捕捉到的方差比例)、皮尔逊相关系数(γ;预测值与观测值之间的相关性)和预测误差(即RMSE)(Luangrath, Xu, 和 Wang 2023)。

  结果:NADE在预测性能上优于其他文本工具(包括它们的情感测量)。在特征重要性方面,我们发现NADE的情感和表情符号评分位居前列。

  1.对营销人员的启示:营销人员可以以多种方式利用NADE

图片5.png

图片6.png

  2.对研究人员的启示

  研究人员可以利用NADE提供的三个主要贡献:

  首先,它使营销研究人员能够扩大研究规模,即使预算有限。这种资源的民主化支持更广泛地参与高水平研究,而无需大量资金。

  其次,无需高深的编程技能即可进行推理,这是另一个主要优势。像LIWC这样的商业工具也提供这种能力,但NADE在更细微的情感分析方面提供了这种能力;它还是完全免费的。因此,我们希望它能为那些可能因财务或技术障碍而却步的研究人员打开新的大门。

  第三,用于R和Python的编程包允许研究人员将NADE扩展到其他语言或其他表情符号(通过重新训练第一阶段的单词到表情符号映射)和情感理论(通过重新训练第二阶段的表情符号到情感映射)。

  我们还希望表6中的应用议程将激发情感测量在营销中的更高级、扩展的应用。

  3.局限性和未来研究

  尽管我们提供了使用表情符号作为中介的许多优势的论据和证据,但我们仍然缺乏对人们在交流中如何使用表情符号以及这些用法如何随时间变化的精确理解(Pei和Cheng 2022;Barbieri等人2018)。

  文字 / 鲁欣雨

  排版 / 鲁欣雨

  审核 / 左翎

图片4.png