相关性就是一切吗?了解图像-文本一致性的影响 的深度学习方法

时间: 2025-05-24 19:31:15   阅读:


  2025年5月23日下午六点,中国营销工程与创新研究中心(以下简称“MEI”)2024-2025年第二学期第14次研讨会(以下简称“Seminar”)在MEI如期举行,参与本次研讨会的有黄敏学老师、朱华伟老师及MEI各位成员。

  本次Seminar由廖佐江研读文章:《Is Relevancy Everything? A Deep-Learning Approach to Understand the Effect of Image-Text Congruence》。

图片1.png

  一、研究概述

  在数字时代,越来越多的企业开始采用多模态产品展示, 例如结合图片和文字的方式与消费者沟通。亚马逊在其书 籍在 Twitter 和 Facebook 等社交平台上发布封面图片和简短 描述。品牌在发布内容时,通常会配上图片和帖子。在实 践中,企业往往根据启发式考虑来配对图片和文字。就经 验而言,图片和文字的一致性是越高越好,然而,事实真 的是这样么? 无论是电商平台,电子书平台,还是短视频平台,“封面 欺诈” 的现象都广泛存在,这种图片和文字不一致的内容 似乎也能有着正向的效果

  研究问题:图像和文本如何共同影响消费者的感知和选择?特别 是图像-文本一致性的影响,即不同模态的数据如何整体上与故事 的焦点保持一致。

  迄今为止,图像和两种媒体格式在市场营销研究中大多被单独分析。 对于文本,市场营销研究人员使用实体提取、主题建模和关系提取等方法,研究 了内容和文本情感如何影响消费者偏好(Berger 等人,2020)。 对于图像,已识别出影响消费者信息处理的重要图像特征,包括色彩鲜艳、色彩 构成和表面尺寸等美学特征,以及人类面部是否存在等内容特征(Finn,1988; Pieters 和 Wedel,2004;Wedel 和 Pieters,2008,2015;Li 和 Xie,2020)。 此外,机器学习的最新进展使我们能够以更自动化的方式研究图像。张等人 (2022)利用机器学习进行大规模图像分析,并研究房屋图像如何影响 Airbnb 的 需求。Dew 等人(2022)开发了提取品牌人设标志的算法,这些标志被证明能够 预测消费者对品牌人设的看法。

  市场营销文献尚未系统地探讨图像与文本语义关系对消费者选择的影响。

  二、理论框架

  在少数已有的实证研究中,图像和文本内容之间的契合度通常被报告为对消费者结果产生积极影响。 李和谢(2020)研究了图像和文本内容之间相关性程度如何影响社交媒体用户的互动。他们发现,在 Twitter 上,图像-文本契合度增加,用户喜欢的比例提高了 42.5%。使用酒店预订的背景,范兰帕伊等 (2010)也报告了图像-文本一致性与消费者偏好之间的正相关关系,并表明这种影响是通过信息处理 流畅性中介的。

  有趣的是,李和谢(2020 年)以及范兰帕等(2010 年)都提出了图像-文本拟合效应的潜在边界条件。 与推特上看到的积极效果不同,李和谢(2020 年)在 Instagram 上并未发现此类效果。范兰帕等 (2010 年)指出,信息流畅性的作用是条件性的。在某些情况下,图像与文本的不一致可能会吸引注 意力,暗示“有事情发生”。当这种情况发生时,不一致可能会导致消费者偏好出现积极影响。

  首先,大多数相关研究均基于实验室实验进行,因此需要进行大规模实证研究,以探讨图像-文本一 致性在真实情境中的作用。

  其次,现有研究主要通过二元量表来测量图像-文本一致性,即将一致性视为一致或不一致的整体, 或根据相关性和期待性进行细分。这种粗放的测量方法可能导致对一致性对消费者偏好影响的复杂 关系(如非线性影响)的忽视

  双分支神经网络的架构分析图文一致性

  步骤1:使用嵌入方法从原始数据中提取语义意义。对于图像处理,采用 Wide-ResNet-50-2 嵌入(WRN-50-2)(Zagoruyko 和 Komodakis 2016),该方法基于 ImageNet 预训练, 并对 WRN 方法进行了改进。对于文本分析,采用 BERT,BERT 通过直接从语境中学习来 生成每个单词(或文本片段)的嵌入向量(Devlin 等 2018)。在本研究中,采用基于中文 维基百科的 BERT 预训练(Cui 等 2020)。

  步骤2:将联合处理图像和文本嵌入,以理解这两种媒体模态之间的语义一致性。为了实现 这一目标,将两个模态表示为共同模态(Hardoon 等,2004 年),然后计算它们之间的 (不)相似性。在最后一层的变换之后,两个分支的嵌入结果具有相同的维度。随后使用余 弦相似度来计算模型基于图像-文本一性。

  步骤3:使用人工标注的数据对图像-文本一致性进行建模。

  模型训练流程

  用Python构建了基准模型的完整流程: 中文分词采用Jieba库 LDA模型实现使用Gensim库 线性回归调用Sklearn库 • 本次实验数据配置如下: 训练集:3,700组图文对 测试集:200组 验证集:100组

  为确定最优主题数k并消除LDA随机性影响,在k=10至100区间内进行10次重复实验。以人 工标注作为基准真值,通过无监督余弦相似度方法和有监督线性回归方法,计算各一致性度 量指标的Pearson相关性。 关键发现: 1.不同测试集最高相关性: 1. 余弦方法:约0.30(k=10时) 2. 回归方法:约0.52(k=90时) 2.整体趋势:在几乎所有主题数范围内,有监督模型均显著优于无监督模型,因此采用有监督 学习,采用最小化预测值人工标注标签之间的均方误差来估计模型参数。

  二手数据分析(无模型证据)

  数据集:一家在线阅读公司15966名独立用户消费数据

  通过上述深度学习模型对该公司提供的文字内容与封面进行图文一致性分析

  总体而言,图文一致性高或低的产品有更高的被选择倾向性,而一致性中等水平的产品有 较低的平均消费

  这个结果在控制书的质量、图片特性、文本特性之后仍然存在

  相关性——信息处理流畅性

  相关性定义为与主题意义直接相关的材料。当两个来源含有相关内容时,一个刺激中包含 的信息有助于(而不是分散)另一个刺激中传达的主题或信息。 • 研究表明,当两个刺激高度相关时,它们会引发信息处理流畅性(Hastie,1980 年, 1981 年;Srull,1981 年;Srull 等,1985 年),从而提高消费者偏好。

  意外性——驱动深度信息加工

  意外性,是指不同刺激物中所包含的信息偏离由主题所预设的模式的程度(Goodman 1980,Heller 和 Childers 1992)。当两个信息源具有意外性时,消费者会感知到其中一个 信息源的内容相对于另一个信息源的内容是出乎意料的。

  研究发现,与预期信息相比,出乎意料的信息能够引起注意并导致更深入的信息加工和编 码,从而增强回忆并成为偏好驱动力(Heller 和 Childers 1992,Lee 和 Mason 1999)。

  三、研究假设及模型

  H1:消费者在图片和文字一致性高或低时表现出更强的积极反应

  H2:一致性的影响是通过图片和文字之间相关性和意外性的作用机制实现的

  四、研究概述

图片2.png

  五、实验部分

  实验一

  数据集: 数据集:来自一家领先的 K-12 课外在线课程平台公司的 15,966 名独立用户的随机样本。

  中国 K-12 课外在线阅读平台公司的 15,966 名独立用户的随机样本,以及他们在 中国 K-12 课外在线阅读领先平台公司的 15966 名独立用户及其消费活动,时间跨度为 2019年6月至12月的7个月内的消费活动。

  我们运用之前开发的深度学习模型来预测每个用户的 我们使用之前开发的深度学习模型来预测每个产品的图像-文本一致性,然后根据一致性将产品分成 分为 10 组,其中组 1 对应的一致性水平最低,第 10 组对应的一致性水平最高。最高。在每个同类度组中,我们得到产品的平均 消费发生率,并绘制出 在图中按一致性组别绘制平均值。

  无模型结果: 平均而言,图像-文本一致性高或低的产品具有更高的被选择倾向,而图像-文本一致性中等的产品具有更低的被选择倾向。而图像-文本一致性处于中等水平的产品的平均消费发生率较低。平均消费发生率。

  模型

图片3.png

  控制变量

  图像特征: 图像质量、色彩鲜艳度、

  色彩对比度、色彩色调、色彩亮度、色彩饱和度、 图像对象

  内容和文本特征: 内容质量、文本 长度、文本主题

  结果

  图像-文本一致性系数在所有三个模型中都具有统计意义。在所有三个模型中均有意义,这表明图书封面图片与文字描述之间的一致性 在消费者选择有声读物和电子读物时起着重要作用。在消费者选择有声读物和电子读物时起着重要作用。

图片4.png

  

  Ø  实验二

  实验设计

  要形成因果推论,理想的方法包括两个步骤: (1) 我们在不影响图像或文本的其他特征的情况下操纵图像-文本对的一致性水平 (1) 在不影响图片或文字的其他特征的情况下,操纵图片与文字的一致性水平;(2) 测量一致性水平的变化如何影响消费者的产品选择。一致性水平的变化如何影响消费者的产品选择。

  我们通过重新匹配现有的图片和文字对来操纵一致性水平,而不是修改图片或文字的内容。图片或文字的内容。

  结果

  在控制了所有固定效应后,一致性水平与参与者的选择之间呈 U 型关系。在控制了所有固定效应后,一致程度与参与者选择之间呈 U 型关系。具体来说 当图片和文字的一致性较高或较低时,参与者更有可能选择图片-文字配对。图像和文本之间的一致性高或低时,参与者更有可能选择图像和文本配对。相反 相反,当同一图片(或文字)与另一文字(或图片 图像)搭配出中等程度的一致性时,参与者选择配对的可能性就会降低。

  

  实验三

  来自浏览数据的经验证据

  如果这一假设成立,那么我们就可以预期,消费者在选择图像文本一致性低的产品时,会比选择一致性高的产品花费更多的时间。在选择图像文字一致性低的产品时,消费者会比选择一致性高的产品花费更多时间做出决定。

  方差分析

  总体而言,决策时间确实随着一致性水平的提高而减少。对于图像-文本一致性较低的产品,消费者做出选择所需的时间最长,而对于图像-文本一致性中等或较高的产品,消费者做出选择所需的时间最短。做出选择的时间最长。当图像-文本一致性较低时,信息处理时间明显较长。

  图像-文本一致性低时,信息处理时间明显更长。另一方面,当图像-文本一致性高时,信息处理时间最短。这与信息加工时间随信息流畅度降低而减少的预期是一致的。

  

  实验设计

  本研究招募了亚洲一所研究型大学的研究生参与。

  参与本研究。参与者被要求对我们研究中的所有图像-文本配对的相关性 和惊喜度(即非预期)。观察研究。除了相关性和意外性,我们还测量了消费者的偏好。测量了消费者的偏好。

  不出所料,相关性和惊喜表现出不同的模式。平均相关度随相关度的增加而增加,而平均惊喜度则随相关度的增加而减少、

  平均惊喜度则随着一致性的提高而降低。换句话说 一致性高的产品往往相关性高,而惊喜度低,反之亦然。

  

  

  中介分析

  方法: 在第 1 步中,我们将阅读意向与一致性进行回归,得出总效应。

  得出总效应。第二步,我们在回归中加入相关性(包括线性和二次项)。最后,我们在模型 3 中加入惊喜,在控制了相关性和惊喜之后,评估一致性的直接影响。

  模型 3 评估了相关性和惊喜的直接影响。

  模型 1 的结果证实了 U 型曲线

  模型 2 证明相关性可以部分解释图片-文本一致性的效果,但并不能完全解释一致性效果。

  模型 3 的结果证实,相关性和惊喜完全调解了图像-文本一致性对消费者偏好的影响。

  

  实验四

  深度学习方法的通用性和主要发现

  情境 1:电影

  性能指标表明,我们提出的深度学习方法在预测图像-文本方面具有良好的普适性。

  方法在预测电影场景中的图像-文本 一致性方面具有良好的普适性。

  我们发现了一种 U 型关系,这提供了提示性证据 当电影海报和剧情简介之间的一致性水平较高或较低时,人们对电影的兴趣会更高。

  情境 2:家庭共享

  高相关性表明我们提出的衡量 在电子书和电影情境之外,我们提出的一致性测量方法也能达到合理的性能。

  我们在电子书和电影环境中发现的图像-文本一致性的 U 型效应并没有出现。

  我们在电子书和电影环境中发现的图像-文本一致性 U 型效应,在家庭共享环境中却没有发现。

  六、讨论

  总结

  我们首先应用深度学习模型来测量图像-文本对的语义一致性。我们的方法可输出连续的一致性测量值,从而以可靠和可扩展的方式捕捉图像-文本一致性的变化。

  当产品的封面图片和文字描述之间的一致性较高或较低时,消费者更有可能选择该产品。然而,中等程度的图片-文字一致性与最低的消费者偏好相关,构成了一个 “沉闷区”。

  我们确定了图像-文本一致性对消费者信息处理产生影响的两个基本机制 信息加工产生影响的两个基本机制:(1)当图像和文本之间存在高度相关性时的信息流畅性;(2) 当一种媒体类型的内容出乎另一种媒体类型的内容意料时

  研究局限

  这项研究为消费者信息处理中的多模态刺激文献做出了贡献。据我们所知 据我们所知,我们的研究是首次发现多模态一致与产品选择之间存在 U 型关系的实证研究之一。一致性与产品选择之间的 U 型关系。通过在连续量表上测量一致性,我们报告了一致性的非线性效应,并确定了在哪些方面存在一致性效应。我们报告了一种非线性效应,并确定了预期效应较高的位置,从而丰富了我们对图像-文本一致性影响机制的理解。

  文字/朱伊平

  排版 /朱伊平

  审核 /左  翎