“双十一”已经走过了13个年头,用户的精细化运营成为了各大品牌寻求业绩增长的重要发力点。通过运用合规手段搜集和清洗用户数据,再经过算法加工形成用户画像,企业可据此设计出针对用户需求精准推送广告和商品的推荐系统,实现所谓的“千人前面”(每个用户看到的购物界面不一样)的目标。
但是这些推荐系统不少都是基于机器学习算法,使用产品评分(即显性反馈)或者点击/购买记录(即隐性反馈)两种形式的用户交互数据进行训练的,但由于消费者在产品接触、购买和发布评分方面的差异,这两种数据都可能存在严重的自我选择偏差。将带有偏差的数据输入推荐系统可能会进一步强化偏差,并导致建立的模型无法有效地预测消费者偏好。
bat365在线平台网站光华管理学院管理科学与信息系统系助理教授王聪及其合作者为此提出了一种旨在去除偏差的推荐系统设计方案,其成果Training Personalized Recommender Systems with Biased Data被第42届国际信息系统会议(ICIS)收录,实验结果表明:
1.该研究所提出的模型在评分去偏的性能上具有优越性;
2.对产品评价高或低的用户倾向于发布评价,而对产品持中性态度的用户发布评价的意愿则较低。由于模型假设缺失的评分往往是较低的分数,该研究所提出的方法更善于消除上偏的评分;
3.通过与其他多种模型的严格对比,在基于误差和基于排名的测度下,该研究提出的方法在用户的评分预测、购买预测方面都优于常用最新模型。
01三种偏差让理解消费者“难难难”
根据消费者决策行为的相关理论,可以归纳出三种类型的自我选择偏差,即接触偏差(exposure bias)、购买偏差(acquisition bias)和少报偏差(under report bias)。
消费者在主动搜索感兴趣的产品时,会有选择地接触不同的产品。根据信息寻求中的选择性接触理论,在决策过程中,人们更倾向于选择性地接触支持其信念、期望的信息环境中,由此产生了接触偏差。换言之,消费者通常选择性地接触部分产品,例如他们以前了解过的产品等。
购买偏差可以用效用理论来解释,它是说消费者只购买在他们购买前评价为正净效用的产品,换句话说,通常观察到的购买数据容易反映出相对较高的效用。因为产品评分更有可能是由对产品满意度较高的消费者评出,从而产生正向的偏差。
少报偏差是由于只有一部分消费者在购买后会提交评分而形成的。根据消费者满意度的经典理论,消费者往往只在满意度非常高或非常低的情况下,才更倾向于透露自己的意见,因此评价会呈双峰分布,中间数据较少。
这三种类型的自我选择行为共同作用形成了被广泛观察到的J形评分分布,这也说明数据存在明显的偏倚,但却常将其作为推荐系统的训练数据。具体来说,消费者购买和评分的整个过程,三种偏差的来源如下图所示。
鉴于上述偏差,将未做处理的数据用作推荐系统的输入是有问题的。然而,目前还没有研究系统地考虑这三种类型的偏差,以设计一个可以全面进行去偏的推荐系统。
02一个好的去偏模型cover掉三种偏差
在推荐系统设计中,自我选择偏差被视为一个非随机数据缺失问题,现有文献主要从联合似然法、插值法和逆倾向评分法三种角度处理推荐系统输入数据的非随机数据缺失问题。
联合似然法构建了一个由数据生成和数据观测两部分组成的概率框架,即推导了数据生成和观测的联合似然后,利用似然最大化估计参数;插值法通过用超参数人为地替换未观测到的评分来填充评分矩阵,然后根据完整的评分矩阵来推断参数并最小化预测误差;逆倾向评分法通过评估评分观察的倾向(或概率)来最小化评分预测误差,但即使有准确的倾向,逆倾向估计工具也可能由于其方差过大而无效。
通过分析消费者在购买和评价阶段的行为,王聪教授及其合作者提出了一个统一的生成模型,系统地涵盖了三种自我选择偏差。该模型优化了基于相关消费者行为理论的评价观测模型,然后推导出生成和观测数据的联合似然,并将期望最大化算法运用于参数推断,同时将计算进行了简化以提高效率。
03为企业提供的启示
该研究收集了来自Yahoo!、Coat和Goodreads三个平台的真实数据,其中排除了自我选择偏差的数据(通过要求Yahoo!用户随机选择一些项目进行体验和评分而获得)。
研究通过大量实验来评估所提出新推荐方法的性能。结果显示,新方法在评分去偏方面的确优于其他基准,在预测评分披露行为、预测购买行为方面同样出色,同时,该方法更善于消除上偏的偏差。可以说,在各种指标上,该研究提出的方法始终优于其他基线方法。
总的来说,在理论上,该研究提出了一个综合的基础评分生成和评分观察过程,并对个性化推荐的基础评分进行了估计,体现了以内核理论为指导的信息技术工具设计的重要性;在方法上,该研究是最早在设计推荐系统模型时同时考虑三种类型的自我选择偏差的研究之一。
本研究为企业提供了一些启示。有了更准确的评分预测机制,推荐系统就可以提供更准确的推荐,这对零售商、消费者以及平台都是有利的。另外,由于多数情况下消费者的偏差是正的,而该研究提出的方法也更适用于始终为正偏差的消费数据,因此该方法可以很好地适应各种场景。
该研究也为今后的个性化推荐工作开辟了新的方向。其一,是在推荐系统设计中进一步考虑其他类型的偏差;其二,未来可考虑开发一个标准化数据集,用于同时评估隐式反馈和显式反馈的去偏效果,其中评论内容也可以作为去偏过程的重要依据。
王聪,bat365在线平台网站光华管理学院管理科学与信息系统系助理教授。于清华大学经济管理学院取得管理学博士学位,曾在Carnegie Mellon University(卡耐基梅隆大学)从事博士后研究工作。主要学术研究聚焦于机器学习、数据挖掘等技术方法与管理问题的交叉点上,根据不同管理问题需求及其数据特点进行相应的分析方法设计,以提供精准高效的解决方案。目前主要关注于电子商务、金融科技、智慧医疗等领域的决策支持方法设计研究。
相关链接:
国潮,真香!
买它买它!电商促销是如何俘获你的 | 光华前沿小课堂