如何看破网购评论陷阱?心理学家教你一招

发布时间:2021-01-12 
文:申思雨
来源:心理测验与评估(ID:gh_391183cc6a43)

想象一下,你将要买一个新的手机,在电商上搜索之后,你锁定了两款价格和性能都差不多的H手机和F手机,它们唯一的区别在于评价分数和评价人数不同,如下图(括号中的数字为评价人数)。

Oops,似乎这两款的评分都不太高,相比之下你更愿意选哪一个呢?

选哪个嘞?(单选)

  • 当然是左边的 H

  • 肯定是右边的 F

这个问题看起来很简单,绝大多数人都会选 H,毕竟它的评价人数多,评价分数也更高嘛 —— 但如果心理学家告诉你,其实选 F 更靠谱,你会不会感到不可思议?

斯坦福大学的Derek等学者依据上百万的商品评价数据,使用贝叶斯算法对消费者的“科学”购买行为建模,得出了上述结论。

评论数量与评价分数

在线上,我们对于商品的选择和质量判断,会更多依赖于商品品牌、详情介绍,尤其是其他消费者的满意度——买家评价的数量和评价的分数。人们都喜欢评论多、评分高的商品,这一般意味着更好的质量和更优的选择。

但另一方面,大量研究证实了在经济决策中,当面对诸如平均值、样本大小等统计线索时,人们经常使用简化的表征或过程来做决定,最后导致并不“科学”的推理和决策偏差。

这种依据评分跟风决策的方式真的“科学”吗?从 Derek 的研究来看,评价有用,但你可能跟错风了。

评价多的质量就高?

研究者从亚马逊上抓取了15,655,439条商品评价数据,对手机及配件、数码商品、健康美容及厨房用品4个品类的356,619种商品进行了分析,并控制了商品价格的差异。

研究使用核密度估计法(kernel density estimation),分别计算了这4类商品平均评价分数(x,取值范围1~5)在不同评价数量(n)上的条件概率。图2为4个商品类别的n值中P(x|n)的估计概率结果,横轴为平均评价分数x,纵轴为评价数量n。

亚马逊评价数据的分析结果

如图所示,评价分数在不同的评价数量中的分布都表现出了一致性——在四种商品类型中,无论评价数量较多还是较少,他们的平均评价分数的概率分布都相对稳定。

也就是说,虽然我们直觉认为好的商品会更受欢迎,但实际上评价分数和评价数量之间的关系并不大,仅仅受欢迎度(即评价数量)并不是有效的商品质量(即评价分数)指标。

反直觉?因为你忽略了评价数量对评价可靠性的影响

研究者使用贝叶斯模型(Bayesian Model)对决策行为进行建模,用样本均值推算整体均值,从评价数据中推断商品的质量。假定θ为总体商品评价的真值,在线评价为该总体的样本,依据样本中商品的平均评价分数(x)和评价数量(n)或P(θ | x,n),估计商品评价的真值(θ,取值范围1~5)。

根据该统计模型,对于商品A(多评价数量)或者B(少评价数量)的选择可以通过比较θA和θB的后验分布计算出来,通过计算P(θA > θB | xA, nA, xB, nB),来确定哪个商品可能会更优质。图3为不同评论量下A商品(评价量多)优于B商品(评价量少)的优势概率,横轴为A商品评分,纵轴为A商品更优质的概率,不同的线型表示A商品不同的评分优势。

评论量多(左图)和评论量少(右图)时A商品优于B商品的优势概率

模型结果表明,样本容量越大,商品评论量越多,A商品的评分优势就越显著,我们越能确信结果的稳定性、越能证明商品质量的好或差;而当评论数量较少时,分数会更容易受到极端数据影响,商品质量的可能性也就越不稳定。

所以,当评价较好时,该模型倾向于选择评价数量较多的商品A(p(A优于B) > .50),当评价较差时,该模型倾向于选择评价数量较少的商品B(p(A优于B) < .50)。

也就是说,当某商品的评价高于平均水平时,评价的人越多,该商品的质量就越可能有保证;但当某商品的评价低于平均水平时,选择评价人数少的商品是更优的决策。

我们都是直觉统计学家——消费者实际决策实验

好啦好啦,我能理解大家对这个结论有意见,再怎么样,不选 H 选 F 也太离谱了 —— 但至少,我们能够达成一个共识,那就是不能只看评价数量,对吧?

接下来是这篇研究的另一部分,也很有趣:研究者从Amazon Mechanical Turk (MTurk) 招募了138名成年人进行实验。该实验包含25组小测试,每组小测试都会向被试展示两款不同的手机,让被试从中选择一款。每款手机都有一个平均评价分数(从1星到5星)和总的评价人数;同一组小测试中两款商品的总评价人数相差125人左右(比如,高评价人数为150人,则低评价人数为25人)。

除了告诉被试两款手机价格差不多之外,没有任何关于手机的详情描述。被试每看一组商品,就需要对商品的购买意愿进行6点的评分(1为更愿购买左侧商品,6为更愿购买右侧商品)。也就是推文开始让大家做的小测试啦。

被试实际上是怎么选择的呢?他们的选择和上一个研究的模型结果大相径庭:总体而言,不论评价分数多少,被试都更偏爱评价数量多的商品,在25种不同条件测试的21种中,大多数参与者都选择了评价更高的商品(符号检测法,p < .01)。

选择评论较多商品的被试比例

研究结果表明,被试偏好多评价数量商品的偏见非常严重。

但事实上,当两个商品的评价都很低时,评价数量越多,数据越稳定,越能确信该商品的质量差;评价数量少时,评分会更多的受极端数据影响,相比之下这个商品反而有更高的优质可能性。

比如,在平均评分为3.1的一对商品中,一个评价量为29,另一个评价量为154,统计模型显示,评价数量少的商品有60%的可能性是更优质的;但实际上,90%的被试却都选择了评论数量更多的商品。

结语

虽然社会学习可以帮助我们通过观察别人的行为快速做决定,但启发偏差(heuristics and biases)常常让我们在疾驰的过程中走上错误的轨道,这种偏差在涉及数字的经济环境中尤为普遍。

所以下次再货比三家的时候,知道怎么选了吧?虽然,这只解决了千千万万个决策偏差的其中一个,人的大脑还有很多漏洞,等待我们慢慢挖掘。

参考文献
Derek Powell & Melissa DeWolf(2017).The Love of Large Numbers: A Popularity Bias in Consumer Choice. Psychological Science 2017, Vol. 28(10) 1432–1442
作者简介:申思雨;编辑:Emeria。本文转载自微信公众号:心理测验与评估(ID:gh_391183cc6a43),北师大心理测验与评估实验室。关注最前沿的心理测评理念与技术,提供最科学的心理测验与评估服务。
排版:小鲸鱼  Bobby
(0)

相关推荐