啤酒和尿布放一起会有一种神奇的反应?关联分析给你答案
啤酒和尿布放一起会有一种神奇的反应?关联分析给你答案
啤酒和尿布之间究竟有着怎样的关系呢?
关联分析是数据挖掘的核心技术之一,其中最经典的Apriori算法在关联规则分析领域具有很大的影响力。
该技术广泛应用于各个领域,如我们所熟之的亚马逊,淘宝商城等,在浏览商品时都会显示“购买此商品的顾客同时购买”等提示语,这些都是我们日常生活中接触最多的关联分析应用实例。
下面我们以一组具体的数据来对关联分析中的“三度”进行说明
假设有10000个消费者购买了商品,其中购买尿布的有1000个,购买啤酒的有2000个,购买面包的有500个,且同时购买啤酒与尿布的有800个,同时购买尿布和面包的有100个。
支持度
支持度是指在所有项集中{X,Y}出现的可能性,即同时含有X,Y的概率:
Support(X-->Y)=P(X,Y)
筛选条件为:Support(Z)>=minsup,项集Z被称为频繁项集
在上述的具体数据中,当我们假设最小阈值为5%,由于{尿布 啤酒}的支持度为800/10000=8%,而{尿布 面包}的支持度为100/10000=1%,则 {尿布 啤酒}由于满足了基本的数量要求,成为频繁项集,且规则尿布啤酒,啤酒尿布同时被保留,而{尿布 面包}所对应的两条规则都被排除。
置信度
置信度表述再关联规则的先决条件X发生的条件下,关联结果Y发生的概率:
Confidence(X-->Y)=P(Y|X)=P(X,Y)/P(X)
选取条件为:Confidence(X-->Y)>=mincon
当设定置信度的最小阈值为70%时,尿布啤酒的置信度为800/1000=80%,而规则啤酒尿布的置信度则为800/2000=40%,被剔除。至此,我们根据需要筛选出了一条强关联规则——尿布啤酒。
提升度
Lift(X-->Y)=P(Y|X)/P(Y)= Confidence(X-->Y)/P(Y)
该指标与置信度同样用于衡量规则的可靠性,可以看作是置信度的一种互补指标。提升度可以弥补置信度的缺陷,当life值为1时表示X与Y相互独立,X对Y出现的可能性没有提升作用,而其值越大,则表明X对Y的提升程度越大,即关联性越强。
经调查发现:
这种显现大多出现在年轻父亲的身上,其背后的原因在于,在美国有婴儿的家庭中,一般是母亲在家照看孩子,父亲被派去超市购买尿布,而年轻的父亲在购买尿布的同时,往往会顺便购买自己爱喝的啤酒,因此出现了啤酒配尿布的奇异现象。此后,沃尔玛便开始在卖场尝试将其摆放在相同的区域,以此带来了客观的营业额增收,这即是“啤酒和尿布的故事”。