关联规则与聚类分析在超市中的应用研究
余承乐,柳炳祥
(景德镇陶瓷学院信息工程学院,江西 景德镇,333403)
摘要:数据挖掘是商务智能中经常使用的一项重要技术,企业在其整个运营过程中,积累了庞大的数据信息,决策者们所需要的信息往往就隐藏在里面,数据挖掘的目的就是如何有效地处理这些数据。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。
关键词:数据挖掘;商务智能;关联规则;聚类分析
Application of association rules and cluster analysis in Supermarket
*
Yu Chengle,Liu Bingxiang
(School of Information Engineering, JingDeZhen Ceramic Institute, JiangXi, China,333403)
Abstract:Data mining is an important technology,which is often used in business intelligence.Enterprises have accumulated large amount of data during the operation process,the information they need are usually hid in data mining.Therefore,how to deal with these data is the purpose of data mining.The essay,which analyzes the application of data mining in business intelligence ,combined with Clementine software to analyze the specific application of association rules and cluster analysis in the supermarket.
Key words: business intelligence;data mining;association rules;cluster analysis
1 引言
数据挖掘技术在商务智能的应用,已成为各行业、各部门信息化的必然趋势。现代企业的发展面临着巨大的挑战,市场竞争日趋激烈,客户要求越来越个性化,各类信息量正在迅速膨胀。数据仓库技术有效地把操作数据集成到统一的环境中,提供用户用于决策支持所需的当前和历史数据,数据挖掘技术利用各种分析工具在这些海量数据中发现模型和数据间的关系,能够帮助企业更深入、更容易地分析数据,从海量的数据中寻找对自己真正有用的信息资源。商务智能通过对大量的数据进行自动的加工、处理和分析,实现数据向信息、信息向知识的转换,并将知识应用于决策。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。
2 相关理论分析
2.1 关联规则算法
关联分析是统计学中经常用到的一个术语,指的是对两个或者更多变量之间可能存在的关联关系的描述。对项集A∈I,B∈I,且A∩B=φ,用A→B表示一条关联规则。从广义的角度说,这种关系还可以是因果关系或时序关系。关联规则挖掘就是在数据库中进行关联分析,是数据挖掘的众多知识类型中最为典型的一种。Apriori算法是关联规则算法中使用最多的一种算法,其主要步骤为:
①扫描全部数据,产生候选1-项集的集合C1;
②根据最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1; ③对k>1,重复执行步骤④、⑤;
④由Lk执行连接和剪枝操作,产生候选(k+l)-项集的集合Ck+1;
扫描事务数据库D,计算每个候选项目集的支持度,如果大于等于最小支持度阈值min_sup,则加入到Lk+1中;
⑤如果Lk+1为空集,则结束,所求结果即为L1 L2 …,否则k=k+1,转步骤④继续执行。
[基金项目]江西省教育厅科研项目资助(GJJ10566)
2.2 聚类分析算法
聚类就是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。要求是在不同群组的数据之间要有明显差别,而每个群组内部的数据之间尽量相似。其形式化描述为:
L=(S,f)是数据描述语言,其中:
S是表达式的集合,f:S→P(Mn),Mn 是面向主题n的挖掘数据集,P(Mn)是Mn 的子集。 对任意的e? S,f(e)是由表达式e所界定的数据项的集合,是Mn的子集。
对于给定的Mn,找到一个集合{e1,e2,…,ek},满足对于任意ei,ej,e1,e2,e3,e4? S,
(1)?f(ei)=Mn
(2)f(ei)?f(ej)=?,对任意1?i?j?k
(3)ei与ej的差别用它们之间的距离d(ei,ej)表示。0?d(ei,ej)?1,且d(ei,ej)=0,
如果ei=ej,且如果f(ei)=f(e1)?f(e2),f(ej)=f(e3)?f(e4),那么d(ei,ej)=max{d(e1,e3),d(e1,e4),d(e2,e3),d(e2,e4)}。 聚类过程可以用如下方法描述:
(1)给定Mn ={m0,m1,……,mp-1},p=|Mn|,en? S且f(en)={mn}; (2)E0={e0,e1,……,ep-1},E0?P(S);
i
(3)Ei+1=(Ei?{e}),如果存在eai,ebi?Ei,对任意ea,eb?Ei,有
i
d(eai,ebi)?d(ea,eb),其中ei?S/Ei,f(e)=f(eai)?f(ebi);
(4)从E0,E1,……,Ep-1选出最佳的Ei作为聚类结果。
3关联规则与聚类分析在超市中的应用
3.1关联规则Apriori算法实现
Apriori算法基本思想是通过对数据库的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则。Apriori算法对数据集进行多次扫描。第一次扫描得到频繁1-项集的集合L1,第k(k>1)次扫描首先利用第(k-l)次扫描的结果Lk来产生候选k-项集的集合Ck,然后再扫描的过程中确定Ck中元素的支持度,最后再每一次扫描结束时计算频繁k-项集的集合Lk,算法当候选k-项集的集合Ck为空时结束。
下面利用Clementine软件提供的超市顾客个人信息和他们的一次购买商品数据,叙述Aprioir算法的具体步骤。数据包括两大部分内容,第一部分是顾客的编号;第二部分是顾客的一次购买商品的信息,主要变量有牛奶、果冻、啤酒、面包、花生、咖啡,均为二分类型变量,取值1表示购买,0表示未购买,是一种事实表的数据组织格式。分析目标是哪些商品具有可能同时购买。利用Clementine软件的工作流图如图1所示。
图1 关联规则网络流图
执行网络节点后,提高门限值,留下的最强连接,如图2所示。
图2 最强关联项目
通过图2不难看出,可以归纳出两类客户:第一类:购买面包和牛奶的客户;第二类:购买啤酒和花生的客户。
通过网络图可以清晰地分析结果,在符合规定的条件下,没有顾客购买果冻、咖啡。可以建议有关人员减少这两种种商品的进货量,但为了保持商品的多样性,还是要适当的进点货。购买面包的客户都买了牛奶,购买啤酒的客户都买了花生 。可以建议有关人员在购物架摆放商品时,可以尽量将面包和牛奶摆放在一起,将啤酒和花生摆放在一起,这样以便于顾客选购,无形中增加了超市的销售额。
3.2聚类分析K-means算法实现
K-means算法也称为K-平均算法,K-means是一种迭代算法,其初始的K个簇被随机的定义后,这些簇将被不断地进行更新,并在更新的过程中被优化(或者达到一定的迭代次数)时算法才停止,然后生成模型。这里,利用Clementine提供的超市商品信息数据,叙述K-means算法的具体步骤。数据集中包含20种饮料的编号和每种饮料中A、B、C、D、E五种元素的含量。分析目的是把这20种饮料中五种元素含量最相近的进行聚类。利用Clementine软件的工作流图如图3所示。
图3 聚类分析流图
按照算法的工作流图执行后,利用表输出的聚类分析结果如图4所示。
图5 聚类分析结果
通过对表的分析,可以很直观的看到,20种饮料根据五种元素的含量相似度被聚成三类,其中,饮料样本1、2、5、6、9、10、11、14、15、16、17为聚类-1;样本3、4、8、12为聚类-2;样本7、13、18、19、20为聚类-3。这样,就可以建议超市相关人员将以上聚成一类的饮料摆放在一起,有助于识别顾客购买行为,发现顾客的购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销售比率,设计更好的货品运输与分销策略,减少商业成本。
4 结束语
论文研究可以分析出在超市物品之间顾客所倾向于同时购买哪些商品,哪些商品可以摆在一起以增加这些商品的销售率。顾客在购买过程中,往往会存在一些辅助性需求或对其他相关产品的潜在需求。超市在了解客户的兴趣爱好和其他消费属性的基础上,对顾客兴趣进行挖掘整理,提供针对性的产品组合,扩大销售范围,增加了客户的购买量,从而提高了企业的客户份额。需要指出的是,论文虽然给出了关联规则和聚类分析的算法描述和具体实例,但算法涉及的数据结构选择、算法效率评价、算法实用性等问题没有进行讨论,这些都是今后需要进一步研究的内容。 参考文献:
[1]赵卫东.商务智能(第2版)[M].北京:清华大学出版社,2011
[2]薛薇,陈欢歌. Clementine数据挖掘方法及应用[M].北京:电子工业出版社, 2010 [3]谢邦昌.商务智能与数据挖掘Microsoft SQL Server应用[M].北京:机械工业出版社,2008
[4]李林,易云飞,黄潜.基于矩阵的模糊关联规则挖掘算法及其应用研究[J].现代电子技术,2009(20)
相关推荐: