【摘要】对零售业的目标人群进行了有效分类。提出了使用ID3算法对数据样本进行分类,建立数据描述属性与类别属性之间的决策树模型。使用此模型对客户与是否会购买产品进行分析,缩小目标客户范围,指导营销人员缩小营销范围,提高营销效果,提高产品销售量。通过实例验证了此方法具有一定的可信度。
【关键词】零售业;ID3算法;决策树;营销
1.引言
企业要生存和发展,就必需了解市场,了解客户,树立“以市场为导向,以客户为中心”的经营理念。[1]随着信息时代的到来,人们收集、存储和访问数据的能力大大增强,快速增长的海量数据不断充斥着我们的生活。为了从海量数据中发现有价值的信息,从而制定正确的决策,数据挖掘技术应运而生,并逐渐显示出强大的生命力。文章使用数据分类方法对海量数据进行分析和挖掘,力求从中找到目标客户,提高客户营销效果,创造更高的客户价值,最后结合实例使用ID3算法分析并检验了方法的有效性。
2.数据分类过程
数据分类一般经历以下几个步骤:数据准备、数据开采、分类结果的表达和解释。
2.1 数据准备
数据准备主要包括数据的选择、预处理和数据的转换。数据的选择主要是搜索所有与研究对象相关的内部数据和外部数据,并从中选择适用于下一步进行数据分类的数据。同时,为了进一步提高数据质量,为数据分析做准备,还需要对数据进行预处理,即将数据转换成能进行数据挖掘的类型,并进行必要的数据约减。最后,还需要对数据进行转换,即将数据转换成最终的针对挖掘算法建立的分析模型,建立一个真正适合挖掘算法的分析模型。
2.2 数据开采
数据开采需要选择数据挖掘算法。本文使用决策树算法的ID3算法对数据进行分类。决策树算法是在给定已知数据类别属性的情况下采用自顶向下的递归方式产生一个树形结构,树的最顶端称为根结点,最底层结点称为叶子节点,每个叶子结点代表样本数据的类别或类分布。
ID3算法是决策树算法中较为常用的一种算法,主要用来处理离散型描述属性的数据。在分类的过程中,ID3算法采用信息增益作为分类的依据。即每次迭代都从给定的描述属性集中选择一个信息增益值最大的描述属性作为根结点的分支属性。
2.3 结果的表达和表示
该过程是根据分类的目标对分类结果进行分析,把有价值的信息提取出来并通过一定的数据展示工具将挖掘结果以直观的方式展示给决策者。
3.零售业与数据分类
零售业有着产品多样化、客户涉及范围广、客户需求多样化等特点,如何在众多人群中确定目标营销人群,找到潜在客户,制定有针对性的营销策略,使得客户和销售者的利润都达到最大化,进而达到“双赢”的目标成为众多零售业在产品销售过程中亟待解决的问题。
文章以某自行车零售商的市场调查数据为分析依据,利用数据分类的ID3算法对客户的描述属性按照不同的类别属性进行分类,从而发现哪些类型的人群更加趋向于购买产品,哪些类型的人群可能对产品不感兴趣,进而为制定营销策略提供理论依据。
4.数据分类在零售业中的应用
4.1 数据准备
本文中,我们采用某自行车零售业市场调查的数据作为分类的数据集。此数据集的记录行数一共有18000行,数据集的描述属性有Age、CommuteDistance、CustomerKey、Gender、Childreninhome、YealyIncome等,类别属性包括两种取值:0:代表不会购买自行车;1:代表会考虑购买自行车。图3.1显示了部分数据样本。
4.2 数据模型的建立
设置决策挖掘模型的相关参数,参数设置界面如图3.2所示。
COMPLEXIY_PENALTY:决策树的成长参数。此值减小会使决策树的分支和层次数目增大,此值增大会导致相反的结果。
FORCE_REGRESSOR:该参数强制数据集用作回归公式的输入变量,仅限于使用回归树。
MIXIMUM_INPUT_ATTRIBUTES:算法可以处理输入属性的最大数量。
MIXIMUM_OUTPUT_ATTRIBUTES:算法可以处理分类属性的最大数量。
MINIMUM_SUPPORT:指定叶节点中必须包含的最小样本数量。此值小于1表示最小样本数量为总数量的百分比,此值大于1表示最小样本数量为指定的绝对数量。
SORCE_METHOD:指定选择分支属性的度量标准。在本实例中我们将这个值取值为1,表示使用信息增益作为度量标准。
SPLIT_METHODE:指定分支模式。可用模式有二元分支、完整分支或根据算法判断。
4.3 决策树生成
根据设定的参数,使用SQL Server 2005中的决策树方法最终可以得到如图3.3所示的决策树模型。
此决策树的预测属性为bikebuyer,bikebuyer的值一共有两个,分别是1和0,1代表会买自行车的人,0代表不会买自行车的人。此决策树一共有9个级别,每个级别都有按一定算法所确定的结点,结点是以直方图的形式所展示的,并且在分析决策树时可以对这些结点进行钻取,能够得到这个结点所包括的总人数以及买自行车人数的比例。
假定最有可能购买自行车的客户群为bikebuyer≧0.8,最没有可能购买自行车的客户群为bikebuyer≦0.1,则根据上述决策树可以得到以下结论:最可能购买自行车的人群Age为40岁到45岁,Yearly Income大于26000,Commute Distance为短距离,范围一般小于2英里。最不可能购买自行车的人群Age小于40与大于70,Yearly Income小于26000,Commute Distance为远距离。
5.结论
基于上述分析结果,在制定营销策略的过程中,可以对最可能购买自行车的人群进行加强营销,对最不可能购买自行车的人群进行弱营销,对剩余人群进行一般营销。该方法在自行车零售业的销售过程中进行了实践,结果表明可以较为有效地提高产品的销量,增强商品营销的客观性和合理性,具有一定的可信度。
参考文献
[1]余志毅,赵青,冯运仿.商业智能在旅游产品销售中的应用分析[J].黄石理工学院学报,2008(5):16-19.
[2]熊荣生.我国软件企业营销策略探讨[J].温州职业技术学院学报,2004(12):30-33.
[3]陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社,2009.
[4]王广宇.客户关系管理方法论[M].北京:清华大学出版社,2004.
[5]张华雨等.Intranet环境下基于数据仓库技术的新型DSS[J].计算机应用,2004,22(2):2728.
相关热词搜索: 零售业 营销 数据 研究 分类