Giter VIP home page Giter VIP logo

datamining1's Introduction

商品关联分析篇

课题介绍	1
一、前言	1
二、成果	1
三、其他	1
商品关联说明书	2
一、关联原理	2
1、支持度(support)	2
2、置信度(confidence)	2
3、期望置信度(Expected confidence)	3
4、提升度(lift)	3
5、总结	3
二、关联算法	4
1、Apriori算法	4
算法介绍	4
术语说明	4
算法步骤	5
总结	6
2、FP-tree算法	6
算法介绍	6
算法步骤	6
总结	10
3、集群计算	10
三、算法实现	10
1、运行环境	10
2、输入数据	11
3、程序处理	14
TreeNode.java	15
Mysql.java	15
FPTree.java	15
4、输出数据	15
四、结果分析	16
五、参考	18
达芙妮官方旗舰店 商品关联案例分析	19
一、 店铺介绍	19
二、 经营商品	19
三、 数据情况	21
四、 结果分析	21
五、需求更改后	26

课题介绍

一、前言

公司作为电子商务运营商,每天需要与成千上万的在线商品打交道,并因此积累了大量线上订单数据。这些历史数据堆积在数据库中是毫无用处的,通过数据挖掘,或许可以得到一些有用的信息,从而对公司业务进行一定的指导,提高各在线店铺的营业额。 啤酒和尿布的故事人尽皆知,购买啤酒的大部分人同时也购买了尿布,于是通过组合啤酒和尿布进行促销,人们更方便地购买了两者,同时销量额大幅提高。本课题的原理亦相似。

二、成果

本课题要达到的成果如下:

  1. 根据数学建模,完成详尽的商品关联分析说明书,详细到课题的方方面面,以此作为指导核心。最终产物是文档形式。此工作由商业智能部的数学建模小组负责。
  2. 根据商品分析说明书,完成商品关联或推荐模块需求分析,设计分析,必要时进行原型设计,并进行编码实现,整合进公司内部CRM系统,实现线上可视化,方便非技术人员使用,此工作由技术部负责。

补充:商品关联开发周期请视具体情况自行安排,任何疑问可联系商业智能数学建模小组。

三、其他

商品关联之前需要各店铺对自己的产品进行秩序化类目编号,由各店铺负责人负责。一个要经营长久的店铺,其商品一定要有自己的分类系统,分类混乱的店铺势必在发货,记账等环节造成不必要的麻烦。编号可参考图书ISBN。
ISBN EAN•UCC前缀-组区号-出版者号-出版序号-校验码

示例:ISBN 978-7-5064-2595-7

**标准书号数字的第一部分。由国际物品编码(EAN·UCC)系统专门提供给国际ISBN管理系统的产品标识编码。 **标准书号数字的第二部分。它由国际ISBN管理机构分配。**的组区号为“7”。**标准书号数字的第三部分。标识具体的出版者。其长度为2至7位,由**ISBN管理机构设置和分配。**标准书号数字的第四部分。由出版者按出版物的出版次序管理和编制。**标准书号数字的第五部分,也是其最后一位。采用模数10加权算法计算得出。

商品关联说明书

一、关联原理

关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。

为叙述方便,设R= {I1,I2 ......Im} 是一组物品集,W是一组事务集。W中的每个事务T是一组物品,T是R的子集。假设有一个物品集A,一个事务T,关联规则是如下形式的一种蕴含:A→B,其中A、B是两组物品,A属于I子集,B属于I子集。

在关联规则中设计4个常用关键指标如下。

1、支持度(support)

定义:设W中有s%的事务同时支持物品集A和B,s%称为关联规则A→B的支持度。支持度描述了A和B这两个物品集的并集C在所有的事务中出现的概率有多大。

通俗解释:简单地说,A==>B的支持度就是指物品集A和物品集B同时出现的概率。

实例说明:某天共有1000 个顾客到商场购买物品,其中有150个顾客同时购买了圆珠笔和笔记本,那么上述的关联规则的支持度就是15%。

概率描述:物品集A对物品集B的支持度support(A==>B)=P(A n B)

2、置信度(confidence)

定义:设W中支持物品集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则A→B 的可信度。

通俗解释:简单地说,可信度就是指在出现了物品集A的事务T中,物品集B也同时出现的概率有多大。

实例说明:上面所举的圆珠笔和笔记本的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了圆珠笔,那么他也购买笔记本的可能性有多大呢?在上述例子中,购买圆珠笔的顾客中有65%的人购买了笔记本,所以可信度是65%。

概率描述:物品集A对物品集B的置信度confidence(A==>B)=P(A|B)

3、期望置信度(Expected confidence)

定义:设W中有e%的事务支持物品集B,e%称为关联规则A→B的期望可信度度。

通俗解释:期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有多大。

实例说明:如果某天共有1000个顾客到商场购买物品,其中有250个顾客购买了圆珠笔,则上述的关联规则的期望可信度就是25%。

概率描述:物品集A对物品集B的期望置信度为Expected confidence(B)=P(B)。相反,物品集B对物品集A的期望置信度为Expected confidence(A)=P(A)。

4、提升度(lift)

定义:提升度是可信度与期望可信度的比值

通俗解释:提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。

实例说明:上述的关联规则的提升度=65%/25%=2.6

概率描述:物品集A对物品集B的提升度为

lift(A==>B)=confidence(A==>B)/ Expected confidence (B)=p(B|A)/p(B)

注意此条公式也可化为 P(A n B)/P(A)P(B)

5、总结

可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。

支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。

总之,支持度是第一重要的,决定是否有必要进行该组合研究。置信度是第二重要的,决定组合是否真的强关联还是仅仅因为购买基数大。

在关联规则挖掘中,满足一定最小置信度以及支持度的集合成为频繁集(frequent itemset),或者强关联。关联规则挖掘则是一个寻找频繁集的过程。

...... . . . . ..

datamining1's People

Contributors

hunterhug avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.