您好,欢迎访问一九零五行业门户网

《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的

项目集 :项的集合,记为 i 。牛奶,面包,苹果, etc 事 务 :事务 t 是 i 中的一组项目的集合,每个事务都有个一个 tid 作为标识符号。 项目集 x 的支持度 sup(x)=count(x)/|d| 关联规则 x-y 的支持度 sup(x-y)=count(x-y)/|d| 关联规则 x-y 的置信度 conf
项目集:项的集合,记为i。牛奶,面包,苹果,etc
事  务:事务t是i中的一组项目的集合,每个事务都有个一个tid作为标识符号。
项目集x的支持度
         sup(x)=count(x)/|d|
关联规则x->y的支持度
         sup(x->y)=count(x->y)/|d|
关联规则x->y的置信度
conf(x->y)=count( x->y)/count(x)
步骤:
1 找出所有频繁项集
2 有频繁项集产生强关联规则
算法之apriori算法
核心思想
频繁1-项集then关联规则then剪枝
then频繁2-项集then关联规则then剪枝
then频繁3-项集then关联规则then剪枝
……
重复此过程直到做不下去为止
算法实现  以后单独写出
改进措施 fp(frequent pattern  growth) 频繁模式增长
多层关联规则
基本思想:
自顶向下,在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝,向下进入更具体的一层。
可选方案:
         1 使用一致的最小支持度
         2使用递减的最小支持度
         3 逐层独立
         4 层交叉单项过滤
         5 曾交叉k-项集过滤
多维关联规则
涉及两个或者多个维的关联规则
e.g. age(x, “ibm desktop computer”)^occupation(“drive”r)=>buys(x, ”laptop”)
多维关联规则注意
强关联规则不一定是有趣的。比如,
buys(x, “computer games”)=>buys(x, “videos”) [support=40%, confidence= 66%]
推导出来的结果可能是满足支持度和置信度的,但是却不是有趣的。
因为可能实际上不购买computer games而去购买video的人有75%,而同时购买了computer games和videos的人只有66%,说明其实computer games和videos是负相关。
其它类似信息

推荐信息