序列模式挖掘(AprioriAll和AprioriSome算法) | 您所在的位置:网站首页 › apriori关联规则算法论文 › 序列模式挖掘(AprioriAll和AprioriSome算法) |
序列模式(sequential pattern)挖掘最早由Agrawal等人提出,针对带有交易时间属性的交易数据库,获取频繁项目序列以发现某段时间内客户的购买活动规律。每一次交易包含customer-id,transaction-time和items(购置的商品内容)。 定义1 一个序列(sequence)是项集的有序表,序列s记为 定义2 序列 定义3 最大序列(Maximal Sequence)表示不包含在任何其他序列中。 定义4 序列s的支持度(support)是指所有序列中包含序列s的个数(百分比)。满足最小支持度(minimum support)的序列称为大序列(large sequence)。大序列中的所有最长序列就称为序列模式(sequential pattern)。 定义5 项集i的支持度是指所有序列中包含项集i的个数。因此项集i和1-序列的支持度相同。满足最小支持度的项集称为大项集(large itemset)或者litemset。注意:大序列中的所有项集必须是大项集。因此,大序列就是litemset的列表。 2 算法 序列模式挖掘分为五个步骤:排序阶段,大项集阶段,转换阶段,序列阶段,最大序列阶段。 2.1 排序阶段(Sort)对数据库进行排序整理,将原始数据库转换成序列数据库。例如交易数据库就以客户号(Cust_id)和交易时间(Tran_time)来排序。例如table1到table2 。 客户号(Cust_id) 交易时间 (Tran_time) 物品 (Item) 1 1 June 25’99 June 30’99 30 90 2 2 2 June 10’99 June 15’99 June 20’99 10,20 30 40,60,70 3 June 25’99 30,50,70 4 4 4 June 25’99 June 30’99 July 25’99 30 40,70 90 5 June 12’99 90 Table 1 带交易时间的交易数据源实例 客户号(Cust_id) 顾客序列(Customer Sequence) 1 2 3 4 5 |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |