针对现有Eclat算法中普遍存在的候选集规模大、求交效率低的问题,提出了基于剪枝优化和索引求交的改进Eclat算法。首先根据频繁集的性质采用预剪枝和后剪枝相结合的候选集优化策略,即利用预剪枝技术裁剪待连接的项集数量以减少项集连接操作,同时利用先验性质对连接后的项集进行后剪枝处理;接着提出了一种基于事务索引的布尔数组求交方法,即通过将事务标识作为索引来设置并检索布尔数组,以获得项集支持度计数;最后通过设计对比实验,在经典数据集上测试该方法的有效性。实验表明,通过该方法能够有效压缩候选集规模,改善求交计算效率,特别是在支持度阈值小、事务数规模大的情况下,算法的运行效率得到了明显的提升。
现如今,通过使用数据挖掘技术,我们可以从海量数据中挖掘有趣的信息。其中,关联规则挖掘是数据挖掘技术中较为重要的一种手段。它一般分为两个步骤:一是依据事先设定的支持度阈值找出所有符合条件的频繁项集;二是依据频繁项集及给定的置信度阈值产生关联规则。其中,挖掘算法的性能主要取决于频繁项集的生成,因此识别或发现所有频繁项目集是关联规则挖掘算法的核心。随着数据挖掘技术理论研究的深入,各类关联规则挖掘算法也在不断地涌现。传统的算法主要包括Apriori算法、FP-growth 算法以及Eclat 算法,后续的大部分算法都是在这三类算法的基础上进行相应的优化和改进。
Apriori 算法使用一种称为逐层搜索的迭代方法,通过项目集元素数目的不断增长来逐步完成频繁项集的发现,核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,该算法设计思想简单,易于实现,但是产生了大量候选集,同时需要多次对事务库进行扫描,计算耗时过长;FP-growth 算法使用一种称为频繁模式增长的方法,采取分治策略,将代表频繁项集的数据库压缩到一棵频繁模式树(FP 树)上,然后把这种压缩后的数据库划分成条件数据库,每个数据库关联一个频繁项或“模式段”,并分别挖掘每个条件数据库,这种方法可以显著地压缩被搜索的数据集的大小,该算法只扫描事务库两次,且无需产生候选集,相比Apriori 算法性能有显著的提高,但由于所有项集都压缩在一棵树上,对内存要求较高,且递归算法设计复杂;Eclat 算法[4]的核心思想是将水平数据库转换成垂直数据库,然后将项集的TID_set 进行交运算来得到项集的支持度,该算法由于只扫描一次事务库,且项集支持度是通过交运算得到的,大大减少了计算时间,但Eclat 算法存在搜索空间大、连接操作频繁、求交运算耗时的问题。
本文选取上述几类算法中性能较好的Eclat 算法,结合近年来该算法的相关研究,针对其普遍存在的问题和不足,从候选集的生成和支持度的计算两个方面对其加以优化和改进,提出了前后剪枝相结合的候选集优化策略以及利用数组索引取值计数的求交运算方法,以达到提高Eclat 算法效率的目的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !