一些先进 应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式.top-k 模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。
在一些新兴的应用场景下,例如智能城市、大型基础设施监控、物联网等,数据产生的速度越来越快。数据流( datastream)被认为是高速率数据,通常被认为是大数据,它是无限的、快速的变化的和有序的。在某些环境下,数据流的处理方法必须快速且能适应变化。数据流模型面临的主要约束“包括:
1)数据量巨大,可以认为是无限的。因此,无法存储所有的数据。合理的方法是存储数据的概要信息。
2)数据到达的速度快。因此,需要实时处理数据,且处理后数据即被丢弃。
3)数据项的分布可能随着时间而变化。因此,历史数据会变得无用甚至有害。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !