为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅图像边缘检测对该方法进行验证,实验结果表明,该方法能够有效地检测出图像边缘孤立点,同时简化了孤立点检测时对用户输入参数的要求。
关 键 词 平均密度; 平均距离; 对象密度; 孤立点检测
In order to make the outlier detection more automatic and decrease the users’ difficulty for the selection of parameters, an outlier detection method with a new definition of average density is proposed. In this method, the outlier’s density is considered smaller than the average density of data set and the none-outlier’s density shouldn’t decrease with its closed interval compression. An experiment is used to identify the outline of the animal’s body. The experimental results show that the method identifies the face’s outline effectively.
Key words average density; average distance; object density; outlier detection
孤立点检测是数据挖掘的一个重要方面[1],近年来受到越来越多的重视。其任务是用来发现数据集中小的模式,即数据集中明显不同于其他数据的对象。当前研究的热点主要是关注孤立点的应用驱动,如信用卡欺骗、入侵检测、气象预报、公共卫生、医疗等。
文献[2]给出了孤立点的本质性定义:孤立点是一个观测值,它与其他的点是如此的不同,以至于怀疑它是产生于完全不同的机制。后来研究者们根据对异常存在的不同假设,发展了很多孤立点检测算法,大体上可分为基于统计的、基于距离的、基于密度的、基于聚类的等。但这些算法在自动化上都存在不足,即都要求用户输入必要的参数,算法对参数的依赖性较强。而参数的选择通常比较困难,要求用户具备丰富的经验,并且需要多次反复才能达到效果,对用户的使用提出了较高的要求。在分析传统算法的基础上,本文提出了平均密度的定义,在平均密度概念下的孤立点,其含义更加接近文献[2]的孤立点本质性定义,更符合人们对孤立点的认识;在通常的孤立点检测时,不依赖于用户对阈值设置的要求,使算法更加自动化。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !