资料介绍
聚类分析是数据挖掘领域中一种非常有用的技术,它用于从大量数据中寻找隐含的数据分布模式,主要有分割法、层次法、密度法、网格法和模型法等。该文主要讨论数据挖掘中一种基于密度和网格的聚类分析算法及其在客户关系管理中的应用。该算法具有较高的聚类效率而且容易实现,可以发现任意形状的聚类,时间复杂度低,聚类精度高,适用于数据的批量更新。该文还提出增量式聚类技术,它不仅能够利用前期聚类的结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。实验证明了算法的有效性。
关 键 词 聚类分析; 客户关系管理; 数据挖掘; 密度; 网格
Clustering analysis is a very useful tool in the domain of data mining for searching distributing mode from a great deal of data. Its main algorithms are partition-based algorithm, hierarchy-based algorithm, density-based algorithm, grid-based algorithm, and model-based algorithm. The paper mainly discusses a clustering algorithm based on density and grid in data mining, which has high clustering efficiency and low time complexity. It is efficient and effective for multi-density and uniformity density data sets with noise and suitable for batch update. After that an incremental clustering technique is presented. This technique not only makes best use of the former clustering results and improves the efficiency of clustering analysis, but also brings to the reduction of enormous expenditure on knowledge base maintenance. At last an application of the algorithm in Customer Relationship Management (CRM) is gien.
Key words clustering analysis; customer relationship management; data mining; density; grid
聚类分析是数据挖掘领域研究的重要课题[1],其基本思想是:按照数据的相似性和差异性,将数据划分为若干组,同组的数据尽量相似,不同组的数据尽量相异[2-3]。迄今为止,人们已经提出了许多聚类算法,主要有分割法、层次法、密度法、网格法和模型法等[4-6]。基于网格和密度的聚类算法由于易于增量实现和高维数据挖掘而被广泛地应用于聚类算法中。基于网格的方法在聚类过程中将网格中的点作为一个整体处理,而不是考虑单元中的每一个点,基于这一特性,该方法在所有的聚类方法中效率最高。其优点是聚类的结果与输入数据的顺序无关,算法的时间复杂度是数据点个数的线性函数,速度快、可扩展性好,能识别不同形状的聚类。
本文给出一种基于密度和网格的聚类算法,它是一个基于密度的算法,既保留了基于网格算法运行速度快的特点,又通过细化技术弥补了该类算法精度不好的弱点。
1 算法分析
在基于密度的算法中,一个聚类就是一个比周围区域有更高数据点密度的区域[7]。为识别数据点的密度,将数据空间进行划分并找出每个单元中数据点的数目。为使计算点的密度的方法简单一些,将数据空间分割成网格状,把数据空间中的每一维划分成相同的区间数,每一个单元具有相同的“体积”[8-9]。单元中点的密度的计算可以转换成简单的点计数,然后把落到某个单元中的点的个数作为该单元的密度。这时可以指定一个阈值r,当某单元格中点的个数大于该阈值时,就称该单元格是密集的,聚类也就是所有相邻近的密集单元格的集合。
- 基于群组和密度的大规模轨迹聚类算法 2次下载
- 基于网格多密度聚类的古建筑图像特征匹配方法 3次下载
- 一种基于自然最近邻的密度峰值聚类算法 12次下载
- 基于MapReduce和加权网络信息熵的DBWGIE-MR算法 11次下载
- 一种自适应的关联融合聚类算法 13次下载
- 一种改进的聚类联合相似度推荐算法 10次下载
- 可检测出租车载客的轨迹聚类算法 13次下载
- 如何使用拉普拉斯中心性和密度峰值进行无参数聚类算法的研究 12次下载
- 如何融合密度峰值进行高斯混合模型聚类算法概述 2次下载
- 如何使用多维网格空间进行改进K-means聚类算法资料概述 1次下载
- 聚类算法及聚类融合算法研究 33次下载
- 基于网格的多密度聚类算法
- 基于网格的带有参考参数的聚类算法
- 基于模糊聚类思想的网格独立任务调度算法
- 基于不均匀密度的自动聚类算法
- 聚类分析中的机器学习与统计方法综述(二) 799次阅读
- 如何在 Python 中安装和使用顶级聚类算法 472次阅读
- 代码实现密度聚类DBSCAN 593次阅读
- 10种顶流聚类算法Python实现(附完整代码) 1259次阅读
- CCM和CRM的图腾柱PFC哪个效率更高? 3739次阅读
- 机器学习技术在图像处理中的应用 2080次阅读
- 10种聚类介绍和Python代码 2850次阅读
- 基于距离的聚类算法K-means的设计实现 2088次阅读
- 浅析四类机器学习在自动驾驶中的应用 5329次阅读
- Python无监督学习的几种聚类算法包括K-Means聚类,分层聚类等详细概述 3w次阅读
- 机器学习中五种常用的聚类算法 3.8w次阅读
- 浅谈Matlab中的聚类分析 Matlab聚类程序的设计 7212次阅读
- 一种基于MapReduce模型的并行化k-medoids聚类算法 5208次阅读
- 基于密度DBSCAN的聚类算法 2.1w次阅读
- k means聚类算法实例 1.5w次阅读
下载排行
本周
- 1电子威廉希尔官方网站 原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 93次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能威廉希尔官方网站 详解
- 0.38 MB | 10次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 3次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成威廉希尔官方网站 应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口威廉希尔官方网站 图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6威廉希尔官方网站 仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多