王星, 呙鹏程, 王玉冰, 程越
WANG Xing, GUO Pengcheng, WANG Yubing, CHENG Yue
摘要:
针对一种可快速搜索和寻找到聚类密度峰值点聚类算法的缺陷,利用线性回归与残差分析的方法进行改进,可自动、快速地确定聚类中心且优化样本点密度值。算法利用样本点的近邻信息重新度量点的密度值,提高聚类中心点位置稳定性;利用一元线性回归与残差分析,快速、自动地选出聚类中心点,去除了人为选择的主观性。通过理论分析以及在人工数据集和真实数据集的对比实验表明,提出的基于线性回归分析的快速搜索聚类中心算法能够克服原有算法的缺陷,并且在聚类效果和计算时间上优于原有算法、基于密度的带有噪声的空间聚类算法(density based spatial clustering of applications with noise, DBSCAN)以及K-means算法。