<<<<<<< HEAD
利用K-Means、Affinity propagation、Mean-shift、Spectral clustering、Ward hierarchical clustering、Agglomerative clustering、DBSCAN、Gaussian mixtures八种聚类算法在load_digits、fetch_20newsgroups两个数据集上的聚类效果。
(1)了解常用聚类算法原理。
(2)掌握利用多种聚类算法对数据集进行分析。
jupyter notebook
加载数据集、数据集降维(使用sklearn内的TfidfVectorizer 将文本转化为tf-idf向量形式表示)、选择聚类算法、参数调整、结果输出。
使用DBSCAN时,当聚类有不同的密度时,它的性能不像其他聚类算法那样好,因为密度变化时,距离阈值和识别临近点的设置会随着聚类而变化。K-means算法在数据集大时结果容易局部最优;需要预先设定K值,对最先的K个点选取很敏感。