论文部分内容阅读
在现代社会中,随着计算机技术的不断发展,收集数据变得越来越方便。数据储存技术也在不断的提高,并且容量也愈来愈大。这样,数据的搜集与储存有了很大的发展,可是如何有效的对这些明显含有重要信息的数据进行处理,将其中有用的信息提取出来成为了现代课题研究的一大热点。在研究过程中,人们将统计、计算机技术和数据库技术结合在一起,发明一种称为数据挖据的技术。数据挖据技术涉及到许多领域的集合,如:人工智能、统计学、信息检索、数据库管理等。聚类分析是数据挖掘中重要的技术之一,被用来对未知的分类数据进行分析。其重要性愈来愈被人们肯定。现在社会在金融、医学、基因学这些学科内产生了大量维度很大的数据。许多在低维时有很好效能的聚类方法,在碰到维度非常高的数据时,往往得到的结果不是太好。在高维数据的聚类研究中,有一类聚类算法由于其具有快速性和简单性的特点已经被广泛的应用在许多领域,包括K均值聚类算法(K-means,KM)、模糊聚类算法(FCM)和K调和均值聚类算法(KHM)。其中,K调和均值聚类算法对初始值不敏感。本课题首先对聚类分析的算法、原理、准则函数以及聚类分析现在所面临的问题进行了介绍。针对聚类算法对初始值敏感的问题,本文对K-均值算法,FCM算法,KHM算法进行分析。从数理角度得出KHM算法对初始值不敏感。然后进行实例分析。以在遗传学调控开关研究中的一个经典例子酵母半乳糖通路(GAL)数据集为研究对象,分别取每一类别中每一属性的最大值,1/3大值,真实聚类中心,1/3小值,最小值为聚类中心,总共五组聚类中心用R软件进行K-means聚类分析。计算出其聚类结果,结果显示:最大值、最小值为聚类中心的组无法进行聚类,表明其对初始值敏感。本文采用Fortron语言实现K调和均值(KHM)的聚类分析,在聚类的结果显示,这种方法对初始值的选择是不敏感。对三种聚类方法在不同数据集中的聚类效果进行评价,采用癌症基因的十个数据集,分别进行K-means、FCM、KHM聚类分析,结果显示:在十个癌症基因的数据集中,其中第一号、五号、六号、七号、九号和十号,KHM算法获得了最小的错误率和最大的F度量,获得最好的综合评价,而仅有二号和三号,K-均值算法获得最好的综合评价,四号和八号位FCM算法获得最好的综合评价。对鸢尾花的数据进行分析,发现KHM是三种方法中,错误最少的方法。综上所述,KHM算法在这三种方法的对比中获得了较好的准确度,在不同类型的数据集中有较好的稳健性。