摘要
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。
For the data cluster problem of interval data,the extension distance is proposed by extension conjunction function. The Extension K Nearest Neighbor(EKNN) algorithm is designed by the idea of K nearest neighbor and extension distance. Finally,the experiment of Iris datasets and PIDD datasets is verified by the EKNN,and the classification accuracy is analysed and compared under the different minimal reduction attribute.
出处
《计算机工程与应用》
CSCD
北大核心
2010年第21期156-159,共4页
Computer Engineering and Applications
基金
湖北省教育厅青年基金(No.B200929001)
湖北民族学院博士基金
湖北民族学院青年基金
关键词
数据聚类
可拓距离
可拓K近邻算法
属性约简
data cluster
extension distance
extension K nearest neighbor
attribute reduction