具有全局聚类的多属性离散化算法被引量：3

Synchronized Continuous Attributes Discretization Based on Ameva

下载PDF

导出

摘要为了减少连续属性离散化后有用信息的丢失和信息系统总的断点数量,提出了一种具有全局聚类效果的多属性离散化算法.算法根据各属性预插入断点对信息系统近似分类质量的影响,来确定要插入断点的属性,从全局属性范围选择最佳断点.根据Ameva统计量来判断属性中最佳断点的位置,并以保证决策表的近似分类质量作为算法的终止条件.实验采用多组机器学习数据对算法的性能进行了检验,并与几种经典算法做了对比.实验结果表明,用新的离散化算法获得的结果所建的C45决策树分类模型,具有较好的分类精度和较少的节点数量. To avoid information loss and cut points decrease after discretization of continuous attributes,a synchronized continuous attribute discretization algorithm with good global clustering effect for selecting cut points from all conditions attributes is presented.This algorithm decides which continuous attribute should be inserted according to the cut point from all attributes based on the influence of the inserted cut point.The influence is evaluated by information system approximation classification quality.Then cut point is selected from the candidate points in the attribute according to Ameva statistics,and the level of indiscernibility relation is chosen as the stopping condition of the algorithm.By UCI machine learning data sets a comparison with several classic discretization algorithms shows that the C45 classification model based on the proposed algorithm is of good classification accuracy and needs less nodes.

作者刘弹杨景明罗爱玲

机构地区西安交通大学机械制造系统工程国家重点实验室

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第9期1-5,共5页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(51105296) 机械制造系统工程国家重点实验室开放课题资助项目中央高校基本科研业务费专项资金资助项目

关键词统计量连续属性离散化 statistics continuous attributes discretization

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1XU E, SHAO Liangshan. A new discretization approach of continuous attributes [C]//Proceedings of the 2010 Asia-Pacific Conference on Wearable Computing Systems: APWC 2010. Piscataway, NJ, USA: IEEE Computer Society, 2010: 136-138.
2MIZIANTY M J,KURGAN L A, OGILA M R. Discretization as the enabling technique for the Naive Bayes and semi-Naive Bayes-based classification [J]. Knowledge Engineering Review, 2010,25 (4): 421-449.
3KERBER R. ChiMerge: discretization of numeric attributes [C] // Proceedings of Ninth National Conference on Artificial Intelligence. Menlo Park, CA, USA: AAAI Press, 1992: 123-128.
4LIU Huan,SETIONO R. Feature selection via discretization [J]. IEEE Transactions on Knowledge and Data Engineering, 1997,9(4) : 642-645.
5TAY E H, SHEN L. A modified chi2 algorithm for discretization [J]. IEEE Transactions on Knowledge and Data Engineering, 2002,14(3): 666-670.
6CBAO T S, JYH H H. An extended chi2 algorithm for discretization of real value attributes [J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 (3):437-441.
7MARCE B. Khiops: a statistical discretization method of continuous attributes [J]. Machine Learning, 2004, 55(1):53-69.
8GONZALEZ A L, CUBEROS F J, VELASCO F. Ameva:an autonomous discretization algorithm [J]. Expert Systems with Applications, 2008,36(3) : 5327-5332.
9刘静,王国胤,胡峰.基于断点辨别力的粗糙集离散化算法[J].重庆邮电大学学报（自然科学版）,2010,22(2):257-261. 被引量：2
10MERZ C J, MURPHY P M. UCI repository of machine learning database [EB/OL]. [2003 - 08 - 16]. http:// www. ics. uci. edu/-mlearn/MLRepository. html.

二级参考文献10

1谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
2PAWLAK Z.Rough Set[J].International Journal of Computer and Information Sciences,1982,11 (5):341 -356.
3NGUYEN H S,SKOWRON A.Quantization of real values attributes,rough set and Boolean reasoning approaches[EB/OL].(1995-09-28)[2009-09-08].http://citeseerx,ist.psu.edu/viewdoc/summary? doi=10.1.1.37.1133.
4NGUYEN S H,NGUYEN H S.Some efficient algorithms for rough set methods[EB/OL].(1996-10-03)[2009-08-26].http//citeseerx,ist.psu.edu/riewdoc/summary? doi =10.1.1.37.1208.
5LI Meng-xin,WU Cheng-dong,HAN Zhong-hua,et al.A hierarchical clustering method for attribute discretization in rough set theory[EB/OL].(2009-01-01)[2009-09-15].http://d,wanfangdata,com.cn/NSTLHY_NSTL-HY17044759.ospx.
6侯利娟,王国胤,聂能,吴渝.粗糙集理论中的离散化问题[J].计算机科学,2000,27(12):89-94. 被引量：104
7赵军,王国胤,吴中福,李华.基于粗集理论的数据离散化新算法[J].重庆大学学报（自然科学版）,2002,25(3):18-21. 被引量：27
8何亚群,胡寿松.粗糙集中连续属性离散化的一种新方法[J].南京航空航天大学学报,2003,35(2):212-215. 被引量：21
9李兴生,李德毅.一种基于云模型的决策表连续属性离散化方法[J].模式识别与人工智能,2003,16(1):33-38. 被引量：30
10李兴生,李德毅.一种基于密度分布函数聚类的属性离散化方法[J].系统仿真学报,2003,15(6):804-806. 被引量：12

共引文献1

1王成宇,林名驰.基于决策表相容度和属性重要度的连续属性离散化算法[J].舰船电子工程,2022,42(4):43-48. 被引量：1

同被引文献39

1张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
2TENENGAUM J B, SILVA V D, LANGFORD J C. A global geometric framework for nonlinear dimension- ality reduction[J]. Science, 2000, 290(5500): 2319- 2323.
3张选平,祝兴昌,马琮.一种基于边界识别的聚类算法[J].西安交通大学学报,2007,41(12):1387-1390. 被引量：5
4中国电机工程学会信息化专委会.中国电力大数据发展白皮书[S].2013.
5李静耘,杜正春,楚国莉,方万良.基于聚类的多运行方式下电力系统稳定器设计[J].西安交通大学学报,2008,42(2):204-208. 被引量：1
6张云,冯博琴.利用标签的层次化搜索结果聚类方法[J].西安交通大学学报,2009,43(4):18-21. 被引量：5
7王娜,杜海峰,王孙安.一种基于流形距离的迭代优化聚类算法[J].西安交通大学学报,2009,43(5):76-79. 被引量：11
8赵海祥,伍卫国,赵增,李海龙.一种应用于远程并行程序调试系统的新型消息聚集机制[J].西安交通大学学报,2009,43(10):27-31. 被引量：2
9张育林,庄健,王娜,王孙安.一种自适应局部线性嵌入与谱聚类融合的故障诊断方法[J].西安交通大学学报,2010,44(1):77-82. 被引量：11
10张兆军,冯祖仁,任志刚.采用序优化的改进蚁群算法[J].西安交通大学学报,2010,44(2):15-19. 被引量：12

引证文献3

1杨清宇,孙凤伟,张曌,张迪,庄健.利用测地线距离的改进谱聚类算法[J].西安交通大学学报,2012,46(8):1-7. 被引量：5
2丁维龙,韩燕波,王菁,赵卓峰.时间滑动窗口上数据流极值聚集的空间优化[J].西安交通大学学报,2012,46(11):106-111. 被引量：1
3王璐鑫.基于云计算技术的电力大数据属性离散化方法[J].数字技术与应用,2015,33(1):56-58. 被引量：3

二级引证文献9

1丁维龙,韩燕波,王菁,赵卓峰.时间滑动窗口上数据流极值聚集的空间优化[J].西安交通大学学报,2012,46(11):106-111. 被引量：1
2刘艳丽,张建朋.基于密度峰值搜索的改进流形聚类算法[J].计算机工程与设计,2016,37(6):1654-1658. 被引量：1
3李浩然,邓琨,夏成文.基于电力大数据调度云的优化分析[J].电子设计工程,2017,25(24):114-116. 被引量：9
4夏友斌,俞鹏,宋铭敏,潘文虎,王鹏.基于云计算架构的调度自动化系统研究[J].自动化与仪器仪表,2018,0(9):8-11. 被引量：3
5张涛,葛洪伟,苏辉,张欢庆.基于局部密度和测地距离的谱聚类[J].计算机工程与应用,2017,53(7):141-146.
6廖臣,李洵,杨箴,吴方权,付鋆.基于云计算的电力虚拟化数据中心架构研究[J].电子设计工程,2019,27(13):70-74. 被引量：9
7程士卿,郝问裕,李晨,张茁涵,曹容玮.低秩张量分解的多视角谱聚类算法[J].西安交通大学学报,2020,54(3):119-125. 被引量：6
8郑毅,马盈仓,杨小飞.基于可靠邻居与精确簇数的稀疏子空间聚类[J].计算机应用研究,2021,38(1):75-82. 被引量：3
9叶爽怡,扈晓翔,司小胜,袁勃.采用滑动窗口与克里金插值算法的复杂系统可靠性评估方法[J].西安交通大学学报,2023,57(4):171-179. 被引量：5

1樊广佺,马丽平.一种改进的基于Delaunay三角网的聚类算法[J].计算机工程与科学,2016,38(3):585-589. 被引量：3
2侯君,李千目,张宏.分布式拒绝服务的研究综述[J].南京晓庄学院学报,2006,22(6):76-81.
3王磊,郑任儿.决策树算法的比较研究[J].科技信息,2012(30):156-157. 被引量：3
4张维东,朱宏明,周闻钧.决策树算法在蛋白质二级结构预测问题中的应用研究[J].微型电脑应用,2009,25(2):8-10. 被引量：3
5王小菊,蒋芸,李永华.基于依赖度之差的属性重要性评分[J].计算机技术与发展,2009,19(1):67-70. 被引量：9
6张瑞玲,都彦格,张克勇.基于VPRS的ID3算法改进[J].陕西理工学院学报（自然科学版）,2007,23(3):38-41. 被引量：4
7沈焱萍,张学静,吴鹏,王春枝.基于遗传算法的旅行商问题求解[J].计算机光盘软件与应用,2012,15(10):21-22. 被引量：2
8高阳,钟波.基于(α,τ)限制相似关系的变精度粗糙集模型[J].系统工程与电子技术,2009,31(7):1639-1641. 被引量：4
9顿毅杰,张小峰,孙昊,赵丽.一种基于粒度的规则挖掘方法[J].兰州理工大学学报,2006,32(1):105-108. 被引量：3
10内存组建双通道导致无法启动[J].电脑爱好者（普及版）,2011(A02):204-204.

西安交通大学学报

2011年第9期

浏览历史

内容加载中请稍等...

具有全局聚类的多属性离散化算法被引量：3

参考文献14

二级参考文献10

共引文献1

同被引文献39

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

具有全局聚类的多属性离散化算法 被引量：3

参考文献14

二级参考文献10

共引文献1

同被引文献39

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

具有全局聚类的多属性离散化算法被引量：3