连续属性离散化算法研究综述被引量：10

SURVEY ON CONTINUOUS FEATURE DISCRETISATION ALGORITHM

下载PDF

导出

摘要在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化。以有监督和无监督离散化为线索,对典型离散化算法的基本思想进行梳理总结,并从时间复杂度以及对后续分类的影响等角度进行对比。最后对连续属性离散化的一些主要研究方向进行展望。 In studies of machine learning and data mining,quite a few algorithms take the discrete values as the processing objects,and often have the need to discretise continuous attributes. Taking the supervised and unsupervised discretisation as the clue,we sort out and summarise the basic idea of typical discretisation algorithms,and make the comparison from the perspectives of time complexity and the effects on the classification implemented afterwards respectively. Finally,we suggest the expectation on a couple of main research directions about continuous features discretisation.

作者张钰莎蒋盛益

机构地区广东外语外贸大学南国商学院信息科学技术系广东外语外贸大学信息学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第8期6-8,140,共4页 Computer Applications and Software

基金国家自然科学基金项目(61070061)

关键词有监督离散化算法无监督离散化算法分类算法 Supervised features discretisation Unsupervised features discretisation Classification algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Salvador Garcia,Julian Luengo,et al.A Survey of Discretization Techniques:Taxonomy and Empirical Analysis in Supervised Learning[J].knowledge and Data engineerin,2013,25(4):734-750.
2Sotiris Kotsiantis,Dimitris Kanellopoulos.Discretization Techniques:A recent survey[J].GESTS International Transactions on Computer Science and Engineering,2006,32(1):47-58.
3Chang-Hwan Lee.A Hellinger-based discretization method for numeric attributes in classification learning[J].Knowledge-Based Systems.2007,20(4):419-425.
4David Tian,Xiaojun Zeng,John Keane.Core-generating approximate minimum entropy discretization for rough set feature selection in pattern classification[J].International Journal of Approximate Reasoning,2011,52(6):863-880.
5Lukasz A Kurgan,Krzysztof J Cios.CAIM Discretization Algorithm[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(2):145-153.
6Ruiz FJ,Angulo C,Agell IDD N.A supervised interval distance-based method for discretization[J].IEEE Transactions on Knowledge and Data Engineering,2008,10(9):1230-1238.
7Chengjung Tsai Chien I Lee,Weipang Yang.A discretization algorithm based on Class-Attribute Contingency Coefficient[J].Information Sciences,2008,178(3):714-731.
8Shengyi Jiang,Xia Li,Qi Zheng,et al.Approxmate Equal Frequency Discretization Method[C]//GCIS2009,2009,5:514-518.
9Ankit Guptaa,Kishan G Mehrotrab,Chilukuri Mohanb.A clusteringbased discretization for supervised learning[J].Statistics&Probability Letters,2010,80(9-10):816-824.
10Chaoton Su,Jyhhwa Hsu.An Extended Chi2 Algorithm for Discretization of Real Value Attributes[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(3):437-441.

二级参考文献14

1[1]Catlett J. On changing continuous attributes into ordered discreteattributes. In: Proc European Working Session on Learning (EWSL91). LNAI-482, Porto,Portugal, 1991. 164-178
2[2]Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretizationof continuous features. In: Proc the 12th International Conference, Morgan KaufmannPublishers, 1995.194-202
3[3]Quinlan J R. C4.5: Programs for Machine Learning. San Mateo: Morgan Kaufmann,1993
4[4]Fayyad U, Irani K. Multi-interval discretizaton of continuous-valuedattributes for classification learning. In: Proc the 13th International JointConference on Artificial Intelligence, San Mateo, CA. Morgan Kaufmann Publishers,1993. 1022-1027
5[5]Li G, Tong F. WILD: Weighted information-loss discretization algorithm forordinal attributes. In: Proc Conference on Intelligent Information Processing, the16th IFIP World Computer Congress 2000, Beijing, China, 2000.254-527
6[6]Quinlan J R. Improved use of continuous attributes in C4.5. Journal ofArtificial Intelligence Research, 1996,4(1):77-90
7[7]Wong A K C, Chiu D K Y. Synthesizing statistical knowledge from incompletemixed-mode data. IEEE Trans Pattern Analysis and Machine Intelligence, 1987,PAMI-9(6):796-805
8[8]Banfield J D, Raftery A E. Model based Gaussian and non-Gaussian clustering.Biometrics, 1993,49(3):803-821
9[9]Mackay D J C. Information Theory, Inference and Learning Algorithms.Cambridge: Cambridge University Press, 2000
10[10]Dempster A P, Laird N M, Rubin D B. Maximum likelihood for incomplete data viathe EM algorithm. Journal of the Royal Statistical Society, Series B, 1977,39(1):1-38

共引文献15

1蒲凌杰,曾繁慧,郭嗣琮.2-Flou数的因素值离散化算法[J].辽宁工程技术大学学报（自然科学版）,2019,38(6):573-576. 被引量：1
2魏育飞.离散型区间概率和离散型第二类模糊概率随机变量数学期望的性质与求解[J].佳木斯教育学院学报,2013(2):131-131.
3王立宏,吴彦,吴耿锋.离散格的一种启发式搜索算法[J].计算机应用,2004,24(8):41-43. 被引量：2
4贺跃,郑建军,朱蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638. 被引量：15
5王立宏,吴耿锋.信息表离散格的进一步研究[J].模式识别与人工智能,2005,18(1):25-30. 被引量：2
6李海军,王钲旋,王利民,苑森淼.一种基于贝叶斯测度的有监督离散化方法[J].仪器仪表学报,2005,26(8):786-789. 被引量：5
7赵建锋,王定国,吕圣军.基于数据分区的连续属性整体离散化方法研究[J].杭州电子科技大学学报（自然科学版）,2006,26(1):18-21.
8王立宏,孙立民,孟佳娜.数值离散化中粒度熵与分类精度的相关性[J].重庆大学学报（自然科学版）,2008,31(1):57-60. 被引量：3
9王立宏,吴耿锋.离散化方案的度量[J].模式识别与人工智能,2008,21(4):494-499. 被引量：1
10蒋盛益,李霞,郑琪.一种近似等频离散化方法[J].暨南大学学报（自然科学与医学版）,2009,30(1):31-34. 被引量：3

同被引文献143

1许磊,张凤鸣,靳小超.基于小生境离散粒子群优化的连续属性离散化算法[J].数据采集与处理,2008,23(5):584-588. 被引量：4
2王丽华,刘贺文,张晨阳,周同.铁路旅客运输清算系统[J].铁路技术创新,2012(4):52-56. 被引量：2
3肖河,肖盛.基于粗糙集理论的遗传神经网络风速预测模型[J].电网与清洁能源,2012,28(9):82-87. 被引量：6
4董雷,周文萍,张沛,刘广一,李伟迪.基于动态贝叶斯网络的光伏发电短期概率预测[J].中国电机工程学报,2013,33(S1):38-45. 被引量：77
5史森林.铁路客票收入影响因素分析[J].铁道运输与经济,2004,26(8):37-40. 被引量：1
6孟祥萍,鞠传香,王贤勇,任纪川.粗糙集理论中基于属性重要性的离散化方法[J].东北电力学院学报,2005,25(1):40-43. 被引量：6
7王卓,王艳辉,贾利民,李平.改进的BP神经网络在铁路客运量时间序列预测中的应用[J].中国铁道科学,2005,26(2):127-131. 被引量：50
8魏东,张明廉,蒋志坚,孙明.基于贝叶斯方法的神经网络非线性模型辨识[J].计算机工程与应用,2005,41(11):5-8. 被引量：28
9罗忠辉,薛晓宁,王筱珍,吴百海,何真.小波变换及经验模式分解方法在电机轴承早期故障诊断中的应用[J].中国电机工程学报,2005,25(14):125-129. 被引量：67
10谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134

引证文献10

1杜瑾,郝珺,樊海玮.高速公路收费数据中环境-运营特征关联规则挖掘[J].长安大学学报（自然科学版）,2015,35(5):97-103. 被引量：3
2董跃华,刘力.基于AHTPSO的连续属性离散化算法[J].计算机工程与科学,2016,38(5):1014-1022.
3张永,朱建生,吕晓艳,贾新茹,王炜炜.高铁列车停靠站客票收入率分类及收入预测研究[J].铁道学报,2018,40(3):23-28.
4张永,朱建生,冯梅,吕晓艳,贾新茹,王炜炜.铁路旅客列车客座率分类及预测模型研究[J].铁道运输与经济,2018,40(3):39-45. 被引量：3
5唐立力.基于粗糙遗传BP神经网络的滚动轴承故障诊断[J].机械工程与自动化,2018(3):138-140. 被引量：4
6贾新茹,闫立斌,张永,李永,冯焱.基于相关性分析的旅客列车客票收入测算方法研究[J].铁路计算机应用,2019,28(4):18-21.
7王红爱.基于XGBoost算法的铁路旅客退票率预测研究[J].铁道学报,2019,41(12):19-25. 被引量：6
8胡文曦,肖先勇,汪颖,张文海,王杨.现代电网电力扰动数据分析与主动应用[J].电力系统自动化,2021,45(4):1-11. 被引量：18
9王洪涛,邹斌.基于动态贝叶斯网络的电价区间预测[J].电力系统保护与控制,2022,50(5):117-127. 被引量：10
10罗晓军.基于聚类算法的学生学籍数据分析[J].湖南邮电职业技术学院学报,2023,22(4):52-56.

二级引证文献44

1刘朝辉,汪晓玲,贺诚,王中杰.基于自适应动态贝叶斯网络的无人平台不确定推理机制研究[J].系统仿真技术,2023,19(4):319-325.
2李宁,杨镇华,马伟中,李昊,王行行.基于CatBoost算法的SAP混凝土抗压强度预测[J].内蒙古公路与运输,2023(5):1-6. 被引量：1
3郝晓培,单杏花,张军锋.铁路旅客价值指数计算模型的设计研究[J].铁道运输与经济,2018,40(9):80-85. 被引量：2
4刘慧婷,闫海峰.基于备选集的临客列车开行方案优化选择研究[J].交通运输工程与信息学报,2019,17(3):62-70. 被引量：5
5王晓蕾,姬治岗.煤矿机械设备故障分析与诊断技术及发展趋势[J].科学技术与工程,2020,20(12):4621-4630. 被引量：19
6徐活耀,陈里里.基于堆栈稀疏自编码器的滚动轴承故障诊断[J].机床与液压,2020,48(14):190-194. 被引量：7
7周兵,王传生,刘芳亮.基于大型桥梁的最优交通流量控制策略选择[J].长安大学学报（自然科学版）,2020,40(4):68-77. 被引量：1
8王树兴,孙凌峰.山东高速公路运营管理中大数据应用探究[J].中国交通信息化,2020(8):97-100. 被引量：6
9杨晨蕾,包腾飞.基于FCM-XGBoost的大坝变形预测模型[J].长江科学院院报,2021,38(8):66-71. 被引量：11
10朱颖婷,张军,曹先彬,杨立鹏.基于多步LSTM模型融合的铁路客票订单量预测方法[J].铁道学报,2021,43(7):19-25. 被引量：2

1叶明全,胡学钢.基于灰色关联度的粗集连续属性离散化算法[J].重庆邮电大学学报（自然科学版）,2007,19(4):409-412. 被引量：1
2刘业政,焦宁,姜元春.连续属性离散化算法比较研究[J].计算机应用研究,2007,24(9):28-30. 被引量：20
3胡逢彬,桂现才.基于相对熵的决策表连续属性离散化算法[J].计算机与信息技术,2006(4):39-41. 被引量：3
4黄巧云.一种监督型的连续属性离散化算法的研究[J].三明学院学报,2015,32(4):60-64.
5林仁炳,王基一.连续属性离散化算法的时间复杂性分析[J].计算机与现代化,2005(9):40-42. 被引量：3
6桑琳,宫悦,陈斯,高连阳,徐满华.基于粗糙集的连续属性离散化算法及其应用[J].高师理科学刊,2008,28(2):1-4. 被引量：1
7张爱兰.Flash在电子商务网站中的应用研究[J].经贸实践,2015(13).
8衣晓,关欣,何友.一种新的基于粗糙集的连续属性离散化算法[J].火力与指挥控制,2009,34(12):12-14. 被引量：1
9贺跃,郑建军,朱蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638. 被引量：15
10张腾飞,王锡淮,肖健梅.基于微粒群优化的连续属性离散化算法[J].计算机工程,2006,32(3):44-46. 被引量：9

计算机应用与软件

2014年第8期

浏览历史

内容加载中请稍等...

连续属性离散化算法研究综述被引量：10

参考文献16

二级参考文献14

共引文献15

同被引文献143

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

连续属性离散化算法研究综述 被引量：10

参考文献16

二级参考文献14

共引文献15

同被引文献143

引证文献10

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

连续属性离散化算法研究综述被引量：10