基于正态分布特征的连续属性无监督离散化方法研究被引量：2

The Unsupervised Discretization Method of Continuous Attributes Study: Based on Normal Distribution Characteristics

下载PDF

导出

摘要商业智能分析诸多算法是基于离散化数据的,但商业分析的中数据类型不一,将连续属性离散化是商业智能分析中数据预处理中非常重要的内容之一。通过对连续属性的分布特征和不同类别在同一属性下的分布特点分析,提出基于正态分布特征的连续属性无监督离散化方法,并研究了经该离散化方法对连续属性数据预处理后测试数据分类精度与断点个数设置之间的关系,确定统计意义上较为合理的断点个数,实现对连续数据的离散化处理。数值对比实验结果表明:本文所提出的离散化方法在一定程度上可以提高数据集分类精度。 The discrete data is used to the vast majority of research methods of data mining.So it is necessary to discretize the continuous data as a part work of data preprocessing.This paper analy sis a new unsupervised discretization of continuous attributes based on normal distribution characteristics through the normal distribution characteristics and the distribution of different categories in the same attribution. After that,we study the relationship between the classify accuracy of the testing data and the setting number of the cut-points,and we find the logical number of the cut-points.F inally,the experiments show that the method can improve the classify accuracy of the testing datasets.

作者李晓宏孙林岩李刚

机构地区西安交通大学管理学院机械制造系统工程国家重点实验室

出处《科学与管理》 2009年第6X期5-8,共4页 Science and Management

关键词正态分布连续属性离散化数据挖掘 The Normal Distribution Continuous Attribute Discretization Method Data Mining

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1李刚,童頫.基于混合概率模型的无监督离散化算法[J].计算机学报,2002,25(2):158-164. 被引量：16
2Marc Boullé. MODL: A Bayes optimal discretization method for continuous attributes[J] 2006,Machine Learning(1):131～165
3Stephen D. Bay. Multivariate Discretization for Set Mining[J] 2001,Knowledge and Information Systems(4):491～512

二级参考文献14

1[1]Catlett J. On changing continuous attributes into ordered discreteattributes. In: Proc European Working Session on Learning (EWSL91). LNAI-482, Porto,Portugal, 1991. 164-178
2[2]Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretizationof continuous features. In: Proc the 12th International Conference, Morgan KaufmannPublishers, 1995.194-202
3[3]Quinlan J R. C4.5: Programs for Machine Learning. San Mateo: Morgan Kaufmann,1993
4[4]Fayyad U, Irani K. Multi-interval discretizaton of continuous-valuedattributes for classification learning. In: Proc the 13th International JointConference on Artificial Intelligence, San Mateo, CA. Morgan Kaufmann Publishers,1993. 1022-1027
5[5]Li G, Tong F. WILD: Weighted information-loss discretization algorithm forordinal attributes. In: Proc Conference on Intelligent Information Processing, the16th IFIP World Computer Congress 2000, Beijing, China, 2000.254-527
6[6]Quinlan J R. Improved use of continuous attributes in C4.5. Journal ofArtificial Intelligence Research, 1996,4(1):77-90
7[7]Wong A K C, Chiu D K Y. Synthesizing statistical knowledge from incompletemixed-mode data. IEEE Trans Pattern Analysis and Machine Intelligence, 1987,PAMI-9(6):796-805
8[8]Banfield J D, Raftery A E. Model based Gaussian and non-Gaussian clustering.Biometrics, 1993,49(3):803-821
9[9]Mackay D J C. Information Theory, Inference and Learning Algorithms.Cambridge: Cambridge University Press, 2000
10[10]Dempster A P, Laird N M, Rubin D B. Maximum likelihood for incomplete data viathe EM algorithm. Journal of the Royal Statistical Society, Series B, 1977,39(1):1-38

共引文献15

1蒲凌杰,曾繁慧,郭嗣琮.2-Flou数的因素值离散化算法[J].辽宁工程技术大学学报（自然科学版）,2019,38(6):573-576. 被引量：1
2魏育飞.离散型区间概率和离散型第二类模糊概率随机变量数学期望的性质与求解[J].佳木斯教育学院学报,2013(2):131-131.
3王立宏,吴彦,吴耿锋.离散格的一种启发式搜索算法[J].计算机应用,2004,24(8):41-43. 被引量：2
4贺跃,郑建军,朱蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638. 被引量：15
5王立宏,吴耿锋.信息表离散格的进一步研究[J].模式识别与人工智能,2005,18(1):25-30. 被引量：2
6李海军,王钲旋,王利民,苑森淼.一种基于贝叶斯测度的有监督离散化方法[J].仪器仪表学报,2005,26(8):786-789. 被引量：5
7赵建锋,王定国,吕圣军.基于数据分区的连续属性整体离散化方法研究[J].杭州电子科技大学学报（自然科学版）,2006,26(1):18-21.
8王立宏,孙立民,孟佳娜.数值离散化中粒度熵与分类精度的相关性[J].重庆大学学报（自然科学版）,2008,31(1):57-60. 被引量：3
9王立宏,吴耿锋.离散化方案的度量[J].模式识别与人工智能,2008,21(4):494-499. 被引量：1
10蒋盛益,李霞,郑琪.一种近似等频离散化方法[J].暨南大学学报（自然科学与医学版）,2009,30(1):31-34. 被引量：3

同被引文献11

1蒲凌杰,曾繁慧,郭嗣琮.2-Flou数的因素值离散化算法[J].辽宁工程技术大学学报（自然科学版）,2019,38(6):573-576. 被引量：1
2谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
3张文宇.数据挖掘过程中连续属性离散化新方法研究[J].数学的实践与认识,2007,37(10):90-96. 被引量：5
4蒋盛益,李霞,郑琪.一种近似等频离散化方法[J].暨南大学学报（自然科学与医学版）,2009,30(1):31-34. 被引量：3
5花海洋,赵怀慈.一种新的无监督连续属性离散化方法[J].计算机工程与应用,2011,47(6):208-211. 被引量：10
6徐峻岭,周毓明,陈林,徐宝文.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382. 被引量：70
7李刚,童頫.基于混合概率模型的无监督离散化算法[J].计算机学报,2002,25(2):158-164. 被引量：16
8徐盈盈,钟才明.基于集成学习的无监督离散化算法[J].计算机应用,2014,34(8):2184-2187. 被引量：5
9陈迎春,李鸥,孙昱.基于聚类离散化和变精度邻域熵的属性约简[J].控制与决策,2018,33(8):1407-1414. 被引量：11
10王慧健,刘峥,李云,李涛.基于神经网络语言模型的时间序列趋势预测方法[J].计算机工程,2019,45(7):13-19. 被引量：32

引证文献2

1杜双育,王红斌,李峰.变压器油温异常状态识别方法[J].电气应用,2015,0(S2):859-862. 被引量：3
2高天宇,王庆荣,杨妍,马辰坤.多量级应急数据无监督离散化方法研究[J].计算机工程,2021,47(4):313-320. 被引量：5

二级引证文献8

1高自伟,张健,徐超.220 kV主变压器负载运行油温测试研究[J].黑龙江电力,2017,39(3):252-254.
2张强,李养俊,何子春,何瑞峰.光伏电站大规模箱变油温高原因分析[J].电力安全技术,2023,25(4):23-26.
3邵杰,刘晶.基于离散变量和FW-PSO的网络拓扑优化的算法[J].计算机仿真,2023,40(5):413-416.
4王飞.基于March算法的医疗器械溯源数据存储方法[J].中国医疗设备,2023,38(7):39-44.
5刘瑞,杨玲.基于东南亚热带季风气候下光伏箱变的故障处理[J].科学技术创新,2023(27):65-68.
6杨雪,李昌利.水下气泡羽流运动模型仿真[J].计算机仿真,2023,40(10):331-335.
7朱立炫,卢照,卢金清.基于贪婪算法的大数据兼容性云存储方法仿真[J].计算机仿真,2024,41(1):537-540.
8于刘.物联网终端信道连续数据流脆弱点快速识别[J].电子设计工程,2024,32(9):161-164.

1吕延岗.Excel VBA在成绩管理中的应用[J].办公自动化,2014,19(7):49-50. 被引量：1
2陈建.风险管控和法规遵从推动商业分析软件快速增长[J].办公自动化（综合月刊）,2009(8):19-19. 被引量：1
3君羊.数据中心建设应注重提升数据的可用性和安全性[J].金融科技时代,2011,19(11):13-13.
4Gartner:中国商业分析管理者需准备迎接大数据和数据专家的定位[J].电信技术,2014(5):111-111.
5CIO：商业分析的重要性[J].网络运维与管理,2014(3):5-5.
6邓晓衡,张连明,刘毅,赵扶摇,陈志刚.一种具有负载平衡的虚拟计算环境拓扑[J].中南大学学报（自然科学版）,2011,42(6):1643-1649. 被引量：1
7李夏.SAS进入商业分析软件供应商前三甲[J].电子商务,2005,6(12):8-8.
8第三届SAS中国用户大会暨商业分析领袖峰会即将于6月拉开帷幕[J].中国金融电脑,2015,0(5):95-95.
9张雪冰.试卷分析中的正态和非正态分布[J].安徽建筑工业学院学报（自然科学版）,2009,17(4):86-89. 被引量：4
10李春梅.在CRM中应用DW、DM技术进行商业分析和决策[J].楚雄师范学院学报,2004,19(3):6-9.

科学与管理

2009年第6X期

浏览历史

内容加载中请稍等...

基于正态分布特征的连续属性无监督离散化方法研究被引量：2

参考文献3

二级参考文献14

共引文献15

同被引文献11

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于正态分布特征的连续属性无监督离散化方法研究 被引量：2

参考文献3

二级参考文献14

共引文献15

同被引文献11

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于正态分布特征的连续属性无监督离散化方法研究被引量：2