题名 基于微粒群优化的连续属性离散化算法
被引量:9
1
作者
张腾飞
王锡淮
肖健梅
机构
上海海事大学电气自动化系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第3期44-46,共3页
基金
上海市教委科学研究重点基金资助项目(04FA02)
上海市重点学科建设基金资助项目(T0602)
文摘
连续属性的离散化是粗糙集理论的主要问题之一,也是影响粗糙集理论实用性的瓶颈之一。由于没有最佳离散化形式的统一标准,大多离散化算法采用的启发式带有较强的主观性,也难以得到较满意的离散效果。该文提出了基于微粒群优化的连续属性离散化方法,将各属性的离散化划分点初始化为一群粒子,在保证决策表分类能力不变的情况下,通过粒子间的相互作用寻求理想的离散化划分点,使得决策表引入较少的冲突。实验结果验证了该方法的有效性。
关键词
微粒群优化
粗糙集
属性离散化
Keywords
Particle swarm optimization
Rough sets
Attribute discretization
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种基于进化算法的连续属性离散化方法
被引量:7
2
作者
姚望舒
商琳
陈兆乾
机构
南京大学软件新技术国家重点实验室
出处
《计算机应用与软件》
CSCD
北大核心
2005年第3期37-39,85,共4页
基金
江苏省自然科学基金的资助(DK2 0 0 2 0 81 )
文摘
连续属性离散化是知识系统中的一个重要环节 ,一个好的离散化方法能够起到简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题 ,本文把连续属性值离散化问题作为一种约束优化问题 ,采用遗传算法来获得最优解 ,并针对离散化问题设计了相应的编码方式、交叉算子和变异算子。实验结果表明 。
关键词
数据库
数据挖掘
知识发现
进化 算法
连续属性离散化 方法
Keywords
Quantization Code Crossover Mutation Fitness
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于决策的剥离式连续属性离散化算法
被引量:5
3
作者
潘巍
李晋川
王阳生
杨宏戟
机构
首都师范大学信息工程学院
四川大学
中国科学院自动化研究所模式识别国家重点实验室
Software Technology Research Laboratory
出处
《计算机科学》
CSCD
北大核心
2007年第8期208-210,共3页
基金
国家863高技术研究发展计划项目(编号:2003AA114020)
文摘
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散。此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围。由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息。本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化。
关键词
粗糙集理论
属性离散化
候选断点
决策相容性
Keywords
Rough set theory, Attribute discretization, Candidate point, Decision consistency
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 粗糙集理论中一种属性离散化算法
被引量:14
4
作者
安利平
仝凌云
机构
南开大学国际商学院
河北工业大学管理学院
出处
《河北工业大学学报》
CAS
2002年第3期39-43,共5页
文摘
针对定量属性离散化制约粗糙集理论应用这一关键问题,利用分级聚类法和粗糙集理论中依赖度的概念,提出了一种对决策系统中条件属性进行离散化的增类减类算法,实现了决策系统的属性约简.该算法易于理解,计算简单,以实例说明了算法的合理性和有效性.
关键词
粗糙集
知识表示系统
属性离散化
属性 选择
Keywords
rough sets
information systems
data discretization
attribute selective
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于改进离散粒子群优化的连续属性离散化
被引量:8
5
作者
张荣光
胡晓辉
宗永胜
机构
兰州交通大学电子与信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2017年第18期108-114,235,共8页
基金
国家自然科学基金(No.61163009)
甘肃省科技支撑计划项目(No.144NKCA040)
文摘
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。
关键词
离散 粒子群
模拟退火
粗糙集
连续属性离散化
Keywords
discrete particle swarm
simulated annealing
rough set
continuous attributes discretization
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于改进粒子群优化的粗糙集连续属性离散化
被引量:8
6
作者
汪凌
胡培
机构
西南交通大学经济管理学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第15期115-117,158,共4页
基金
江西省教育厅科研项目(No.JC0904
No.GJJ09145)
文摘
提出一种基于改进粒子群优化的连续属性离散化算法。在算法优化方面,采用改进粒子群优化算法。为了克服传统粒子群优化的不足,对种群初始化和自适应调整粒子的惯性权重,提高了粒子群优化算法的全局寻优能力。在粗糙集属性离散化方面,主要是通过将最小断点集作为优化目标,粗糙集属性依赖度作为约束条件。仿真结果表明,该方法能有效地解决决策表连续属性离散化问题,计算速度快,收敛性好。
关键词
改进粒子群优化
粗糙集
连续属性离散化
Keywords
improved particle swarm optimization
rough sets
continuous attribute discretization
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种连续属性离散化的新方法
被引量:5
7
作者
凌方
王建东
机构
南京航空航天大学信息科学与技术学院
出处
《数据采集与处理》
CSCD
2002年第2期179-182,共4页
文摘
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念 :属性重要度 (Attribute significance) ,它常用来作为生成好的约简所采用的启发式评价函数。受此启发 ,在连续属性离散化方法中可把它用于属性选择 ,即从已离散化的属性集中选择出属性重要度最高的属性 ,再把它和待离散化的连续属性一起进行聚类学习 ,得到该连续属性的离散区间。文中介绍了该方法的算法描述 ,并通过实验与其他算法进行了比较。实验结果表明 ,由于这种方法在离散化过程中结合了粗集理论的思想 ,考虑了属性间的相互影响 ,从而产生了比较合理的划分点 ,提高了规则的分类精度。
关键词
连续属性离散化
数据挖掘
粗集
聚类学习
数据库
Keywords
discretization
data mining
rough sets
clustering learning
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 连续属性离散化的Imp-Chi2算法
被引量:2
8
作者
桑雨
闫德勤
刘磊
梁宏霞
机构
辽宁师范大学计算机信息与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第17期39-41,共3页
基金
国家自然科学基金资助项目(60372071)
辽宁省教育厅高等学校科学研究基金资助项目(2004C031)
辽宁师范大学校基金资助项目
文摘
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。
关键词
连续属性离散化
CHI2算法
属性 重要性
训练集类比例抽取
Keywords
discretization of real value attributes
Chi2 algorithm
attribute significance
selection of training set according to class proportion
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于语言场理论的连续属性离散化方法及实现
被引量:3
9
作者
周颖
杨炳儒
机构
北京科技大学信息工程学院
出处
《计算机科学》
CSCD
北大核心
2003年第5期63-66,共4页
基金
国家自然科学基金(69835001)
北京市自然科学基金(4022008)
文摘
The paper introduces author's job on realization of continuous attribute discretization based on languagefield theory that Prof. Yang put forward. It applies a new algorithm of seeking border values and its incremental onerather than seeking boundary ones that is a difficulty. The theory of the algorithm is self-contained, and its realiza-tion is simple. And the paper introduces simply four thoughts about defining language values and then discretizing fornon-numerical value that author already realized in KDD * .
关键词
知识表示
知识发现
机器学习
语言场理论
连续属性离散化 方法
Keywords
Data mining, Language field, Continuous attribute, Discretization
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 连续属性离散化算法SHD及其改进
被引量:3
10
作者
刘玲
肖嵘
机构
南京大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2001年第9期97-99,116,共4页
文摘
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。
关键词
规则抽取
有导师学习
神经网络
连续属性离散化 算法
SHD
Keywords
discretization of continuous features, rule-extraction, supervised learning
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 连续属性离散化的Integral Chi2算法
被引量:2
11
作者
闫德勤
张丽平
机构
辽宁师范大学计算机系
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第4期691-693,共3页
基金
国家自然科学基金项目(60372071)资助
辽宁省教育厅高等学校科学研究基金项目(2004C031)资助
辽宁师范大学校基金资助
文摘
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(IntegralChi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性.
关键词
连续属性离散化
CHI2算法
数据挖掘
Keywords
discretization of real value attributes
Chi2 algorithm
data mining
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种基于改进粒子群的连续属性离散化算法
被引量:8
12
作者
汪凌
机构
北京交通大学中国产业安全研究中心
固体废物处理与环境安全教育部重点实验室
出处
《计算机工程与应用》
CSCD
2013年第21期29-32,共4页
基金
教育部人文社会科学研究青年基金项目(No.11YJC630195)
安徽省高校省级自然科学研究重点项目(No.KJ2012A076)
固体废物处理与环境安全教育部重点实验室开放基金项目(No.SWMES 2011-05)
文摘
提出一种基于改进粒子群的连续属性离散化算法。该算法结合集群智能优化理论和粗糙集理论,将各属性离散化分割点初始化为粒子群体,通过粒子间的相互作用寻求最优离散化分割点。将提出的离散化算法应用于UCI数据集实验中,实验结果表明,该算法能使决策系统的信息损失降低到最小,并可获取更为简洁的决策规则。
关键词
改进粒子群
智能优化
粗糙集
连续属性离散化
Keywords
improved particle swarm
intelligent optimization
rough sets
continuous attribute discretization
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于信息论的连续属性离散化
被引量:1
13
作者
徐如燕
鲁汉榕
郭齐胜
机构
装甲兵工程学院
空军雷达学院
出处
《计算机工程与设计》
CSCD
2002年第2期62-64,共3页
文摘
使用信息论的方法进行连续属性的离散化。引入 Hellinger偏差 HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均。分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。
关键词
连续属性离散化
信息论
知识发现
机器学习
Keywords
merging
splitting
cutpoint
HD divergence
interval distance
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
题名 作战仿真数据属性离散化研究
被引量:1
14
作者
罗佳
薛青
唐志武
机构
装甲兵工程学院装备指挥与管理系
[
出处
《计算机仿真》
CSCD
北大核心
2013年第9期26-29,65,共5页
基金
军队科研计划项目
文摘
数据属性离散化是作战仿真数据预处理的重要组成部分,也是作战仿真数据研究的重点和难点。论述了进行数据属性离散化的必要性,提出一种基于改进属性重要度和信息熵(Discretization by Improved Attribute Significance and Information Entropy,DIAFIE)的作战仿真数据属性离散化算法。算法定义了属性重要度并以此为聚类判断依据将数据值域划分为多个离散区间,然后根据信息熵优化合并相邻区间以保证离散化结果的精度。实验证明上述算法能有效处理作战仿真数据属性离散化问题,具有产生断点少、分类精度高的优点。
关键词
作战仿真
属性离散化
属性 重要度
信息熵
Keywords
Combat simulation
Attribute discretization
Attribute significance
Information entropy
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
题名 基于信息论的连续属性离散化
被引量:2
15
作者
徐如燕
鲁汉榕
郭齐胜
机构
装甲兵工程学院
空军雷达学院指挥自动化工程系
出处
《空军雷达学院学报》
2001年第2期20-23,共4页
文摘
使用信息论的方法进行连续属性的离散化。引入Hellinger偏差HD (Hellinger Di-vergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均。分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。
关键词
连续属性离散化
算法
归并
度量
信息论
信息熵
切分
离散 化 方法
平均
区间
Keywords
merging
splitting
cutpoint
HD divergence
interval distance
分类号
TN911
[电子电信—通信与信息系统]
TP182
[自动化与计算机技术—控制理论与控制工程]
题名 文本分类中连续属性离散化方法的研究
16
作者
董乐红
耿国华
周明全
机构
西北大学信息科学与技术学院
北京师范大学信息科学与技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第11期2222-2225,共4页
基金
国家自然科学基金重点项目(60736008)资助
陕西省教育厅自然科学专项(09JK738)资助
文摘
针对机器学习领域的一些分类算法不能处理连续属性的问题,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法.该算法定义了一个离散化过程,离散化了采用传统信息检索的加权技术生成的非二值特征词空间,然后判断原特征空间中每个特征词属于或不属于某给定子区间,将问题转换成二值表示方式,以使得这些分类算法适用于连续属性值.实验结果表明,该算法离散过程简单高效,预测精度高,可理解性强.
关键词
机器学习
文本分类
信息增益
连续属性离散化
BOOSTING算法
Keywords
machine learning
text categorization
information gain
continuous attribute discretization
boosting algorithm
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种新的用于连续值属性离散化的约简算法
被引量:4
17
作者
刘震宇
郭宝龙
杨林耀
机构
西安电子科技大学测控工程系
出处
《控制与决策》
EI
CSCD
北大核心
2002年第5期545-549,共5页
基金
国家自然科学基金项目 (6 9975 0 15 )
文摘
针对在 Nguyen和 Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题 ,以及在无核数据集中启发式约简算法计算量比较大等问题 ,在粗糙集理论和属性频率函数的基础上给出一个新概念——候选核 ,并提出一种新的用于连续值属性离散化的约简算法——基于候选核的启发式约简算法 (简称 BCC)。该算法可以寻找到能对所有属性进行离散化的约简。实验表明 ,所提出的 BCC算法能提高大数据集的离散化效果。
关键词
连续值属性离散化
约简算法
数据挖掘
粗糙集理论
人工智能
Keywords
data mining
rough set theory
discretization
reduction algorithm
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种基于粗糙集理论的连续属性离散化新算法
被引量:7
18
作者
李慧
闫德勤
韩丽
机构
辽宁师范大学计算机系
柴河林业局第一小学
出处
《计算机应用研究》
CSCD
北大核心
2010年第1期77-78,共2页
基金
国家自然科学基金资助项目(60372071)
中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题基金资助项目(20070101)
+1 种基金
辽宁省教育厅高等学校科学研究基金资助项目(2008344)
大连市科技局科技计划资助项目(2007A10GX117)
文摘
粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分。针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。实验通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测,实验结果证明了算法的有效性。
关键词
连续属性离散化
粗糙集
决策表
离散 区间
数据挖掘
Keywords
discrefization of continuous attributes
rough set
decision table
discretization interval
data mining
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 Rough Set中基于聚类的连续属性离散化方法
被引量:5
19
作者
韩秋明
赵轶群
机构
同济大学计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第4期81-82,87,共3页
文摘
分析了一些Rough Set中连续属性离散化的方法,指出了其中的某些不足,并给出了一个基于聚类的连续属性离散化的方法。对当前的论域中的例子根据相似性进行聚类, 对每个聚类在各属性轴上的投影的边界设离散断点。该方法考虑了各属性之间的相关性,能得到比较合理的离散结果。
关键词
聚类
连续属性离散化 方法
粗糙集理论
知识表达
数据挖掘
Keywords
Rough set;Discretization;Cluster
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种基于信息论的决策表连续属性离散化算法
被引量:3
20
作者
岳海亮
闫德勤
机构
辽宁师范大学计算机与信息技术学院
出处
《计算机科学》
CSCD
北大核心
2010年第4期231-233,237,共4页
基金
国家自然科学基金(60372071)
中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题基金(20070101)资助
文摘
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。
关键词
连续属性离散化
决策表
信息熵
不一致率
Keywords
Discretization,Decision table, Information entropy, Inconsistency
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]