基于属性重要度的数据补齐方法被引量：4

Attribute significance based imputation method

下载PDF

导出

摘要为更好地处理不完备决策信息系统的缺失值,提出一种基于属性重要度的增量式数据补齐算法。基于同类数据分布的内聚性和异类数据的耦合性定义属性的重要度,优先填补重要属性;提出一种属性重要度定义;采取加权欧氏距离和余弦相似从距离和角度两方面同时衡量样本的相似度;为避免不同类别数据的相互干扰,将相似样本的搜索范围限定为同类别的完备样本集。实验采用7个UCI标准数据集比较该算法和其它算法,实验结果表明,该算法能有效提高补齐后的分类识别率。 To better deal with missing values in incomplete decision information system,an attribute significance based incremental imputation was put forward.The attribute importance was defined based on cohesion and heterogeneity of data distribution of same category to design the filling order.Weighted Euclidean distance and cosine similarity distance were simultaneously employed to measure the similarity between samples.To avoid mutual interference between different categories of data,search scope was limited to complete samples with same category.Seven UCI standard datasets were used to compare the proposed imputation and other methods.Results show that this algorithm can effectively improve the classification performance.

作者吴康康潘巍

机构地区首都师范大学信息工程学院首都师范大学高可靠嵌入式系统技术北京市工程研究中心首都师范大学电子系统可靠性技术北京市重点实验室

出处《计算机工程与设计》北大核心 2016年第3期725-730,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61070049 61202027) 国际科技合作基金项目(2012DFA11340) 北京市自然科学基金项目(4122015) 电子系统可靠性技术北京市重点实验室2012年阶梯计划基金项目(Z121101002812006)

关键词不完备决策系统增量式数据补齐属性重要度相似样本 incomplete decision system incremental imputation attribute significance similar samples

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1谷峪,于戈,李晓静,王义.基于动态概率路径事件模型的RFID数据填补算法[J].软件学报,2010,21(3):438-451. 被引量：25
2武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
3Wang H. Discovering patterns of missing data in survey data- bases: An application of rough sets[J]. Expert Systems with Applications, 2009, 36 (3): 6256-6260.
4陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10
5陈颖悦,陈玉明.基于信息熵与蚁群优化的属性约简算法[J].小型微型计算机系统,2015,36(3):586-590. 被引量：11
6丁春荣,李龙澍.基于相似关系向量的不完备数据补齐算法[J].计算机应用研究,2013,30(2):383-385. 被引量：6
7杨小平.粗集中最大相似度的不完备数据补齐[J].计算机工程与应用,2012,48(36):164-166. 被引量：6
8Zhang SC. Nearest neighbor selection for iteratively KNN im- putation [J]. Journal of Systems and Software, 2012, 85 (11) : 2541-2552.
9杨成福,舒兰.基于容差关系的不完备决策系统属性约简算法[J].计算机技术与发展,2006,16(9):68-69. 被引量：5
10Wang H, Wang S. Discovering patterns of missing data in survey databases: An application of rough sets [J]. Expert Systems with Applications, 2009, 36 (3): 6256-6260.

二级参考文献68

1李萍,吴祈宗.基于概率相似度的不完备信息系统数据补齐算法[J].计算机应用研究,2009,26(3):881-883. 被引量：10
2束志恒,陈德钊,陈亚秋.粗糙集方法及其在化学模式分类规则挖掘中的应用[J].分析化学,2004,32(7):879-883. 被引量：6
3钟波,周家启,肖智.基于粗糙集与神经网络的电力负荷新型预测模型[J].系统工程理论与实践,2004,24(6):113-119. 被引量：19
4黄兵,周献中,张蓉蓉.基于信息量的不完备信息系统属性约简[J].系统工程理论与实践,2005,25(4):55-60. 被引量：41
5谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
6鄂旭,高学东,武森.一种新的遗失数据填补方法[J].计算机工程,2005,31(20):6-7. 被引量：4
7杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
8徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
9张德喜,李晓宇.绝对信息量不完备信息系统的数据补齐算法[J].计算机工程与应用,2006,42(22):155-157. 被引量：2
10鄂旭,高学东,邵良杉,叶柏青.一种不完备信息表的预处理方法[J].北京科技大学学报,2006,28(9):902-906. 被引量：3

共引文献119

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10
2李丽红,董红瑶,刘文杰,李宝霖,代琪.不完备数据集的邻域容差互信息选择集成分类算法[J].南京大学学报（自然科学版）,2024,60(1):106-117.
3吴爱华.多固定阅读器下基于路径约束的RFID数据清洗算法[J].计算机研究与发展,2011,48(S3):282-289. 被引量：5
4曾正良,罗可,王莹.基于粒子群的不完备决策表属性约简PSOIDTAR法[J].计算机工程与应用,2008,44(14):149-151. 被引量：1
5徐志海,杨海峰.基于区分向量的不完备决策系统属性约简算法[J].太原科技大学学报,2009,30(1):12-16.
6曾晓辉,文展.不完备信息系统的属性约简算法[J].计算机工程,2009,35(24):185-187. 被引量：9
7孙知信,骆冰清,罗圣美,朱洪波.一种基于等级划分的物联网安全模型[J].计算机工程,2011,37(10):1-7. 被引量：18
8聂艳明,李战怀,陈群.针对不确定射频识别数据流的改进概率推导方法[J].西安交通大学学报,2011,45(12):45-52. 被引量：3
9李菊,刘晓平,谢从华.改进的特征选择算法在形状分析中的应用[J].合肥工业大学学报（自然科学版）,2012,35(3):334-336. 被引量：2
10王霞,赵龙,夏秀峰.基于位置近邻的RFID路径聚类算法[J].沈阳航空航天大学学报,2012,29(2):46-50.

同被引文献43

1刘夫体,唐海波,张香成.数据修补技术在GPS测量数据处理中的应用[J].遥测遥控,2012,33(5):47-50. 被引量：2
2陆化普,屈闻聪,孙智源.基于S-G滤波的交通流故障数据识别与修复算法[J].土木工程学报,2015,48(5):123-128. 被引量：16
3谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
4杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
5张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
6覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
7伏明兰,曾黄麟.一种不一致不完备信息系统的最优选择及规则约简方法研究[J].计算机科学,2007,34(10):208-211. 被引量：2
8陶志,刘庆拯,李卫民.基于遗传算法的不完备信息系统属性约简方法[J].系统工程与电子技术,2007,29(9):1484-1487. 被引量：6
9付昂,王国胤,胡军.基于信息熵的不完备信息系统属性约简算法[J].重庆邮电大学学报（自然科学版）,2008,20(5):586-592. 被引量：24
10王晓原,吴芳,朴基男.基于粗集理论的交通流丢失数据补齐方法[J].交通运输工程学报,2008,8(5):91-94. 被引量：8

引证文献4

1李虹利,蒙祖强.运用信息增益和不一致度进行填补的属性约简算法[J].计算机科学,2018,45(10):217-224. 被引量：3
2孙立双,袁阳,谢志伟,张笑林.出租车GPS轨迹数据邻域等比补齐算法[J].中国科技论文,2018,13(21):2505-2509. 被引量：4
3周芸,杜景林,陶晔.基于属性加权k最近邻算法的降雨预测[J].计算机工程与设计,2020,41(6):1605-1609. 被引量：6
4李翔,李瑞祥.顾及航向角变化的轨迹丢失点补全方法[J].测绘工程,2021,30(3):1-8.

二级引证文献13

1栗静,王美玲,李琳静,邹进.加权马尔可夫链在普洱市年降水量预测中的应用[J].中国水运（下半月）,2021,21(3):83-84.
2欧阳秀平,万源沅,邹俊德.基于机器学习的终端换机预测模型[J].邮电设计技术,2020,0(4):75-79. 被引量：6
3谢志伟,平继伟,彭博,徐兆阳.基于邻域特征的电子地图道路交叉点自动提取[J].中国科技论文,2020,15(5):599-604. 被引量：5
4孙林,赵婧,徐久成,薛占熬.基于改进帝王蝶优化算法的特征选择方法[J].模式识别与人工智能,2020,33(11):981-994. 被引量：13
5吕亮,钟添翼,王世彬,蔡晓禹.RFID数据驱动下出行路径选择方法研究[J].公路与汽运,2021(1):16-20. 被引量：3
6李翔,李瑞祥.顾及航向角变化的轨迹丢失点补全方法[J].测绘工程,2021,30(3):1-8.
7谭荣志,王春振,陈容.广西南宁市近13年降雨的时间序列分析及预测[J].安徽农业科学,2022,50(17):191-193.
8陈文韬,王静峰,余其俊,苏杭.郑州南站承轨层钢骨混凝土复杂节点施工模拟与云监测技术研究[J].结构工程师,2022,38(6):168-175. 被引量：2
9孙林,李梦梦,徐久成.二进制哈里斯鹰优化及其特征选择算法[J].计算机科学,2023,50(5):277-291. 被引量：3
10郭天鸿,刘海峰,张禹森,祁天星.基于毫米波雷达和单目相机的路侧高速感知系统[J].中国交通信息化,2023(5):106-109.

1阎桂林,徐廷学,袁有宏.基于双概率相似关系的不完备决策系统数据补齐算法[J].兵工自动化,2015,34(11):48-51. 被引量：2
2蒙祖强,黄柏雄.不一致不完备决策系统中属性约简的比较研究[J].控制与决策,2011,26(6):867-872. 被引量：9
3秦飞,杨燕.寻找相似样本的小样本半监督学习[J].计算机工程与科学,2010,32(9):127-129.
4谢小军,徐章艳,乔丽娟,朱金虎.基于测试代价敏感的不完备决策系统属性约简算法[J].计算机应用与软件,2016,33(9):264-268.
5王艳峰,张健,吴燕红.一种优选神经网络训练样本的混合聚类算法[J].辽宁工业大学学报（自然科学版）,2010,30(6):364-367. 被引量：2
6李长清,张燕兰.不完备决策信息系统规则提取的一种新方法[J].海南师范大学学报（自然科学版）,2016,29(4):369-372.
7陶志,刘彩平.一种改进的先验概率粗集模型[J].中国民航大学学报,2014,32(4):48-51. 被引量：3
8张帆.在Lotus Notes中访问异类数据[J].微电脑世界,1996(7):77-78.
9谢小军,徐章艳,俞春强,王博.不一致对象下的不完备决策系统属性约简算法[J].小型微型计算机系统,2016,37(10):2300-2305. 被引量：2
10耿生玲,李永明,刘震.不完备决策软集与优势可信规则获取[J].计算机工程与科学,2013,35(12):153-160. 被引量：4

计算机工程与设计

2016年第3期

浏览历史

内容加载中请稍等...

基于属性重要度的数据补齐方法被引量：4

参考文献12

二级参考文献68

共引文献119

同被引文献43

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于属性重要度的数据补齐方法 被引量：4

参考文献12

二级参考文献68

共引文献119

同被引文献43

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于属性重要度的数据补齐方法被引量：4