基于K近邻的众包数据分类算法被引量：3

Crowdsourcing data classification algorithm via K-nearest neighbor

下载PDF

导出

摘要针对众包数据处理中的质量控制问题,提出了一种加权K近邻投票分类方法。该方法不单单只是考虑了某个样例的标记来返回一个答案,而是通过综合考虑样例的近邻来得到更加准确的答案。同时对样例的近邻加以适当的权重来进一步提高算法的性能,并保持了传统多数投票分类的简单性。K近邻投票分类算法可以有效地解决缺乏标记的情况,通过对近邻加以权重可以解决不平衡标记造成的影响,从而使算法的泛化性更强。通过各种场景下的实验,结果表明加权K近邻投票分类方法取得了很好的效果。 Aiming at the quality control problem in crowdsourcing data processing,this paper proposed a weighted K-nearest neighbor voting method.This method not only considered the mark of a certain sample to return an answer,but rather obtained a more accurate answer by considering the neighbors of the sample comprehensively.At the same time,it applied appropriate weights to the neighbors of the sample to further improve the performance of the algorithm and maintained the simplicity of the traditional majority vote.The K-nearest neighbor vote can effectively solve the problem of lack of markup.By weighting the neighbors,it can solve the influence of the unbalanced mark and made the generalization of the algorithm be stronger.Through experiments in various situations,the results show that the proposed weighted K-nearest neighbor voting method has achieved good results.

作者李佳烨余浩 Li Jiaye;Yu Hao(Guangxi Key Laboratory of Multi-source Information Mining&Security,Guangxi Normal University,Guilin Guangxi 541004,China;School of Computer Science&Engineering,Central South University,Changsha 410083,China)

机构地区广西师范大学广西多源信息挖掘与安全重点实验室中南大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2020年第4期973-976,共4页 Application Research of Computers

基金国家重点研发计划资助项目(2016YFB1000905) 国家自然科学基金资助项目(61170131,61263035,61573270,90718020) 国家“973”计划资助项目(2013CB329404) 中国博士后科学基金资助项目(2015M570837) 广西自然科学基金资助项目(2015GXNSFCB139011,2015GXNSFAA139306)。

关键词众包数据质量控制 K近邻投票多数投票 crowdsourcing data quality control K-nearest neighbor voting majority voting

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1郝建柏,陈贤富,黄双福,杨俊.一种基于模糊近邻标签传递的半监督分类算法[J].微电子学与计算机,2010,27(2):30-33. 被引量：6
2韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,21(12):5-8. 被引量：47
3邓生雄,雒江涛,刘勇,王小平,杨军超.集成随机森林的分类模型[J].计算机应用研究,2015,32(6):1621-1624. 被引量：20

二级参考文献47

1闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
2朱根标,张凤鸣,董群立.基于核函数和相似度的动态聚类算法[J].微电子学与计算机,2006,23(3):178-179. 被引量：8
3Zhu X, Ghahramani Z, Lafferty J. Semi - supervised learning using gaussian fields and harmonic functions[C] //Proceedings of the Twentieth International Conference on Machine Learning. Washington I)C, USA, 2003 : 328 - 335.
4Camps- Valls G, Marsheva T, Zhou D. Semisupervised graph-based hyperspectral image classification[J]. IEEETrans. on Geoscience and Remote Sensing, 2007, 45 (10) : 3044 - 3054.
5Rosenberg C, Hebert M, Schneiderman H. Semi - supervised selftraining of object detection models[J]. Application of Computer Vision, 2005, 1(5): 29- 36.
6Joachirns T. Transductive inference for text classification using support vector machines[C] //Proceedings of the Sixteenth International Conference on Machine Learning. San Francisco, USA, 1999: 200 - 209.
7Quinlan J R. C4.5: Programs for MachineLearning [M]. Morgan Kauffman, 1993.
8Yoshimitsu Kudoh, Makoto Haraguchi. An Appropriate Abstraction for Constructing a Compact Decision Tree [M]. Springer-Verlag Berlin Heidelberg,2000.
9Sonajharia Minz, Rajni Jain. Rough Setbased Decision Tree Model for Classification[M]. Springer-Verlag Berlin Heidelberg, 2003.
10B Chandra, Sati Mazumdar, Vincent Arena, et al. Elegant Decision Tree Algorithm for Classification in Data Mining[C].Proceedings of the 3th International Conference on Web Information Systems Engineering, 2002.

共引文献70

1钟韬,刘刚,黄蕾,白雪,杨执钧,乔丹.基于决策树的非入侵式负荷分解算法的研究[J].计算机应用研究,2020,37(S01):163-165. 被引量：3
2吕伟忠.一种改进决策树剪枝算法的研究[J].微型电脑应用,2011(5):62-64.
3徐巍,谭德荣,张业鹏.决策树在调查数据中的应用[J].山东理工大学学报（自然科学版）,2005,19(4):23-26. 被引量：1
4栗然,刘宇,黎静华,顾雪平,牛东晓,刘永奇.基于改进决策树算法的日特征负荷预测研究[J].中国电机工程学报,2005,25(23):36-41. 被引量：30
5史永刚,左志宏.决策树在中文姓名信息提取中的应用研究[J].成都信息工程学院学报,2006,21(2):261-264.
6郑晓艳.数据挖掘技术在大学生专业方向指导中的应用[J].天津工程师范学院学报,2006,16(2):28-30. 被引量：3
7陈勇强,刘开培,叶春松,马历.ANN-DT混合建模法在机组水冷系统渗漏监测中的应用[J].水力发电,2006,32(8):50-52. 被引量：1
8罗军,何光宇,张思远,万源,李小锐.基于负荷点相似的地区短期负荷预测新方法[J].电网技术,2007,31(6):67-71. 被引量：15
9陈勇强,刘开培,叶春松,关杰林,谢俊.三峡水电厂700MW发电机组内冷水系统渗漏监测研究[J].大电机技术,2007(2):10-14.
10任周桥,刘耀林,焦利民.基于决策树的土地适宜性评价[J].国土资源科技管理,2007,24(3):21-25. 被引量：18

同被引文献22

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2林倩瑜.云服务环境下的大数据多标签属性分类技术[J].微电子学与计算机,2019,36(2):101-104. 被引量：14
3岳德君,于戈,申德荣,于晓聪.基于投票一致性的众包质量评估策略[J].东北大学学报（自然科学版）,2014,35(8):1097-1101. 被引量：9
4刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：134
5冯剑红,李国良,冯建华.众包技术研究综述[J].计算机学报,2015,38(9):1713-1726. 被引量：127
6周瑜,顾宏.面向不平衡数据的逻辑回归偏标记学习算法[J].大连理工大学学报,2017,57(2):184-188. 被引量：5
7晋远,孙红三,叶紫,燕达,吴如宏.基于大数据Bayes分类的家电设备识别算法[J].建筑科学,2017,33(4):31-38. 被引量：11
8张磊,赵耀,朱振峰.跨媒体语义共享子空间学习研究进展[J].计算机学报,2017,40(6):1394-1421. 被引量：14
9刘安战,郭基凤,缑西梅,李勇军.面向软件的众包平台设计与实现[J].计算机技术与发展,2017,27(8):171-176. 被引量：3
10郑志蕴,江国林,张行进,王振飞,李钝.基于滑动任务窗的众包质量评估算法[J].小型微型计算机系统,2017,38(9):2125-2129. 被引量：8

引证文献3

1刘安战,郭基凤.软件众包开发者的能力价值率模型研究[J].计算机应用研究,2020,37(8):2422-2427.
2吴蕊,孔前进,王世勋,孙东山,翟怡星.双模态Logistic Regression及其应用[J].计算机应用与软件,2020,37(12):244-248. 被引量：1
3李越颖.基于邻域搜索的在线特征大数据分类方法[J].微电子学与计算机,2021,38(9):61-66. 被引量：5

二级引证文献6

1曹夏琳.基于粗糙集属性依赖度强化的交互式大数据特征分类[J].宁夏师范学院学报,2023,44(1):90-97.
2韩璐,陈威宇,张斐,何建锋,苏怀振.差异化需求下的非关系型分布式报送信息大数据分类方法[J].电信科学,2023,39(6):114-121. 被引量：3
3李静波,顾园园.基于模糊K-Means的MBD随机样本分类仿真[J].计算机仿真,2023,40(8):473-477. 被引量：1
4朱磊,凌嘉敏.基于邻域粗集神经网络的大数据特征分类系统[J].电子设计工程,2024,32(7):97-100.
5刘文旭.基于Logistic回归预测保单理赔发生概率[J].现代营销（下）,2024(3):85-87.
6唐灵逸,唐怡雯,李蓓蓓.改进决策树算法的大数据分类优化方法[J].吉林大学学报（信息科学版）,2024,42(5):959-965.

1连超,李华,刘亚,韩家茂,阮宏玮.一种基于DBN-LR集成学习的异常检测模型[J].小型微型计算机系统,2019,40(12):2637-2643. 被引量：8
2袁飞虎.云计算环境下数据分类算法的研究[J].电子工程学院学报,2020,9(2):117-117.
3杨震,王红军.基于加权K近邻的改进密度峰值聚类算法[J].计算机应用研究,2020,37(3):667-671. 被引量：10
4王海泉,侯宇亮,魏建华,徐晓滨,苏孟豪,张姗姗.基于多目标蜂群算法的数据分类方法[J].重庆大学学报（自然科学版）,2020,43(1):74-81. 被引量：4
5王现君.关于大数据挖掘中的数据分类算法技术的研究[J].电脑知识与技术,2019,15(12Z):6-7. 被引量：3
6陆嘉慧,张树美,赵俊莉.基于CNN集成的面部表情识别[J].青岛大学学报（工程技术版）,2020,35(2):24-29. 被引量：4
7杨爱华.集成特征选择的基因微阵列数据分类算法[J].信息记录材料,2019,20(10):163-166.
8翟婷婷,高阳,朱俊武.面向流数据分类的在线学习综述[J].软件学报,2020,31(4):912-931. 被引量：25
9李春生,焦海涛,刘澎,刘小刚.基于C4.5决策树分类算法的改进与应用[J].计算机技术与发展,2020,30(5):185-189. 被引量：17
10刘夏,李国良,张灵峰,汪郁,孙虎,黄启能,丁琼.一种井下人员无线定位算法研究[J].工矿自动化,2020,46(4):38-45. 被引量：6

计算机应用研究

2020年第4期

浏览历史

内容加载中请稍等...

基于K近邻的众包数据分类算法被引量：3

参考文献3

二级参考文献47

共引文献70

同被引文献22

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于K近邻的众包数据分类算法 被引量：3

参考文献3

二级参考文献47

共引文献70

同被引文献22

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于K近邻的众包数据分类算法被引量：3