众包平台作弊用户自动识别被引量：8

Automatic Identification of Cheating Users on Crowdsourcing Platform

下载PDF

导出

摘要众包借助于网络聚集大众的群体智慧有效地完成各种任务,但在现实的众包平台中普遍存在仅为获得报酬而不认真工作的作弊用户,使得众包获得的任务数据质量不够可靠,制约了众包解决问题的能力。针对该问题,提出作弊用户自动识别方法。通过对百度众包平台参与用户的答题行为进行分析,总结出百度众包平台中存在的作弊用户类型,基于对作弊用户行为特征的分析,采用逻辑回归模型对众包用户建模,根据用户行为特征值计算获得众包用户的可靠性,进而基于用户可靠性实现作弊用户自动识别。实验结果表明,与现有的多数投票决策、标准问题集、Sp EM方法相比,该方法的识别精确度较高,可达97%。 Crowdsourcing can effectively solve a wide variety of tasks by employing the collective intelligence of distributed human population in the network. However,cheating users on crowdsourcing platforms can submit unreliable answers to obtain rewards. They degrade the quality of crowdsourcing services and restrict task resolution. Aiming at this problem, this paper proposes an automatic identification method of cheating users. It systematically analyzes cheating users＇ behavioral characteristics and empirically summarizes the possible spamming types in the Baidu Crowdsourcing Platform（BCP）. Based on the above analysis results, a logistic regression model is constructed to obtain objective measures of user reliability. According to the user＇ s reliability, the cheating users can be automatically identified. Experimental results show that compared with the baseline methods of majority voting, gold question set and SpEM method, the proposed method has higher recognition accuracy,reaching 97% .

作者陈霞闵华清宋恒杰

机构地区岭南师范学院信息科学与技术学院华南理工大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2016年第8期139-145,152,共8页 Computer Engineering

基金国家自然科学基金资助项目(61402399) 湛江市科技攻关计划基金资助项目(2015B01050) 岭南师范学院自然科学基金资助项目(QL1410 YL1505)

关键词众包作弊用户行为特征逻辑回归模型可靠性精确性 crowdsourcing cheating user behavior characteristics logistic regression model- reliability- accuracy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Howe J.The Rise of Crowdsourcing[J].Wired Magazine,2006,14(6):1-4.
2Difallah D E,Demartini G,Cudré-Mauroux P.Mechanical Cheat:Spamming Schemes and Adversarial Techniques on Crowdsourcing Platforms[C]//Proceedings of the1st International Workshop on Crowdsourcing Web Search.Lyon,France:[s.n.],2012:26-30.
3Raykar V C,Yu Shipeng.Eliminating Spammers and Ranking Annotators for Crowdsourced Labeling Tasks[J].Journal of Machine Learning Research,2012,13(1):491-518.
4Ross J,Irani L,Silberman M,et al.Who Are the Crowdlabelers?:Shifting Demographics in Mechanical Turk[C]//Proceedings of the 28th International Conference on Human Factors in Computing Systems.New York,USA:ACM Press,2010:2863-2872.
5Eickhoff C,Vries A P.Increasing Cheat Robustness of Crowdsourcing Tasks[J].Information Retrieval,2013,16(2):121-137.
6Kazai G,Kamps J,Koolen M,et al.Crowdsourcing for Book Search Evaluation:Impact of Hit Design on Comparative System Ranking[C]//Proceedings of the34th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2011:205-214.
7Difallah D E,Demartini G,Cudré-Mauroux P.Pick-acrowd:Tell Me What You Like,and I’ll Tell You What to Do[C]//Proceedings of the 22nd International Conference on World Wide Web.New York,USA:ACM Press,2013:367-374.
8Sheng V S,Provost F,Ipeirotis P G.Get Another Label?Improving Data Quality and Data Mining Using Multiple,Noisy Labelers[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2008:614-622.
9Mason W,Watts D J.Financial Incentives and the Performance of Crowds[J].ACM SIGKDD Explora-tions Newsletter,2010,11(2):100-108.
10Harris C.You’re Hired!An Examination of Crowdsourcing Incentive Models in Human Resource Tasks[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining.New York,USA:ACM Press,2011:15-18.

二级参考文献34

1Howe Jeff. The rise of crowdsourcing. Wired, 2006, 14(6) : 176-183.
2Callison-Burch C. Fast, cheap, and creative: Evaluating translation quality using Amazon- s mechanical turk//Pro- ceedings of of the Conference on Empirical Methods in Natu- ral Language Processing. Singapore, 2009: 286-295.
3Yan Tingxin, Kumar V, Ganesan D. CrowdSearch: Exploi ting crowds for accurate real-time image search on mobile phones//Proeeedings of the International Conference on Mo- bile Systems, Applications, and Services. San Francisco, USA, 2010:77-90.
4Alonso O, Rose D E, Stewart B. Crowdsoureing for rele- vance evaluation. Journal of SIGIR Forum (SIGIR), 2008, 42(2) : 9-15.
5Alonso O, Mizzaro S. Can we get rid of TREC assessors? Using mechanical turk for relevance assessment//Proceedings of the SIGIR Workshop on the Future of IR Evaluation. Boston, Massachusetts, USA, 2009:15-16.
6Lease M, Carvalho V R, Yilmaz E. Crowdsoureing for search and data mining. Journal of SIGIR Forum (SIGIR), 2011, 45(1): 18-24.
7Kamath K Y, Caverlee J. Transient crowd discovery on the real-time social Web//Proceedings of the WSDM. Hong Kong, China, 2011:585-594.
8Castillo C, Mendoza M, Poblete B. Information credibility on twitter//Proceedings of the WWW. Hyderabad, India, 2011:675-684.
9Bigham J P, Jayant C, Ji H, et al. VizWiz: Nearly real-time answers to visual questions//Proceedings of the 13IST. New York City, USA, 2010. 333-342.
10Hofmann T, Puzicha J. Statistical models for co-occurrence data. Massachusetts Institute of Technology Artificial Intelli- gence Laboratory, Massachusetts State of USA: Technical Report AIM- 1625, CBCL-159, 1998.

共引文献61

1郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
2罗仕鉴,房聪,单萍.群智创新时代的四维智能创意设计体系[J].设计艺术研究,2021(1):1-5. 被引量：11
3马燕林,齐托托,汤健,包孟轩,王天梅.众包任务特征对接包方参与质量影响作用的实验研究[J].中国软科学,2019(S01):301-309.
4岳德君,于戈,申德荣,于晓聪.基于投票一致性的众包质量评估策略[J].东北大学学报（自然科学版）,2014,35(8):1097-1101. 被引量：9
5洪亮,冉从敬,余骞.引入众包的MOOC在线问答系统实现研究[J].图书情报工作,2014,58(19):118-123. 被引量：3
6李勇军,郭基凤,缑西梅.软件“众包”任务分配方法[J].计算机系统应用,2015,24(2):1-6. 被引量：10
7张晓航,李国良,冯建华.大数据群体计算中用户主题感知的任务分配[J].计算机研究与发展,2015,52(2):309-317. 被引量：11
8孟庆良,郭鑫鑫,蒋旋.众包创新模式下关键用户知识源识别研究[J].科技进步与对策,2015,32(16):128-134. 被引量：2
9冯剑红,李国良,冯建华.众包技术研究综述[J].计算机学报,2015,38(9):1713-1726. 被引量：125
10祁金佺.针对主观型众包图像注解的质量评估方法[J].计算机应用与软件,2015,32(12):222-225.

同被引文献78

1王永刚,蔡飞志,Eng Keong Lua,胡建斌,陈钟.一种社交网络虚假信息传播控制方法[J].计算机研究与发展,2012,49(S2):131-137. 被引量：19
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：377
4陈智,隋光远,皮秀云.论知识点是人的认知单位[J].心理科学,2002,25(3):369-370. 被引量：23
5常静,杨建梅,欧瑞秋.基于TAM的百度百科用户参与意向的影响因素研究[J].软科学,2010,24(12):34-37. 被引量：17
6夏火松,王瑞新.百度百科词条特性对知识共享意愿影响的实证研究[J].科学学研究,2010,28(12):1877-1883. 被引量：12
7陆微微,刘晶.一种提高K-近邻算法效率的新算法[J].计算机工程与应用,2008,44(4):163-165. 被引量：22
8荆涛,左万利,孙吉贵,车海燕.中文网页语义标注：由句子到RDF表示[J].计算机研究与发展,2008,45(7):1221-1231. 被引量：31
9赵丽红.互动式知识问答分享平台对虚拟参考咨询服务的启示[J].图书馆建设,2009(5):62-64. 被引量：13
10杨滨.论云计算辅助教学(CCAI)中协作学习产生的设计机制——以Google sites下的协作学习为例[J].现代教育技术,2009,19(11):95-99. 被引量：24

引证文献8

1郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
2陈霞.众包车位信息服务模式探索研究[J].岭南师范学院学报,2017,38(3):100-104.
3罗晓兰.搜索引擎的学术应用对图书馆数据服务的启示[J].数字图书馆论坛,2017(8):46-51. 被引量：1
4韦茜,陈凤茹.认知、辨识、规训:构建人机共存的社交舆论场[J].新闻论坛,2021,35(4):25-27. 被引量：2
5张志勇,荆军昌,李斐,赵长伟.人工智能视角下的在线社交网络虚假信息检测、传播与控制研究综述[J].计算机学报,2021,44(11):2261-2282. 被引量：22
6王乙朵,方伟.健康传播中的社交机器人:特征、影响与治理[J].中国传媒科技,2022(6):74-76. 被引量：1
7陈勇.我国众包平台服务质量发展对策研究[J].内蒙古煤炭经济,2017(23):51-52.
8刘蓉,陈波,于泠,刘亚尚,陈思远.恶意社交机器人检测技术研究[J].通信学报,2017,38(S2):197-210. 被引量：15

二级引证文献44

1王蕙心.被“主宰”的网络言论市场——以对自动化“水军”的多元规制视角切入[J].现代法治研究,2020(1):70-82. 被引量：1
2李瑾颉,聂凯伦,吴联仁,齐佳音.众包事实核查对信息参与行为的影响:基于来源可信度的调节[J].知识管理论坛,2024(4):367-379.
3李雨田,张茂林.智媒时代:社交机器人在认知域对抗中的运用及启示[J].智能安全,2022,1(2):70-75.
4陈里可,阮树骅,陈兴蜀,王海舟.社交媒体机器人账号智能检测研究[J].信息网络安全,2019(9):96-100. 被引量：1
5代金晶.基于Mashup的高校图书馆信息服务模式研究[J].图书情报导刊,2020,5(1):33-37.
6杨慧芸.隐形操纵与数据污染:社交媒体中的机器人水军[J].新闻知识,2020(1):3-10. 被引量：8
7伍静,詹千熠,刘渊.一种结合文本情感分析的微博僵尸粉识别模型[J].计算机工程,2020,46(6):288-295. 被引量：1
8徐慧芳,朱丽娟,徐敬红.M-CrowdERS:基于众包的海洋灾害数据实体解析系统[J].上海建桥学院学报,2020(4):34-41.
9韦茜,陈凤茹.认知、辨识、规训:构建人机共存的社交舆论场[J].新闻论坛,2021,35(4):25-27. 被引量：2
10卢林艳,李媛媛,卢功靖,刘熠,王成军.社交机器人驱动的计算宣传:社交机器人识别及其行为特征分析[J].中国传媒大学学报（自然科学版）,2021,28(2):35-43. 被引量：11

1宋东奇,宋余庆,刘哲,凌青华.新型适用于基因表达数据的模型聚类方法[J].计算机与应用化学,2015,32(1):71-74.
2刘青,何政.结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J].计算机工程与科学,2005,27(7):65-66. 被引量：4
3张治斌,谭静.基于K均值与决策树的P2P流量识别研究[J].计算机工程与设计,2014,35(3):798-802. 被引量：4
4余杰,杨连贺,焦帅,易明雨,于佃存.基于三轴加速度传感器的人体行为识别研究[J].软件工程,2016,19(9):34-37. 被引量：2
5李伟,赵庆展,邓红涛.一种基于语义的Web挖掘方法研究[J].软件导刊,2014,13(1):54-55.
6沈鑫.“优”效果——搜索引擎账户优化[J].成功营销,2009(7):78-78.
7刘余霞,吕虹,刘三民.一种基于分类器相似性集成的数据流分类研究[J].计算机科学,2012,39(12):208-210. 被引量：2
8陈云,石松.基于PSO-BP集成的国内外企业信用风险评估[J].计算机应用研究,2014,31(9):2705-2710. 被引量：8
9邹薇,王会进.基于朴素贝叶斯的EM缺失数据填充算法[J].微型机与应用,2011,30(16):75-77. 被引量：7
10韩小祥.基于混合高斯模型测距误差修正和EM-SOM的节点定位算法设计[J].计算机测量与控制,2014,22(11):3676-3679. 被引量：1

计算机工程

2016年第8期

浏览历史

内容加载中请稍等...

众包平台作弊用户自动识别被引量：8

参考文献15

二级参考文献34

共引文献61

同被引文献78

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

众包平台作弊用户自动识别 被引量：8

参考文献15

二级参考文献34

共引文献61

同被引文献78

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

众包平台作弊用户自动识别被引量：8