成本约束下自适应众包标注的用户观点抽取被引量：3

User opinion extraction based on adaptive crowd labeling with cost constrain

下载PDF

导出

摘要用户评论包含了丰富的用户观点信息,对潜在的顾客和商家具有重要的参考价值。观点目标和观点词作为用户评论中的核心对象,它们的自动抽取是用户评论智能化应用的一项核心工作。目前主要采用有监督的抽取方法解决该问题,这些方法依赖于利用高质量的标注样本进行模型训练,而传统人工标注样本的方法不仅耗时费力,且标注成本高。众包计算为构建高质量训练样本集提供了一种有效途径,然而,众包工作者由于知识背景等因素使得标注结果的质量参差不齐。为了在有限的成本下获取高质量的标注样本,提出一种基于工作者专业水平评估的自适应众包标注方法,构建可靠的观点目标-观点词数据集。首先,通过小成本挖掘出高专业水平的工作者;然后,设计一种基于工作者可靠性的任务分发机制;最后,利用观点目标和观点词间的依赖关系设计了一种有效的标注结果融合算法,通过整合不同工作者的标注结果生成最终可靠的结果。在真实数据集上进行了一系列实验表明,与GLAD模型和多数投票(MV)算法方法相比,所提方法能够在成本预算较小的情况下将构建出的高质量观点目标-观点词数据集的可靠性提高10%左右。 User reviews contain a wealth of user opinion information which has great reference value to potential customers and merchants. Opinion targets and opinion words are core objects of user reviews, so the automatic extraction of them is a key work for user review intelligent applications. At present, the problem is solved mainly by supervised extraction method, which depends on high quality labeled samples to train the model. And traditional manual labeling method is time-consuming, laborious and costly. Crowdsourcing calculation provides an effective way to build a high-quality training sample set. However, the quality of the labeling results is uneven due to some factors such as knowledge background of the workers. To obtain high-quality labeling samples at a limited cost, an adaptive crowdsourcing labeling method based on professional level evaluation of workers was proposed to construct a reliable dataset of opinion target-opinion words. Firstly, high professional level workers were digged out with small cost. And then, a task distribution mechanism based on worker reliability was designed. Finally, an effective fusion algorithm for labeling results was designed by using the dependency relationship between opinion targets and opinion words, and the final reliable results were generated by integrating the labeling results of different workers. A series of experiments on real datasets show that the reliability of high quality opinion target-opinion word dataset built by the proposed method can be improved by about 10%, compared with GLAD(Generative model of Labels, Abilities, and Difficulties) model and MV(Majority Vote) method when the cost budget is low.

作者赵威林煜明黄涛贻李优 ZHAO Wei;LIN Yuming;HUANG Taoyi;LI You(Guangxi Key Laboratory of Trusted Software ( Guilin University of Electronic Technology ) , Guilin Guangxi 541004, China;Guangxi Key Laboratory of Automatic Detecting Technology and Instruments ( Guilin University of Electronic Technology ) , Guilin Guangxi 541004, China)

机构地区广西可信软件重点实验室(桂林电子科技大学) 广西自动检测技术与仪器重点实验室(桂林电子科技大学)

出处《计算机应用》 CSCD 北大核心 2019年第5期1351-1356,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61562014 U1711263) 广西自然科学基金重点项目(2018GXNSFDA281049) 桂林电子科技大学研究生优秀学位论文培育项目(16YJPYSS15) 桂林电子科技大学研究生教育创新计划项目(2018YJCX48) 广西可信软件重点实验室研究课题(kx201916)~~

关键词观点挖掘众包计算成本约束工作者检测数据整合 opinion mining crowdsourcing calculation cost constraint worker measurement data integration

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1冯剑红,李国良,冯建华.众包技术研究综述[J].计算机学报,2015,38(9):1713-1726. 被引量：124
2毛莺池,穆超,包威,李晓芳.空间众包中多类型任务的分配与调度方法[J].计算机应用,2018,38(1):6-12. 被引量：2
3施战,辛煜,孙玉娥,黄河.基于用户可靠性的众包系统任务分配机制[J].计算机应用,2017,37(9):2449-2453. 被引量：42

二级参考文献103

1HoweJ. The rise of crowdsourcing. Wired Magazine, 2006, 14(6): 1-4.
2HoweJ. Crowdsourcing. New York: Crown Publishing Group, 2008.
3Zhao Yu-Xiang , Zhu Qing-Hua. Evaluation on crowdsourcing research: Current status and future direction. Information Systems Frontiers, 2012, 11(1): 1-18.
4von Ahn L, Maurer B, Abraham D, Blum M. reCAPTCHA: Human-based character recognition via web security measures. Science, 2008, 321(5895): 1465-1468.
5Ipeirotis P G. Analyzing the amazon mechanical turk marketplace. ACM Crossroads, 2010, 17(2): 16-21.
6Doan A, Franklin MJ, Kossmann D, Kraska T. Crowdsourcing applications and platforms: A data management perspective. Proceedings of the VLDB Endowment, 2011,4(12): 1508-1509.
7Alonso 0, Lease M. Crowdsourcing for information retrieval: Principles, methods, and applications//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing, China, 2011: 1299-1300.
8Lease M, Alonso O. Crowdsourcing for search evaluation and social-algorithmic search//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. Portland, USA, 2012: 1180.
9Ipeirotis P G, Paritosh P K. Managing crowdsourced human computation, A tutoriall /Proceedings of the 20th International Conference on World Wide Web. Hyderabad, India, 2011, 287-288.
10Alonso 0, Lease M. Crowdsourcing 101, Putting the WSDM of crowds to work for you//Proceedings of the 4th International Conference on Web Search and Web Data Mining. Hong Kong, China, 2011, 1-2.

共引文献156

1马春生,唐仁龙.高产奶牛的饲养（续）[J].北京奶牛,2000(1):24-26.
2威廉斯,A.使用自然光拍摄人像[J].摄影世界,2000(6):16-17.
3仲秋雁,李晨,崔少泽.考虑工人参与意愿影响因素的竞争式众包任务推荐方法[J].系统工程理论与实践,2018,38(11):2954-2965. 被引量：7
4崔强,王俊杰,谢淼,王青.众测中的工作者选择方法研究[J].软件学报,2018,29(12):3648-3664. 被引量：3
5伏明兰,王浩,方宝富,黄晓玲.分布式自利agent任务分配算法[J].模式识别与人工智能,2018,31(12):1061-1073. 被引量：2
6费友丽,田剑,邓娇.众包竞赛中欺诈行为的成因与应对策略研究[J].江苏科技大学学报（社会科学版）,2015,15(4):82-86. 被引量：2
7赵喜仓,朱宾欣,马志强.大数据背景下网络众包驱动科技创新的机理及路径研究[J].科技进步与对策,2016,33(12):23-28. 被引量：7
8张亭亭,赵宇翔,朱庆华.数字图书馆移动视觉搜索的众包模式初探[J].情报资料工作,2016,37(4):11-18. 被引量：27
9王凡.基于众包的数据库信息查询处理方法[J].电脑知识与技术,2016,0(6):25-27. 被引量：2
10赵小鹏,宋新.“O2O+众包”模式在物流领域的应用[J].物流技术,2016,35(8):36-38. 被引量：5

同被引文献20

1周军锋,汤显,郭景峰.一种优化的协同过滤推荐算法[J].计算机研究与发展,2004,41(10):1842-1847. 被引量：102
2田伟,彭玉青.基于电子商务应用的协同过滤技术改进综述[J].计算机工程与科学,2008,30(10):61-63. 被引量：6
3章芝青.基于语义的单文档自动摘要算法[J].计算机应用,2010,30(6):1673-1675. 被引量：7
4吕英杰,张朋柱,刘景方.商务智能技术在网络众包市场中的应用[J].现代管理科学,2013,1(2):29-31. 被引量：2
5丁少衡,姬东鸿,王路路.基于用户属性和评分的协同过滤推荐算法[J].计算机工程与设计,2015,36(2):487-491. 被引量：39
6陈霞.众包标注质量控制研究[J].岭南师范学院学报,2015,36(3):112-121. 被引量：1
7王成,朱志刚,张玉侠,苏芳芳.基于用户的协同过滤算法的推荐效率和个性化改进[J].小型微型计算机系统,2016,37(3):428-432. 被引量：37
8石荣丽.分享经济视阈下的众包物流信息服务平台模型构建[J].华南理工大学学报（社会科学版）,2017,19(2):15-21. 被引量：11
9刘超,马东宇.智能问答的聊天机器人系统的设计与实现[J].信息技术,2017,41(5):176-177. 被引量：13
10杜勇,朱晓统.基于互联网“众包监测”的黑广播信号智能搜索识别系统[J].中国无线电,2017(5):71-73. 被引量：4

引证文献3

1陈峙宇,吕坦悦,王菲,段震伟.基于众包的图片标注系统[J].计算机与现代化,2019,0(8):112-116. 被引量：1
2荣欢,马廷淮.利用收益预测与策略梯度两阶段众包评论集成[J].计算机科学与探索,2021,15(8):1476-1489.
3宋翼.数字化时代“AI+众包”一站式解决方案探究[J].价值工程,2021,40(35):138-140.

二级引证文献1

1李贞,刘海燕,庞禄申.基于众包模式的数据采集和标注系统研究[J].大众科技,2021,23(10):15-18. 被引量：3

1赵泽青.网络评论观点挖掘综述[J].现代计算机,2019,25(7):49-53. 被引量：2
2许铭淏.用户评论数据模型与信息处理[J].信息技术与信息化,2019(3):147-149. 被引量：2
3薛龙.数字技术与传统二维动画制作的相互关系[J].信息与电脑,2019,31(6):155-156. 被引量：3
4许海卫.基于学生学习路径外显的可见教学实践[J].化学教学,2019(4):34-37. 被引量：1
5张银锋.建筑电气设计低压供配电系统的可靠性分析[J].华东科技（综合）,2019(3):59-59.
6苏旷怡.像控测量及内业处理流程探讨[J].居舍,2019(7):178-178.
7金洪禹.浅谈如何提高海洋仪器的环境适应性和可靠性[J].中国设备工程,2019(6):222-223. 被引量：2
8睢国钦,那日萨,彭振.基于深度学习和CRFs的产品评论观点抽取方法[J].情报杂志,2019,38(5):177-185. 被引量：9
9邱杰凡,戴光麟,范玉雷,李志强.面向专业学位水平评估体系的计算机技术专业培养改革方法研究[J].计算机教育,2019(5):25-27. 被引量：2
10宋子晖,李卓,陈昕.基于压缩感知的移动群智感知任务分发机制[J].计算机应用,2019,39(1):15-21. 被引量：3

计算机应用

2019年第5期

浏览历史

内容加载中请稍等...

成本约束下自适应众包标注的用户观点抽取被引量：3

参考文献3

二级参考文献103

共引文献156

同被引文献20

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

成本约束下自适应众包标注的用户观点抽取 被引量：3

参考文献3

二级参考文献103

共引文献156

同被引文献20

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

成本约束下自适应众包标注的用户观点抽取被引量：3