结合主动学习和自动标注的评价对象抽取方法被引量：3

Opinion target extraction with active-learning and automatic annotation

导出

摘要提出了结合主动学习和自动标注的评价对象抽取方法。具体实现过程中,首先,利用少量的已标注样本训练分类器,对非标注样本进行测试,获取自动标注结果及其置信度;其次,通过置信度计算每个样本的整体置信度,挑选出低置信度即不确定性高的样本待标注;最后,对待标注样本中置信度低的词语进行人工标注,而置信度高的部分则采用自动标注结果。实验表明,该方法可以在确保抽取性能的同时有效地减小人工标注语料的开销。 An opinion target extraction method combined active-learning and automatic annotation is introduced. Firstly, the results of automatically annotation with the confidence are obtained by using a few of labeled corpus to train the classifier to test the unlabeled samples; secondly, the samples of low confidence is annotated by calculating the confidence of every sample; finally, the words of low confidence in the selected samples is annotated manually, while the others are adopted the results of automatic annotation. The empirical results demonstrate that the proposed method effectively reduces the annotation cost and achieves good performance on opinion target extraction.

作者朱珠李寿山戴敏周国栋

机构地区苏州大学自然语言处理实验室

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2015年第7期38-44,共7页 Journal of Shandong University(Natural Science)

基金国家自然科学基金资助项目(61375073)

关键词情感分析评价对象抽取主动学习自动标注 sentiment analysis opinion target extraction active-learning automatic annotation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1PANG Bo, LEE L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2):1-135.
2PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
3赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：537
4LEWIS D, GALE W. Training text classifiers by uncertainty sampling[C]//Proceedings of SIGIR-94.London:Springer-verlag, 1994: 3-12.
5HU Minqing, LIU B. Mining opinion features in customer reviews[C]//Proceedings of AAAI-2004. California: AAAI Press, 2004: 755-760.
6LI Binyang, ZHOU L, FENG S, et al. A unified graph model for sentence-based opinion retrieval[C]// Proceedings of ACL.Stroudsburg:Association for Computational Linguistics, 2010:1367-1375.
7ZHUANG Li, JING F, ZHU X. Movie review mining and summarization[C]//Proceedings of CIKM-2006. New York: ACM, 2006: 43-50.
8JAKOB N. GUREVYCH I. Extracting opinion targets in a single and cross-domain setting with conditional random fields[C]//Proceedings of EMNLP-2010.Stroudsburg: Association for Computational Linguistics, 2010: 1035-1045.
9王荣洋,鞠久朋,李寿山,周国栋.基于CRFs的评价对象抽取特征研究[J].中文信息学报,2012,26(2):56-61. 被引量：38
10龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31

二级参考文献51

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2倪茂树,林鸿飞.基于关联规则和极性分析的商品评论挖掘[C]//第三届全国信息检索与内容安全学术会议,2007:635-642.
3[1]D Cohn,Atlas R Ladner.Improving generalization with active learning.Machine Learning,1994,5(2):201-221
4[2]Y Freund,H S Seung,E Shamir,et al.Selective sampling using the query by committee algorithm.Machine Learning,1997,28(2-3):133-168
5[3]M Kaariainen.Active learning in the non-realizable case.In:Proc of the 17th Int'l Conf on Algorithmic Learning Theory.Berlin:Springer,2006.63-77
6[4]M -F Balcan,A Beygelzimer,J Langford.Agnostic active learning.In:Proc of the 23rd Int'l Conf on Machine Learning.San Francisco,CA:Morgan Kaufmann,2006
7[5]S Dasgupta.Coarse sample complexity bounds for active learning.In:Proc of Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2005
8[6]S Dasgupta,A T Kalai,C Monteleoni.Analysis of perceptron-based active learning.In:Proc of the 18th Annual Conf on Learning Theory.Berlin:Springer,2005
9[7]I Dagon,S Engelson.Committee-based sampling for training probabilistic classifiers.In:Proc of the 12th Int'l Conf on Machine Learning.San Francisco,CA:Morgan Kaufmann,1995.150-157
10[8]S Arganmon-Engelson,I Dagon.Committee-based sample selection for probabilistic classifiers.Journal of Artificial Intelligence research,1999,11:335-360

共引文献597

1薛福亮,刘丽芳.一种基于CRF与ATAE-LSTM的细粒度情感分析方法[J].数据分析与知识发现,2020,4(2):207-213. 被引量：9
2包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
3王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
4王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：18
5刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
6徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：2
7张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29.
8安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.
9李恬,冯早,朱雪峰.基于主动学习和最优路径森林的管道故障分类识别方法[J].电子测量与仪器学报,2022,36(12):67-76. 被引量：1
10蔡馥谣.抖音短视频中辽宁城市形象的呈现与传播策略研究[J].都市文化研究,2024(1):230-242.

同被引文献27

1姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
2樊娜,蔡皖东,赵煜.基于最大熵模型的观点句主观关系提取[J].计算机工程,2010,36(2):4-6. 被引量：16
3刘鸿宇,赵妍妍,秦兵,刘挺.评价对象抽取及其倾向性分析[J].中文信息学报,2010,24(1):84-88. 被引量：99
4安强强,张蕾.基于依存树的中文语义角色标注[J].计算机工程,2010,36(4):161-163. 被引量：7
5鞠久朋,张伟伟,宁建军,周国栋.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212. 被引量：31
6赵妍妍,秦兵,车万翔,刘挺.基于句法路径的情感评价单元识别[J].软件学报,2011,22(5):887-898. 被引量：58
7郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12. 被引量：43
8张雪英,朱少楠,张春菊.中文文本的地理命名实体标注[J].测绘学报,2012,41(1):115-120. 被引量：27
9王荣洋,鞠久朋,李寿山,周国栋.基于CRFs的评价对象抽取特征研究[J].中文信息学报,2012,26(2):56-61. 被引量：38
10王素格,吴苏红.基于依存关系的旅游景点评论的特征-观点对抽取[J].中文信息学报,2012,26(3):116-121. 被引量：17

引证文献3

1霍立平.基于循环层叠条件随机场的评价对象识别[J].兰州理工大学学报,2018,44(1):104-108. 被引量：1
2张洪胜,高海宾.基于模拟样本训练的支持向量机[J].韶关学院学报,2019,40(12):13-17.
3凌广明,徐爱萍,王伟.基于深度学习的地址信息自动标注研究[J].电子学报,2020,48(11):2081-2091. 被引量：2

二级引证文献3

1吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：6
2孙家媛,张艳荣,谢云熙,王加迎,张丽霞.基于观点信息的电商文本评价单元识别[J].哈尔滨商业大学学报（自然科学版）,2022,38(2):177-185. 被引量：2
3李长玲,荣国阳,申力旭,刘聪.学科动能理论及其在学科影响力评价中的应用--以情报学为例[J].图书情报工作,2022,66(23):4-12. 被引量：2

1陈交顺,陆继东,黄义华,董统永,沈凯.专家系统在循环流化床锅炉状态诊断中的应用[J].电站系统工程,2002,18(2):11-13. 被引量：4
2李文昕,屈丹,李弼程,王炳锡.语音关键词检测系统中基于时长和边界信息的置信度[J].应用科学学报,2012,30(6):588-594. 被引量：2
3张鹏远,韩疆,颜永红.关键词检测系统中基于音素网格的置信度计算[J].电子与信息学报,2007,29(9):2063-2066. 被引量：3
4王连亮.多假设用于同一结论时综合置信度计算的新方法[J].电讯技术,2011,51(11):68-72.
5王婷,王保云,王桂林.基于焦元置信度的证据合成算法[J].淮海工学院学报（自然科学版）,2015,24(1):39-44.
6古平,罗志恒,欧阳源遊.基于增量模式的文档层次分类研究[J].计算机工程,2014,40(1):209-212. 被引量：2
7张鹏远,邵健,赵庆卫,颜永红.广播新闻语音的关键词检测系统[J].通信学报,2007,28(12):131-135. 被引量：1
8李文昕,屈丹,李弼程,刘崧.语音关键词识别中基于MLP帧级子词后验概率的置信度方法[J].信号处理,2012,28(7):1051-1056. 被引量：1
9池悦,何宁,张琪,赵珊珊.一种改进的基于Criminisi算法的目标移除方法[J].北京联合大学学报,2017,31(1):67-74. 被引量：5
10张少俊,李建华,宋珊珊,李斓,陈秀真.贝叶斯推理在攻击图节点置信度计算中的应用[J].软件学报,2010,21(9):2376-2386. 被引量：29

山东大学学报（理学版）

2015年第7期

浏览历史

内容加载中请稍等...

结合主动学习和自动标注的评价对象抽取方法被引量：3

参考文献15

二级参考文献51

共引文献597

同被引文献27

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合主动学习和自动标注的评价对象抽取方法 被引量：3

参考文献15

二级参考文献51

共引文献597

同被引文献27

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合主动学习和自动标注的评价对象抽取方法被引量：3