在线评论中基于边界平均信息熵的产品特征提取算法被引量：10

An algorithm of online product feature extraction based on boundary average entropy

导出

摘要随着电子商务业务的迅猛发展,基于用户网上评论的文本研究也成为热点课题.用户在进行购买决策时,不仅需要了解该商品的整体评价,同时需要知道商品各个特征的情感态度倾向,故文章的目的在于研究在线评论中产品特征的自动提取的问题.实验选择满足BNP(base noun phrase)模式的N-Gram作为候选项,并利用N-Gram的边界平均信息熵的指标以及子串依赖关系对候选项进行过滤,提取最终的产品特征.与仅采取BNP模式直接作为产品特征的参照条件相比,当前方法选取的过滤条件可以有效提高产品特征提取的准确率.文中的方法不依赖于外部的领域语料且不需进行人工干预,其最终输出的结果具有子串依赖的层次性,可以作为领域知识构建的有效的参考数据结构. With the rapid development of e-commerce business, the research of text mining with online reviews has become a prevalence topic. While an end-user is making a purchasing decision, he is not only interested in whether the product is recommended, he also cares about the sentiment orientation corresponds to the product＇s detailed features. So this paper aims to solve the problem of automatically extracting the products features of the online reviews. In his paper, we choose the N-Grams that are in the pattern of BNP （base noun phrase） as candidate feature items. Additionally, we take advantage of the boundary average entropy of N-Grams and the substring dependency relationships among the items to filter the result. Referring to the final experiment outcomes, we conclude that the current filtering condition improves the accuracy of the result comparing with the baseline method, which directly designate the BNP as feature items. The current method does not rely on the outside domain corpus for training and is free from manual intervention. Also, one more meaningful aspect of the research is that the output result is in a hierarchical presentation of tree form and it will be beneficial for the further research oil the construction of domain knowledge ontology as a nice reference data structure.

作者刘通张聪吴鸣远

机构地区上海交通大学安泰经济与管理学院上海交通大学电子信息与电气工程学院

出处《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2016年第9期2416-2423,共8页 Systems Engineering-Theory & Practice

关键词在线评论产品特征边界平均信息熵 online reviews product feature boundary average entropy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Jones Q, Ravid G, Rafaeli S. Information overload and the message dynamics of online interaction spaces: A theoretical model and empirical exploration[J]. Information Systems Research, 2004, 15(2): 194-210.
2Nelson P. Information and consumer behavior[J]. Journal of Political Economy, 1970, 78(20): 311-329.
3Hu M, Liu B. Mining opinion features in customer reviews[J]. AAAI, 2004, 4(4): 755-760.
4Miller G A. WordNet: An on-line lexical database[J]. International Journal of Lexicography, 1990, 3(4): 235 -312.
5姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
6Carenini G, Ng R T, Zwart E. Extracting knowledge from evaluative text[C]// Proceedings of the 3rd Interna- tional Conference on Knowledge Capture, ACM, 2005: 11-18.
7Yi J, Nasukawa T, Bunescu R, et al. Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques[C]// Data Mining, ICDM 2003. Third IEEE International Conference on. IEEE, 2003: 427-434.
8Popescu A M, Etzioni O. Extracting product features and opinions from reviews[C]// Proceedings Confer- ence Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, British Columbia, 2005: 339-346.
9李实,叶强,李一军,RobLaw.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(2):142-152. 被引量：130
10韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013,22(5):188-192. 被引量：7

二级参考文献57

1YE Qiang LI Yijun ZHANG Yiwen.Semantic-Oriented Sentiment Classification for Chinese Product Reviews: An Experimental Study of Book and Cell Phone Reviews[J].Tsinghua Science and Technology,2005,10(z1):797-802. 被引量：7
2王永贵,韩顺平,邢金刚,于斌.基于顾客权益的价值导向型顾客关系管理——理论框架与实证分析[J].管理科学学报,2005,8(6):27-36. 被引量：32
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4江亮.学术博客的“无形学院”交流模式探析[J].情报科学,2006,24(2):296-299. 被引量：29
5徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：122
6郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
7陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
8..汉语分词系统[EB/OL]..http://www.ictclas.org/.,,[2010-09-20]..
9姚天昉,等.一个用于汉语汽车评论的意见挖掘系统[A].中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集[C].北京:清华大学出版社,2006,260-281.
10哈尔滨工业大学信息检索研究室.中文依存句法分析概况介绍[EB/OL].http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE user op=view page&PAGE id=147&MMN position=52:48,2006.

共引文献270

1叶强,詹宝强,马笑晨,李永立.基于文本挖掘和多模块融合的金融数据分类分级方法[J].信息技术与管理应用,2022(1):120-133.
2王北斗,窦志,陈纯,卜佳俊.支持评价类问题与电影智能搜索的问答系统构建[J].大连理工大学学报,2011,51(S1):93-97. 被引量：1
3郝博一,夏云庆,邬晓钧,郑方,刘轶.基于泛化和繁殖的自举式意见目标抽取方法[J].清华大学学报（自然科学版）,2009(S1):1333-1338.
4黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
5崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
6任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
7李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
8吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
9夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
10罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14

同被引文献109

1Tan WANG,Xu WANG,Yu GONG,Chuanwen JIANG,Fengjia XIONG,Lei LI,Yan ZHAO.Initial allocation of carbon emission permits in power systems[J].Journal of Modern Power Systems and Clean Energy,2017,5(2):239-247. 被引量：5
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
3周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
4江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
5曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
6国务院发展研究中心课题组,刘世锦,张永生.全球温室气体减排：理论框架和解决方案[J].经济研究,2009,44(3):4-13. 被引量：160
7李实,叶强,李一军,RobLaw.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(2):142-152. 被引量：130
8曾鸣,马向春,杨玲玲.电力市场碳排放权可调分配机制设计与分析[J].电网技术,2010,34(5):141-145. 被引量：28
9吴亚晶,张鹏,狄增如,樊瑛.二分网络研究[J].复杂系统与复杂性科学,2010,7(1):1-12. 被引量：39
10郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(8):78-88. 被引量：239

引证文献10

1马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
2郝玫,马建峰.在线评论中基于动态窗口提取特征观点对的产品推荐模型[J].系统工程理论与实践,2018,38(9):2363-2375. 被引量：16
3刘臣,吉莉,唐莉.基于二分网中心节点识别的产品评论特征-观点词对提取研究[J].计算机系统应用,2018,27(11):9-16. 被引量：4
4艾时钟,曾鑫.基于Ebay评论数据中的情感总量与信息熵对评论有用性的影响[J].软科学,2019,33(7):129-132. 被引量：3
5潘险险,余梦泽,隋宇,郇嘉嘉,洪海峰,林俐.计及多关联因素的电力行业碳排放权分配方案[J].电力系统自动化,2020,44(1):35-42. 被引量：25
6金燕,黄杰.基于信息熵与词长信息改进的TFIDF算法[J].浙江工业大学学报,2021,49(2):203-209. 被引量：10
7钱宇,曹恩叶,邓文君,袁华.海量用户评论在APP更新设计中的参与作用挖掘[J].系统工程理论与实践,2021,41(3):554-564. 被引量：12
8陈可嘉,郑晶晶.基于种子约束LDA的产品属性提取方法[J].华南理工大学学报（自然科学版）,2022,50(6):37-48.
9孙士伟,王川,贾琳.基于多维度文本特征的电商平台评论有用性研究[J].北京理工大学学报（社会科学版）,2023,25(2):176-188. 被引量：4
10孙冰,沈瑞.基于在线评论的产品需求偏好判别与客户细分——以智能手机为例[J].中国管理科学,2023,31(3):217-227. 被引量：7

二级引证文献78

1楚东晓,易木涵.基于在线评论构建面向博物馆的访客体验维度模型[J].包装工程,2024,45(S01):22-29.
2史伟.基于极性等级法的观点词词典自动扩展研究[J].情报理论与实践,2019,42(10):157-161.
3袁润,王琦.学术博客用户画像模型构建与实证——以科学网博客为例[J].图书情报工作,2019,63(22):13-20. 被引量：21
4王晓蓉,彭丽芳.在线评论中奖励披露对消费者购买决策的影响[J].软科学,2020,34(6):122-125. 被引量：2
5赖荣燊,肖人彬.基于客户评论与性能—结构映射的产品绿色创新设计方法[J].南昌工程学院学报,2020,39(3):1-7. 被引量：1
6胡春华,赵慧,童小芹,任剑.推荐系统对消费者网购支出的影响研究[J].中国管理科学,2020(6):158-170. 被引量：7
7张炎亮,张超,李静.基于动态用户画像标签的KNN分类推荐算法研究[J].情报科学,2020,38(8):11-15. 被引量：33
8赵双,潘险险,林俐.碳排放配额托管业务中联合系统交易决策及利润分配策略[J].电力系统自动化,2020,44(16):30-36. 被引量：4
9张晓辉,刘小琰,钟嘉庆.考虑奖惩阶梯型碳交易和电–热转移负荷不确定性的综合能源系统规划[J].中国电机工程学报,2020,40(19):6132-6141. 被引量：136
10王雪莲,穆成林,卢焘韬,唐丽婧,周欣,康希,杨荣平.主客观组合赋权法结合质量常数法划分酒黄连饮片的等级[J].中国药房,2020,31(23):2853-2857. 被引量：3

1魏浩,丁要军.一种基于属性相关的C4.5决策树改进算法[J].中北大学学报（自然科学版）,2014,35(4):402-406. 被引量：13
2张亚飞,谢明鸿.基于HSI和局部同态滤波的彩色图像增强算法[J].计算机应用与软件,2013,30(12):303-307. 被引量：31
3钱树人.专用领域语料的分析及其理解[J].小型微型计算机系统,1993,14(5):20-24.
4刘羽,曹瑞娟.基于观点挖掘的产品特征提取[J].计算机应用与软件,2014,31(1):81-84. 被引量：1
5谭小彬,王卫平,奚宏生,殷保群.基于隐马尔可夫模型的异常检测[J].小型微型计算机系统,2004,25(8):1546-1549. 被引量：9
6李飏.基于差别函数的决策表属性约简算法研究[J].电脑知识与技术,2014(8):5348-5349.
7张见威,韩国强,沃焱.基于边界距离场互信息的图像配准方法[J].通信学报,2006,27(7):87-93. 被引量：10
8Dr. Emily Ayieta Ondondo.The Kisa Noun Phrase[J].US-China Foreign Language,2015,13(10):687-700.
9宋清昆,郝敏.一种改进的模糊C均值聚类算法[J].哈尔滨理工大学学报,2007,12(4):8-10. 被引量：26
10张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27. 被引量：55

系统工程理论与实践

2016年第9期

浏览历史

内容加载中请稍等...

在线评论中基于边界平均信息熵的产品特征提取算法被引量：10

参考文献15

二级参考文献57

共引文献270

同被引文献109

引证文献10

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

在线评论中基于边界平均信息熵的产品特征提取算法 被引量：10

参考文献15

二级参考文献57

共引文献270

同被引文献109

引证文献10

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

在线评论中基于边界平均信息熵的产品特征提取算法被引量：10