一种词聚类LDA的商品特征提取算法被引量：12

An Algorithm Based on Words Clustering LDA for Product Aspects Extraction

下载PDF

导出

摘要商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果. Product reviews often use some low-frequency synonyms or context-dependent words to describe the product aspects,and howto effectively identify these low-frequency words is a difficult problem in aspect extraction. Due to the lack of prior knowledge,it is difficult to find and extract the low-frequency aspect words by topic model directly. This paper proposes a method for word clustering in corpus of product reviews,and it takes semantic similarity and contextual relevance of words into account. Then based on the method we present a topic model by adding word clustering as a priori knowledge into the LDA for aspects extraction,we call it WCLDA. In the process of WC-LDA,word clustering can be implemented according to the distance of each two words calculated by similarity and contextual degree; Secondly,word clustering is introduced as a weighting factor in LDA for aspect extraction,which can increase the probability belonging to the same topic of the words that in the same cluster. Experimental results showthat the word clustering algorithm and WC-LDA model presented in this paper have a better effect.

作者彭云万常选江腾蛟刘德喜刘喜平

机构地区江西财经大学信息管理学院江西财经大学数据与知识工程江西省高校重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2015年第7期1458-1463,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61173146 61363010 61363039)资助国家社会科学基金项目(12CTQ042)资助江西省高等学校科技落地计划(产学研合作)项目(KJLD12022)资助江西省自然科学基金重大项目(20152ACB20003) 江西省研究生创新专项项目(YC2013-B047)资助

关键词词聚类上下文相关 LDA模型特征提取 word clustering contextual relevance Latent Dirichlet Allocation（LDA） model aspect extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
2徐南轩,邹恒明.一种反映词语相关度语义库的构建方法[J].上海交通大学学报,2008,42(7):1129-1132. 被引量：3

二级参考文献15

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2李鹤龄.信息熵、玻尔兹曼熵以及克劳修斯熵之间的关系——兼论玻尔兹曼熵和克劳修斯熵是否等价[J].大学物理,2004,23(12):37-40. 被引量：28
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
5刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..
6Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance [A].In: Proceedings of the First International Conference on Recent Advanced in NLP [C]. 1995.
7Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [A]. In:Proceedings of the Fifteenth International Conference on Machine Learning [C]. 1998.
8HowNet [R]. HowNet's Home Page. http://www.keenage. com.
9BUDANITSKY, A. AND HIRST, G. Semantic distance in WordNet : An experimental, application-oriented evaluation of five measures [A]. In: Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics[C]. 2001.
10同义词词林[R]．http：／／www．ir—lab．org／．

共引文献106

1张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
2吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
3左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
4张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
5曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
6刘卫红.基于非功能语义的语义Web服务匹配方法研究[J].微型电脑应用,2008,24(7):20-22.
7江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：106
8郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11
9裘江南,罗志成,王延章.基于中文语义词典的语义相关度方法比较研究[J].情报理论与实践,2008,31(5):715-719. 被引量：5
10宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41

同被引文献91

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
3郝占刚,王正欧.基于混沌社会演化算法的文本聚类新方法[J].系统工程学报,2007,22(1):109-112. 被引量：1
4中国互联网络信息中心(CNNIC).第36次中国互联网络发展状况统计报告[EB/OL]. http: //www. cnnic. net. cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf’ 2015-7-22.
5MARTIN S,NEY H.Algorithms for bigram and trigram word clustering[C].In:Proc European Conference Speech Communication and Technology,Madrid,1995:1253-1256.
6刘树杰,董力,张家骏,等.深度学习在自然语言处理中的应用[J].中国计算机学会通讯,2015,11(3):9-16.
7BENGIO Y,DUCHARME R,VINCENT P,et al.A neural probabilistic language model[J].The Joural of Machine Research,2003(3):1137-1155.
8MIKOLOV T,KOMBRINK S,BURGET L,et al.Extensions of recurrent neural network language model[C].Acoustics,Speech and Signal Processing(ICASSP),2011IEEE International Conference on,IEEE,2011:5528-5531.
9Kazi F, Joshi S, Machchhar S, et al. Novel approach for online forum hotspot detection [ J ]. Data Mining and Knowledge Engineering, 2015,7 ( 6 ) : 203-208.
10Devi K N, Bhaskaran V M. Rough set and entropy based feature selection for online forums hotspot detection [ J ]. International Journal of Computer Applications, 2015,117 (10) :37-41.

引证文献12

1苏丰龙,谢庆华,邱继远,岳振军.基于深度学习的领域实体属性词聚类抽取研究[J].微型机与应用,2016,35(1):53-55. 被引量：7
2万红新,彭云,郑睿颖.时序化LDA的舆情文本动态主题提取[J].计算机与现代化,2016(7):91-94. 被引量：3
3佘维军,刘子平,杨卫芳.基于改进LDA主题模型的产品特征抽取[J].计算机与现代化,2016,0(11):1-6. 被引量：7
4赵刚,徐赞.基于机器学习的商品评论情感分析模型研究[J].信息安全研究,2017,3(2):166-170. 被引量：17
5李正宇,陈欢欢.统计流形学习中的文本度量方法[J].小型微型计算机系统,2018,39(3):515-519. 被引量：1
6万红新,彭云.语义约束和时间关联LDA的社交媒体主题词链提取[J].小型微型计算机系统,2018,39(4):742-747. 被引量：3
7彭云,万红新,钟林辉.一种语义弱监督LDA的商品评论细粒度情感分析算法[J].小型微型计算机系统,2018,39(5):978-985. 被引量：13
8李保珍,苏菁.基于专家生成内容的领域知识图谱构建[J].情报科学,2018,36(10):13-19. 被引量：4
9李良强,袁华,叶开,钱宇,唐小我.基于在线评论词向量表征的产品属性提取[J].系统工程学报,2018,33(5):687-697. 被引量：16
10米婧.特征提取算法下的英汉翻译系统研究[J].单片机与嵌入式系统应用,2020,20(3):54-56. 被引量：5

二级引证文献76

1薛福亮,刘丽芳.一种基于CRF与ATAE-LSTM的细粒度情感分析方法[J].数据分析与知识发现,2020,4(2):207-213. 被引量：9
2聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
3李泽中,齐晨旭,戎佳.多源知识融合的企业知识服务模型构建研究[J].情报科学,2022,40(12):56-62. 被引量：1
4马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
5周谧,李燕.基于评论大数据的顾客感知产品质量评价[J].科技促进发展,2020,16(7):804-810. 被引量：1
6韩静.基于智慧养老模式下的老年助听器用户体验影响因素分析[J].科技经济导刊,2020,0(2):195-196.
7胡龙茂.中文产品评论细粒度情感分析综述[J].软件导刊,2017,16(7):213-215.
8王菲,刘云飞.基于电商平台商品评价的情感分类研究[J].信息系统工程,2017,30(9):115-116. 被引量：1
9涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机（中旬刊）,2017(12):52-55. 被引量：15
10张弦,杨建林.基于LDA-Gibbs模型的中美网络信息安全立法比较分析[J].大学图书情报学刊,2018,36(2):110-117.

1秦成磊,魏晓.中文在线评论中的商品特征聚类研究[J].计算机应用与软件,2016,33(7):64-67.
2施国良,石桥峰.基于文本挖掘的不同购物网站商品评论一致性研究[J].现代图书情报技术,2011(12):64-68. 被引量：6
3王纪辉,赵卓宁.基于协同过滤算法的电子商务网站个性化推荐系统设计[J].成都信息工程学院学报,2007,22(z1):161-167. 被引量：3
4孟庆庆,张胜男,卢楚雍.基于用户特征和商品特征的组合协同过滤算法[J].软件导刊,2015,14(3):41-43. 被引量：4
5杨希,刘晓升,杨璐,严建峰.基于共享内存的并行LDA算法[J].计算机应用与软件,2016,33(3):252-254.
6李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
7李峰,李军怀,王瑞林,张璟.基于商品特征的个性化推荐算法[J].计算机工程与应用,2007,43(17):194-197. 被引量：8
8刘海旭,郑岩.基于语义的标签关联算法[J].软件,2012,33(12):136-138. 被引量：1
9周民,李蕊.基于商品特征的商品评论信息挖掘方法[J].计算机与现代化,2014(6):98-101. 被引量：1
10高阳,严建峰,刘晓升.朴素并行LDA[J].计算机科学,2015,42(6):243-246. 被引量：8

小型微型计算机系统

2015年第7期

浏览历史

内容加载中请稍等...

一种词聚类LDA的商品特征提取算法被引量：12

参考文献2

二级参考文献15

共引文献106

同被引文献91

引证文献12

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种词聚类LDA的商品特征提取算法 被引量：12

参考文献2

二级参考文献15

共引文献106

同被引文献91

引证文献12

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种词聚类LDA的商品特征提取算法被引量：12