基于微博的情感新词发现研究被引量：8

Research on New Chinese Words Detection in Micro-blog

下载PDF

导出

摘要微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然后利用本文提出的相关统计特征:候选词串的互信息与邻接信息熵等对候选词串进行筛选,实现新词过滤。 As a typical social network application,micro-blog springs up many new words every day which is a new research hotspot in the field of natural language processing.This paper presents a method using generalized suffix tree to extract new words based on computing repetitive content.And then proposed statistical characteris-tics are used:mutual information and entropy of information to filter the candidates.

作者王非

机构地区北京邮电大学

出处《软件》 2015年第11期6-8,共3页 Software

基金高等学校学科创新引智计划(111计划)项目(B08004) 新一代宽带无线移动通信网国家科技重大专项(2011ZX03002-005-01) 国家自然科学基金资助项目(61273217) 博士点基金资助项目(20130005110004)

关键词微博新词发现新词过滤后缀树 Micro-blog New words detection Words filter Suffix tree

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
2林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
3刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
4郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
5E. Ukkonen.??On-line construction of suffix trees(J)Algorithmica . 1995 (3)
6Fuchun Peng,Fangfang Feng,Andrew McCallum.Chinese segmentation and new word detection using conditional random fields. Proceeding of The 20th International Conference on Computational Linguistics . 2004
7Li H,Huang C N,Gao J.The Use of SVM for Chinese New Word Identification. Proceedings of First International Joint Conference on Natural Language Processing . 2004

二级参考文献30

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
3于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
6郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
7陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
8Boguraev B, Kennedy C. Applications of term identification technology: domain description and content characterisafion [ J] .Natural Language Engineering, 1999,5( 1 ) : 17 - 44.
9Velardi P,Missikoff M,et al. Identification of relevant terms to support the construction of domain ontologies[ A]. Proceedings of the Workshop on Human language Technologies and Knowledge Management[ C ]. France. ACM Press, 2001.1 - 8.
10Maedche A, Staab S. Ontology learning. Handbook on Ontologies in Information Systems[M ]. Heidelberg. Springer-Verlag,2004.173 - 190.

共引文献103

1庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
2黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
5李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
6吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
7夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
8罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
9龚才春,贺敏,陈海强,许洪波,程学旗.大规模语料的频繁模式快速发现算法[J].通信学报,2007,28(12):161-166. 被引量：4
10韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2

同被引文献44

1祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：186
2唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
3杨超,冯时,王大玲,杨楠,于戈.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(4):691-695. 被引量：68
4夏火松,陶敏,王一,魏翔.停用词表对基于SVM的中文文本情感分类的影响[J].情报学报,2011,30(4):347-352. 被引量：6
5朱丽萍,袁加锦,李红.情绪效价及强度对词汇加工的影响[J].心理科学,2011,34(2):284-288. 被引量：11
6张成功,刘培玉,朱振方,方明.一种基于极性词典的情感分析方法[J].山东大学学报（理学版）,2012,47(3):47-50. 被引量：52
7张军芳.对我国涉华国际舆情研究的解读与反思--以1998-2011年间190篇相关论文为基础的分析[J].新闻记者,2012(7):58-62. 被引量：10
8张振华,刘瑞芳.微博社交网络中面向机构的用户挖掘[J].软件,2013,34(1):121-124. 被引量：10
9周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164. 被引量：81
10尹培培.大数据时代的网络舆情分析系统[J].广播与电视技术,2013(7):44-47. 被引量：25

引证文献8

1顾亦然,赵栋,孟繁荣.群体对个体影响力传播算法[J].软件,2018,39(3):52-56. 被引量：1
2王子牛,吴建华,高建瓴,陈娅先,王许.基于深度神经网络和LSTM的文本情感分析[J].软件,2018,39(12):19-22. 被引量：12
3张聪聪,李思彤,汤艺,殷复莲.基于数据挖掘的国际涉华舆情分析关键技术研究[J].软件,2018,39(12):172-176. 被引量：7
4赵志滨,石玉鑫,李斌阳.基于句法分析与词向量的领域新词发现方法[J].计算机科学,2019,46(6):29-34. 被引量：14
5刘永芬,程丽,陈志安.基于特征选择的M-SVM中文文本分类[J].软件,2019,40(9):71-74.
6柳文婷.基于改进互信息的微博新情感词提取[J].延边大学学报（自然科学版）,2019,45(4):349-355. 被引量：2
7石琳,徐瑞龙.基于Word2vec和改进TF-IDF算法的深度学习模型研究[J].计算机与数字工程,2021,49(5):966-970. 被引量：7
8刘艳梅.深度学习技术下的中文微博情感的分析与研究[J].软件,2016,37(5):22-24. 被引量：4

二级引证文献47

1邓建平.俞尚德治疗脾胃病经验举隅[J].中医杂志,2000,41(1):16-17. 被引量：3
2邢长征,李珊.文本情感分析的深度学习方法[J].计算机应用与软件,2018,35(8):102-106. 被引量：16
3刘作国,陈笑蓉.汉语句法分析中的论元关系模型研究[J].南京大学学报（自然科学版）,2019,55(6):1010-1019. 被引量：1
4王梦遥,王晓晔,洪睿琪,柴晓瑞.基于改进BIRCH聚类算法的评价对象挖掘[J].软件,2019,40(11):9-12. 被引量：2
5杜军龙,周剑涛.政务云服务化探索研究[J].软件,2019,40(11):152-155. 被引量：2
6周鑫,刘文松,林峰,杨东,胡竹青,张锦辉,管荣飞.基于文本分析的南瑞集团186客服业务能力优化[J].软件,2019,40(12):115-117.
7刘晓飞,朱斐,伏玉琛,刘全.基于用户偏好特征挖掘的个性化推荐算法[J].计算机科学,2020,47(4):50-53. 被引量：14
8韦堂洪,秦学,朱道恒,鲜翠琼.基于协同过滤的水果推荐系统设计与实现[J].软件,2020,41(3):206-209.
9尹慧,花嵘,郭宁,尹韬.基于深度学习的分布式安全日志分析方法[J].软件,2020,41(3):272-277. 被引量：6
10张君如,张佳蕾,袁禾,王嘉敏,裴听雨.基于ARIMA和BP神经网络的生态系统服务价值预测仿真[J].软件,2020,41(4):216-220. 被引量：1

1柳渤,李建中.基于广义后缀树的最长重复子模式算法[J].航天控制,2008,26(2):74-78.
2曲文龙,杨炳儒,张克君.基于广义后缀树的事件序列频繁情节挖掘算法[J].北京科技大学学报,2006,28(5):490-496. 被引量：1
3曲文龙,王彦琪,张敬敏,杨炳儒.基于广义后缀树的事件流频繁情节在线挖掘算法[J].微电子学与计算机,2007,24(12):32-36.
4张莉,姜浩.领域本体半自动化建模工具的设计与实现[J].计算机与数字工程,2009,37(9):35-38. 被引量：5
5蒋程,张建武.利用广义后缀树的最大相似度优先聚类方法[J].中国科技信息,2013(3):89-91.
6杜红斌,夏克文,刘南平,吴涛.一种改进的基于广义后缀树的文本聚类算法[J].信息与控制,2009,38(3):331-336. 被引量：7
7唐波,陈光,王星雅,王非,陈小慧.微博新词发现及情感倾向判断分析[J].山东大学学报（理学版）,2015,50(1):20-25. 被引量：8
8朱霞,殷凯,黄树成.Web访问挖掘中事务聚类研究[J].常州工学院学报,2004,17(6):45-49. 被引量：3
9肖艳丽,张振宇,袁江涛.基于位置序列的广义后缀树用户相似性计算方法[J].计算机应用,2015,35(6):1654-1658. 被引量：1
10杨倩倩,刘胜全,刘艳,李连倍.维文领域本体组合词概念分类关系提取[J].计算机应用与软件,2015,32(7):79-81. 被引量：1

软件

2015年第11期

浏览历史

内容加载中请稍等...

基于微博的情感新词发现研究被引量：8

参考文献7

二级参考文献30

共引文献103

同被引文献44

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于微博的情感新词发现研究 被引量：8

参考文献7

二级参考文献30

共引文献103

同被引文献44

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于微博的情感新词发现研究被引量：8