期刊文献+

基于微博的情感新词发现研究 被引量:8

Research on New Chinese Words Detection in Micro-blog
下载PDF
导出
摘要 微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然后利用本文提出的相关统计特征:候选词串的互信息与邻接信息熵等对候选词串进行筛选,实现新词过滤。 As a typical social network application,micro-blog springs up many new words every day which is a new research hotspot in the field of natural language processing.This paper presents a method using generalized suffix tree to extract new words based on computing repetitive content.And then proposed statistical characteris-tics are used:mutual information and entropy of information to filter the candidates.
作者 王非
机构地区 北京邮电大学
出处 《软件》 2015年第11期6-8,共3页 Software
基金 高等学校学科创新引智计划(111计划)项目(B08004) 新一代宽带无线移动通信网国家科技重大专项(2011ZX03002-005-01) 国家自然科学基金资助项目(61273217) 博士点基金资助项目(20130005110004)
关键词 微博 新词发现 新词过滤 后缀树 Micro-blog New words detection Words filter Suffix tree
  • 相关文献

参考文献7

二级参考文献30

  • 1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量:15
  • 2邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报(自然科学版),2005,14(1):76-78. 被引量:6
  • 3于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量:4
  • 4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量:249
  • 5贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量:24
  • 6郑家恒 李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
  • 7陆志苇.现代汉语构词法(修订本)[M].北京:中华书局,1975..
  • 8Boguraev B, Kennedy C. Applications of term identification technology: domain description and content characterisafion [ J] .Natural Language Engineering, 1999,5( 1 ) : 17 - 44.
  • 9Velardi P,Missikoff M,et al. Identification of relevant terms to support the construction of domain ontologies[ A]. Proceedings of the Workshop on Human language Technologies and Knowledge Management[ C ]. France. ACM Press, 2001.1 - 8.
  • 10Maedche A, Staab S. Ontology learning. Handbook on Ontologies in Information Systems[M ]. Heidelberg. Springer-Verlag,2004.173 - 190.

共引文献103

同被引文献44

引证文献8

二级引证文献47

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部