期刊文献+

基于语境和语义的中文文本聚类算法研究

下载PDF
导出
摘要 基于语境和语义的聚类算法,一方面从领域、情景、背景三方面提取特征词,建立语境框架文本特征,另一方面计算关键词TF-IDF权重值,形成关键词VSM向量空间。将两方面得到的特征项分别存储,构造特征空间。分两次聚类,第一次聚类对语境框架文本特征进行聚类,将相同语境的文本归为一类,达到快速聚类的效果。第二次聚类在第一次聚类的基础上,对各语境类内的文本再一次聚类,利用文本关键词向量空间进行语义计算,实现更细致的划分,达到提高聚类精度的目的。
作者 吴勇 周军
出处 《科技信息》 2010年第35期I0029-I0030,共2页 Science & Technology Information
基金 湖南省教育厅资助科研项目 项目编号09C1163
  • 相关文献

参考文献8

二级参考文献15

  • 1李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报(自然科学版),2005,33(3):53-55. 被引量:19
  • 2李茜.框架网(FrameNet)——一项基于框架语义学的词库工程[J].中国科技信息,2005(16A):39-39. 被引量:2
  • 3林鸿飞,卢冶,王剑峰,宋锐.基于概念扩充和综合评价的文本综述[J].郑州大学学报(理学版),2007,39(2):104-109. 被引量:2
  • 4Likas A, Vlassis N, Verbeek J. The global k-means clustering algorithm[J]. Pattern Recognition, 2003,36 (2) : 451.
  • 5Fragos K,Maistros Y, Skourlas C. Word sense disambiguation using WordNet relations[C]//Proceeding of the 1st Balkan Conference in Informatics. Thessaloniki: Greek Computer Society, Aristotle University, University of Macedonia, Technological Institution of Thessaloniki,2003,633 -643.
  • 6WANG Yong,Hodges Julia. Document clustering with semantic analysis[C]//Proc of the 39th Annual Hawaii International Con- ference on System Sciences. Hawaii: University of Hawaii. Department of Information Technology Management, 2006.
  • 7董振东.知网[EB/OL].[2007-04-16].http://www.keenage.com./zhiwang/c_zhiwang.html
  • 8中国科学院计算技术研究所数字化室和软件室.中文自然语言处理开放平台[CD/DL].[2007-03-06].http://www.nlp.org.cn/
  • 9董振东,董强.知网[EB/OL].(1999-09-23)[B008-12-22].http://www.keenage.com/Theory and practice of How-Net/03.pdf.
  • 10苗传江.HNC(慨念层次网络)理论导论[M].北京:清华大学出版社,2005:1-2,9-26.

共引文献186

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部