期刊文献+

基于组合特征的中文新闻网页关键词提取方法 被引量:8

Keyword extraction from Chinese news Web pages based on multi-features
下载PDF
导出
摘要 针对中文新闻网页的特点,使用了包括统计特征、位置特征和词性特征等在内的多种特征综合评定候选关键词的权重大小。对于部分分词结果不能良好地反映主题的问题,提出了一种基于有向图的组合词生成方法,旨在找出高频次的相邻词作为组合词。实验结果表明,该方法较传统的TF-IDF方法效率有较大提升,能够有效提取出新闻网页关键词。 Considering the characteristics of Chinese news Web pages, this paper uses many features including statistical feature, position feature and POS(Part of Speech)feature to evaluate the weight of candidate keywords. In order to solve the problem of that some segmentation cannot reflect the theme, this paper proposes a compound words generation method based on directed graph, which aims to find adjacency words for compound words. The experimental results show that this method is vastly superior to the conventional TF-IDF method in efficiency and can extract keyword from news Web page efficiently.
出处 《计算机工程与应用》 CSCD 2014年第19期222-226,共5页 Computer Engineering and Applications
关键词 提取 组合特征 组合词 有向图 新闻网页 extraction multi-features compound words directed graph news Web page
  • 相关文献

参考文献15

二级参考文献97

共引文献191

同被引文献72

  • 1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量:29
  • 2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量:68
  • 3计算所汉语词法分析系统ICTCLAS[EB/OL].http://www.ict.ac.cn/freeware/003_ictclas.asp.
  • 4周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量:28
  • 5Carrot2-open source framework for building search clustering engines[EB/OL].[2013-11-5].http://project.carrot2.org/.
  • 6Linpipe[EB/OL].[2013-11-5].http://alias-i.com/lingpipe/.
  • 7Apache Mahout简介[EB/OL].[2013-11-7].http://www.ibm.com/developerworks/cn/java/j-mahout/.
  • 8What is Apache Mahout[EB/OL].[2013-11-7].http://mahout.apache.org/.
  • 9The Stanford Parser:A statistical parser[EB/OL].[2013-11-11].http://nlp.stanford.edu/software/lex-parser.shtml.
  • 10TRS文本挖掘软件[EB/OL].[2013-11-14].http://www.trs.com.cn/product/product-ckm.html.

引证文献8

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部