期刊文献+

基于统计学和语义信息的中文文本主题识别技术 被引量:6

Topic detection technology for Chinese text based on statistics and semantic information
原文传递
导出
摘要 由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出。该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序。读者能够通过这些词汇来判定文章的主题和重要内容。通过对人民日报语料进行实验表明,该方法正确率能够保持在66%以上,同时对于网页邮件等真实文档也有较好的测试结果。 Requirements for extracting main information from Chinese texts sharply stand out because the complexity of Chinese word segments have partly restricted the development of Chinese information retrieval. A novel extraction method is proposed in this paper. The new method extracts the keywords and phrases expressing the main idea of text by using Chinese words segmentation, frequent searched words, and the parts of speech computation. Moreover, scoring and ordering of these extracted words are also given. The...
作者 冯晋 李春平
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1791-1794,共4页 Journal of Tsinghua University(Science and Technology)
基金 国家"八六三"高技术项目(2002AA444120)
关键词 信息抽取 中文关键词提取 关联分析 文本挖掘 extraction association analysis text mining
  • 相关文献

参考文献1

  • 1董强,郝长伶,董振东.基于《知网》的中文语块抽取器[A]语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集,2003.

同被引文献51

引证文献6

二级引证文献37

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部