期刊文献+

基于概念获取的多文档主题划分研究 被引量:6

Study on Topic Partition Based on Concept Retrieval in Multiple Documents
下载PDF
导出
摘要 对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值。当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果。本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题。实验结果表明该方法对多个相关文档的主题划分取得了良好的效果。 Topic partition is a significant problem during text structuring in many domains such as information retrieval and automatic summarization. The popular technique is 'using the frequency of words to express the documents, but using the concept will improve the efficiency of topic partition in multiple documents. The paper presents a method that uses the HowNet to get the concepts, and then uses the technique of clustering to segment the paragraphs of the documents. And this method solves the problem of text structuring in multiple documents. The experimental results show that this method is more efficient for topic partition in multiple documents.
出处 《计算机科学》 CSCD 北大核心 2008年第5期131-133,共3页 Computer Science
基金 国家发改委项目基金(SNMCFIP-2006S001)资助
关键词 信息处理 知网 概念 主题聚类 主题划分 Information processing, HowNet,Concept,Document clustering,Topic partition
  • 相关文献

参考文献10

二级参考文献47

共引文献127

同被引文献85

引证文献6

二级引证文献28

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部