-
题名基于概念统计和语义层次分析的英文自动文摘研究
被引量:9
- 1
-
-
作者
季姮
罗振声
万敏
高小云
-
机构
清华大学人文学院计算语言学研究室
-
出处
《中文信息学报》
CSCD
北大核心
2003年第2期14-20,共7页
-
基金
国家自然科学基金资助项目 (6 9972 0 2 5 )
-
文摘
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。
-
关键词
计算机应用
中文信息处理
概念统计
主题概念
向量空间模型
句子重要度
意义块划分
-
Keywords
computer application
Chinese information processing
concept counting
topic concept
vector space model
sentence significance
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-