-
题名基于关键词的维吾尔单文档自动文摘技术研究
被引量:6
- 1
-
-
作者
买哈铺热提.外力
赵梦原
艾斯卡尔.艾木都拉
-
机构
新疆大学信息科学与工程学院
清华大学语音和语言技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第16期130-135,共6页
-
基金
国家自然科学基金项目(No.6163033)
新疆维吾尔自治区高新技术发展研究计划(No.201312103)
教育部新世纪优秀人才支持计划项目(No.NCET-10-0969)
-
文摘
以互联网为代表的信息技术的发展使人们索取信息变得前所未有的便捷,同时也对如何有效利用信息提出了挑战。自动文摘技术通过自动选择文档中的代表句子,可以极大提高信息使用的效率。近年来,基于英文和中文的自动文摘技术获得广泛关注并取得长足进展,而对少数民族语言的自动文摘研究还不够充分,例如维吾尔语。构造了一个面向维吾尔语的自动文摘系统。首先利用维吾尔语的语言学知识对文档进行预处理,之后对文档进行了关键词提取,利用这些关键词进行了抽取式自动文摘。比较了基于TF-IDF和基于Text Rank的两种关键词提取算法,证明Text Rank方法提取出的关键词更适合自动文摘应用。通过研究证明了在充分考虑到维吾尔语语言信息的前提下,基于关键词的自动文摘方法可以取得让人满意的效果。
-
关键词
维吾尔文
自动文摘
TF-IDF算法
Textrank
ROUGE
-
Keywords
Uyghur
automatic summarization
TF-IDF algorithm
Text Rank
ROUGE
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-