-
题名基于统计的中文关键短语自动抽取
被引量:4
- 1
-
-
作者
张永刚
梁颖红
颜振祥
姚建民
-
机构
苏州大学计算机学院
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
-
出处
《江南大学学报(自然科学版)》
CAS
2010年第1期26-29,共4页
-
基金
国家自然科学基金项目(60970057)
江苏省现代企业信息化应用支撑软件开发中心开放基金项目(SX200907)
-
文摘
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。
-
关键词
关键短语抽取
文本特征
互信息
n元短语
-
Keywords
keywordphrase extraction, text feature, MI, n-gram
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-