期刊文献+

多特征关键词提取算法研究 被引量:10

Research on Multi-Feature Keyword Extraction Algorithm
下载PDF
导出
摘要 关键词提取技术是语料库构建、文本分析处理、信息检索的基础.采用传统的TFIDF算法提取关键词时,主要依据词频计算权重,而未考虑文本特征项的影响,由于对词频的过度依赖,导致其提取关键词的准确性不高.针对这个问题,本文根据关键词的特性,引入位置和词性作为影响因子,对TFIDF算法权重重新进行了计算和排序,从而改进该算法,并利用Python语言完成了实现.实验结果表明,采用该改进方法提取关键词,其召回率、准确率、F因子与传统方法相比均得到明显提升. Keyword extraction technology is the foundation of corpus construction,text analysis,and information retrieval.The traditional TFIDF algorithm is mainly based on word frequency weighting to extract keywords without considering the influence of text features.The excessive reliance on word frequency leads to the inaccuracy of extract keywords.To solve this problem,an improved algorithm has been proposed,which use the word position and the word information as factors to recalculate the weight,then we implement it in Python.Experiment shows that using this method to extract keywords can improve the recall rate,accuracy,and F-measure.
作者 王洁 王丽清 WANG Jie;WANG Li-Qing(School of Information Science &Engineering, Yunnan University, Kunming 650223, Chin)
出处 《计算机系统应用》 2018年第7期162-166,共5页 Computer Systems & Applications
基金 云南省教育厅产业化扶持项目(2016CYH03) 云南省科技创新强省计划项目(2014AB021) 云南省创新团队项目~~
关键词 多特征 TFIDF 关键词提取 PYTHON multi-feature TFIDF keyword extraction Python
  • 相关文献

参考文献9

二级参考文献82

共引文献373

同被引文献126

引证文献10

二级引证文献79

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部