期刊文献+

基于平均信息熵的中文问句关键词提取 被引量:1

Extracting Keywords in Chinese Question Based on Average Information Entropy Model
下载PDF
导出
摘要 关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于TFIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的TFIDF等其他方法相比,该方法的查准率、查全率以及F1测度值都得到显著提高。 Keywords extraction is the important foundation of question analysis in question answering system .Aiming at the shortcomings of the existing methods of keyword extraction ,a method of extraction keywords in Chinese questions based on average information entropy is proposed . By calculating the average information entropy of each word in a question , the importance of the word in question can be better reflected .The experimental results show that ,compared with the traditional T FIDF method ,the precision ,recall and F1 measure values of this method have been significantly improved .
出处 《皖西学院学报》 2014年第5期46-49,共4页 Journal of West Anhui University
基金 安徽省高校省级自然科学研究重点项目(KJ2011A048)
关键词 自动问答 关键词提取 TFIDF 平均信息熵 question answering keywords extraction TFIDF average information entropy
  • 相关文献

参考文献11

二级参考文献126

共引文献190

同被引文献2

引证文献1

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部