期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Kert的中文主题关键短语提取算法 被引量:5
1
作者 刘晨晖 张德生 胡钢 《计算机应用》 CSCD 北大核心 2019年第A01期245-249,共5页
针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词... 针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词后的词语歧义性,然后使用顺序合并代替Kert中的频繁模式增长(FP-Growth)解决候选关键短语集合中短语语序颠倒的问题,最后在此基础上加入改进后的约束排序算法后提出更加有效的中文主题关键短语提取算法。通过与多组近年比较经典的主题关键短语提取算法的对比实验表明:改进算法在提取的精确率、召回率、F值指标的量化结果中有5到20不等的百分点提升。该方法在理论上含有更为严谨的中文短语提取思路,并在实际的文本集主题关键短语提取工作中拥有更为良好的应用价值。 展开更多
关键词 数据挖掘 文本挖掘 中文分词 短语排序 主题关键短语
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部