-
题名基于CART算法的网络新闻关键词抽取模型研究
被引量:1
- 1
-
-
作者
蓝传锜
于洪志
徐涛
-
机构
西北民族大学民族语言智能处理甘肃省重点实验室
-
出处
《西北民族大学学报(自然科学版)》
2017年第3期6-11,共6页
-
基金
藏语网络新闻热点事件与关键词抽取研究与应用(项目号:YXM2016129)
-
文摘
文章首次把CART决策树方法应用在关键词抽取工作中,并引进相似度进行了决策树方法的改进.在对特征值选择时,根据档案文本书写特征及习惯,选取档案文本的标题、档案关键词词性组合作为特征向量,并基于以往关键词抽取的先验知识加入词位置、相对频数、词语组合个数等作为特征向量.在CART决策树方法基础上,通过引入Jaccard系数合并相似度高的属性元素改进算法,来提高分类的准确率以及减小算法的复杂度.文章选取大量文本作为训练集,通过CART决策树方法进行训练学习而建立模型,建立好的模型能大大减少关键词抽取工作量,并提高关键词抽取的准确率.
-
关键词
机器学习
CART决策树
网络新闻关键词
-
Keywords
Machine learning , CART decisiontree,File keyword
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-