-
题名基于词向量特征扩展的中文短文本分类研究
被引量:16
- 1
-
-
作者
雷朔
刘旭敏
徐维祥
-
机构
首都师范大学信息工程学院
北京交通大学交通运输学院
-
出处
《计算机应用与软件》
北大核心
2018年第8期269-274,共6页
-
基金
国家自然科学基金项目(61672002)
北京市长城学者项目(CIT&TCD20170322)
-
文摘
针对中文短文本词汇较少、噪声多、特征稀疏的特性,为了提高短文本分类精确度,提出一种基于维基百科词向量的特征扩展算法。利用维基百科语料集训练词向量,通过对文本关键词高相似度词集进行特征扩展,并将得到的文本用传统的分类器进行分类。实验结果表明,所提方法在短文本分类精确度上要优于其他的文本特征扩展算法。
-
关键词
短文本
维基百科
特征扩展
词向量
文本分类
-
Keywords
short text
wikipedia
feature extension
word vector
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于维基百科的中文短文本分类算法
被引量:16
- 2
-
-
作者
赵辉
刘怀亮
-
机构
西安电子科技大学经济与管理学院
-
出处
《图书情报工作》
CSSCI
北大核心
2013年第11期120-124,共5页
-
文摘
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。
-
关键词
短文本分类
维基百科词义消歧特征扩展
-
Keywords
short text classification wikipedia word sense disambiguation feature extension
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-