期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于机器学习的文本半自动类别标注方法 被引量:2
1
作者 宫衍圣 蔡科平 +2 位作者 王志强 李鑫鑫 靖稳峰 《工程数学学报》 CSCD 北大核心 2021年第6期751-762,共12页
在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用Word2vec与TF-IDF相结合的方式得到论文的向量表... 在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用Word2vec与TF-IDF相结合的方式得到论文的向量表示;接着使用K-means算法进行文本聚类;然后通过L_(1)-LR二分类模型构建K个分类模型;对每个二分类模型选取其权重绝对值较大系数对应的单词作为主题词,最后根据主题词确定每一类别的标签。实验表明,所提出的论文类别半自动标注方法大大提高了文本标注的工作效率。 展开更多
关键词 半自动类别标注 机器学习 文本聚类 L_(1)-LR分类模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部