期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于机器学习的文本半自动类别标注方法
被引量:
2
1
作者
宫衍圣
蔡科平
+2 位作者
王志强
李鑫鑫
靖稳峰
《工程数学学报》
CSCD
北大核心
2021年第6期751-762,共12页
在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用Word2vec与TF-IDF相结合的方式得到论文的向量表...
在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用Word2vec与TF-IDF相结合的方式得到论文的向量表示;接着使用K-means算法进行文本聚类;然后通过L_(1)-LR二分类模型构建K个分类模型;对每个二分类模型选取其权重绝对值较大系数对应的单词作为主题词,最后根据主题词确定每一类别的标签。实验表明,所提出的论文类别半自动标注方法大大提高了文本标注的工作效率。
展开更多
关键词
半自动类别标注
机器学习
文本聚类
L_(1)-LR分类模型
下载PDF
职称材料
题名
基于机器学习的文本半自动类别标注方法
被引量:
2
1
作者
宫衍圣
蔡科平
王志强
李鑫鑫
靖稳峰
机构
中铁第一勘察设计院集团有限公司
西安工业大学
国网浙江省电力公司信息与通信分公司
西安交通大学数学与统计学院
出处
《工程数学学报》
CSCD
北大核心
2021年第6期751-762,共12页
基金
中国铁建股份有限公司2018年度科技重大专项(18-A02)
西安市科技计划项目(20180916CX5JC6).
文摘
在文本分类问题中,人工标注方式需要耗费大量人力和财力,且需要熟悉所研究领域的专业人员才能进行文本标注。为了提高文本类数据标注的效率,提出了一种半自动化论文类别标注方法。首先使用Word2vec与TF-IDF相结合的方式得到论文的向量表示;接着使用K-means算法进行文本聚类;然后通过L_(1)-LR二分类模型构建K个分类模型;对每个二分类模型选取其权重绝对值较大系数对应的单词作为主题词,最后根据主题词确定每一类别的标签。实验表明,所提出的论文类别半自动标注方法大大提高了文本标注的工作效率。
关键词
半自动类别标注
机器学习
文本聚类
L_(1)-LR分类模型
Keywords
semi-automatic category labelling
machine learning
text clustering
L_(1)-LR binary classification model
分类号
O235 [理学—运筹学与控制论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于机器学习的文本半自动类别标注方法
宫衍圣
蔡科平
王志强
李鑫鑫
靖稳峰
《工程数学学报》
CSCD
北大核心
2021
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部