期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于向量表示和标签传播的半监督短文本数据流分类算法
被引量:
2
1
作者
王海燕
胡学钢
李培培
《模式识别与人工智能》
EI
CSCD
北大核心
2018年第7期634-642,共9页
社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应...
社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应概念漂移,提出基于聚类簇的概念漂移检测算法.在实际短文本数据流上的实验表明,相比半监督分类算法和半监督数据流分类算法,文中算法不仅提高分类精度和宏平均,还能快速适应数据流中的概念漂移.
展开更多
关键词
短文本数据流
半监督分类
标签传播
概念漂移
下载PDF
职称材料
基于Spark的快速短文本数据流分类方法
2
作者
胡阳
胡学钢
李培培
《计算机工程与应用》
CSCD
北大核心
2020年第14期138-147,共10页
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提...
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。
展开更多
关键词
短文本数据流
分类
分布式处理
Spark环境
概念漂移
下载PDF
职称材料
题名
基于向量表示和标签传播的半监督短文本数据流分类算法
被引量:
2
1
作者
王海燕
胡学钢
李培培
机构
合肥工业大学计算机与信息学院
合肥工业大学工业安全与应急技术安徽省重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2018年第7期634-642,共9页
基金
国家重点研发计划项目(No.2016YFC0801406)
国家自然科学基金项目(No.61503112
61673152)资助~~
文摘
社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应概念漂移,提出基于聚类簇的概念漂移检测算法.在实际短文本数据流上的实验表明,相比半监督分类算法和半监督数据流分类算法,文中算法不仅提高分类精度和宏平均,还能快速适应数据流中的概念漂移.
关键词
短文本数据流
半监督分类
标签传播
概念漂移
Keywords
Short Text Stream
Semi-supervised Classification
Label Propagation
Concept Drift
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Spark的快速短文本数据流分类方法
2
作者
胡阳
胡学钢
李培培
机构
合肥工业大学计算机与信息学院
工业安全与应急技术安徽省重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2020年第14期138-147,共10页
基金
国家自然科学基金(No.61673152)
安徽省自然科学基金(No.1708085QF142)。
文摘
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。
关键词
短文本数据流
分类
分布式处理
Spark环境
概念漂移
Keywords
short text data stream classification
distributed processing
Spark
concept drift
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于向量表示和标签传播的半监督短文本数据流分类算法
王海燕
胡学钢
李培培
《模式识别与人工智能》
EI
CSCD
北大核心
2018
2
下载PDF
职称材料
2
基于Spark的快速短文本数据流分类方法
胡阳
胡学钢
李培培
《计算机工程与应用》
CSCD
北大核心
2020
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部