期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Spark框架的政府公文聚类方法研究
被引量:
1
1
作者
朱家麒
徐亚军
《电脑知识与技术》
2020年第1期210-212,共3页
政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验。本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法。首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过T...
政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验。本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法。首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过TF-IDF将处理后的政府文本信息转换成二维矩阵,然后在Spark计算框架中使用K-means算计进行聚类。最后分别在单机和使用spark框架的分布式计算环境下进行测试,三组实验结果表明,使用spark分布式计算框架进行聚类有着更高的计算效率。
展开更多
关键词
SPARK
公文聚类
TF-IDF
K-MEANS
下载PDF
职称材料
题名
基于Spark框架的政府公文聚类方法研究
被引量:
1
1
作者
朱家麒
徐亚军
机构
北京信息科技大学计算机学院
出处
《电脑知识与技术》
2020年第1期210-212,共3页
基金
北京信息科技大学2019年促进高校内涵发展-大学生科研训练项目(5101923400)支持
文摘
政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验。本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法。首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过TF-IDF将处理后的政府文本信息转换成二维矩阵,然后在Spark计算框架中使用K-means算计进行聚类。最后分别在单机和使用spark框架的分布式计算环境下进行测试,三组实验结果表明,使用spark分布式计算框架进行聚类有着更高的计算效率。
关键词
SPARK
公文聚类
TF-IDF
K-MEANS
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Spark框架的政府公文聚类方法研究
朱家麒
徐亚军
《电脑知识与技术》
2020
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部