基于文本聚类的档案数据全自动分类方法研究被引量：1

Research on automatic classification of archival data based on Text Clustering

下载PDF

导出

摘要大数据时代下,档案文本数据规模海量递增,增加了聚类分析的难度,如何准确、高效的实现档案数据全自动分类。而针对以往PSI算法在高纬度、稀疏特征中易于陷入局部最优,本文引入GWO算法,通过对种群精英个体的克隆和变异,及基于DE算法的个体更新算法创新,来规避早期收敛和局部最优的问题,而后,引入FastText有监督快速分类方法,基于softmax分层技术完成海量档案数据的全自动化分类,以提升档案分类的可靠性和效率。 In the era of big data,the scale of file text data increases massively,which increases the difficulty of clustering analysis.How to realize the automatic classification of archival data accurately and efficiently.In order to avoid the problems of early convergence and local optimization,the GWO algorithm is introduced to avoid the problems of early convergence and local optimization by cloning and mutation of elite individuals in the population,and the innovation of individual update algorithm based on DE algorithm.Then,fasttext supervised fast classification method is introduced,In order to improve the reliability and efficiency of file classification,the full automatic classification of massive archive data is completed based on softmax layered technology.

作者于红 Yu Hong(Jingxin Town Health Center,Yanbian Jilin,133300)

机构地区吉林省珲春市敬信镇卫生院

出处《电子测试》 2021年第14期53-54,共2页 Electronic Test

关键词聚类分析 GWO算法档案数据局部最优 cluster analysis GWO algorithm archive data local optimum

分类号 G270.7 [文化科学—档案学] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1霍光煜,张勇,孙艳丰,尹宝才.基于语义的档案数据智能分类方法研究[J].计算机工程与应用,2021,57(6):247-253. 被引量：18
2李璐萍,赵小兵.基于文本聚类的主题发现方法研究综述[J].情报探索,2020(11):121-127. 被引量：10
3盖璇.基于聚类分析算法的垃圾邮件识别[J].计算机与现代化,2020(10):17-22. 被引量：3
4姜允志,宋新红.基于短文本聚类的学生评教方案设计[J].教育教学论坛,2020(44):346-347. 被引量：1

二级参考文献48

1王萌,李春贵,唐培和,王晓荣.一种主题句发现的中文自动文摘研究[J].计算机工程,2007,33(8):180-181. 被引量：8
2郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
3赵琦,张智雄,孙坦,许雁冬.主题发现技术方法研究[J].情报理论与实践,2009,32(4):104-108. 被引量：11
4王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：33
5黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5
6黄炜,程宝生,杨青.基于本体的网络群体性事件主题发现研究[J].图书情报工作,2012,56(20):47-52. 被引量：12
7谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150. 被引量：22
8肖琦,苏开宇.基于随机森林的僵尸网络流量检测[J].微电子学与计算机,2019,36(3):43-47. 被引量：14
9朱宗乾,孙超,管婧莹.基于共词分析法的国内ERP研究领域热点主题发现与分析[J].图书馆理论与实践,2015(10):39-43. 被引量：1
10叶施仁,杨英,杨长春,朱明峰.孤立点预处理和Single-Pass聚类结合的微博话题检测方法[J].计算机应用研究,2016,33(8):2294-2297. 被引量：12

共引文献27

1夏晓红.计算机网络技术在交通运输系统档案信息管理中的应用与趋势[J].运输经理世界,2021(18):80-82. 被引量：2
2赵洪凯,宋越,肖玉芝,冶忠林.在线教学的网络情感演化分析--以“停课不停学”为例[J].青海师范大学学报（自然科学版）,2021,37(1):26-36.
3代林序,张玉洁.机器学习在档案管理中的应用与挑战——基于新南威尔士州档案馆机器学习实验的调查与启示[J].档案与建设,2021(5):42-47. 被引量：5
4田阳,武浩.基于双层注意力机制的对偶正则化评分预测[J].云南大学学报（自然科学版）,2021,43(4):681-689.
5李海涛,杨晗.多维视角下的少林寺档案内容挖掘与知识服务研究[J].山西档案,2021(5):159-166. 被引量：6
6周毛.基于属性关联的人事档案数据智能分类方法[J].甘肃科技纵横,2021,50(10):4-6. 被引量：2
7刘晓彤,赵小兵.基于文本数据挖掘的新冠疫苗接种的情感分析[J].信息技术与标准化,2022(3):74-78. 被引量：3
8杨晶晶.企业档案数据自动分类管理实践探究[J].北京档案,2022(3):32-34. 被引量：4
9姚璐.主题相似性聚类下时政新闻敏感信息过滤方法[J].信息技术,2022,46(4):107-111. 被引量：1
10郭润平,陈保国,熊桂芳.基于大数据的科研热点分析系统研究[J].自动化与仪器仪表,2022(5):136-141.

同被引文献12

1叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129. 被引量：42
2穆翠霞,刘振华,武涛.面向电子商务的网页检索聚类方法[J].计算机与现代化,2014(5):70-73. 被引量：1
3邵清,叶琨.基于编辑距离和相似度改进的汉字字符串匹配[J].电子科技,2016,29(9):7-11. 被引量：17
4冯靖,莫秀良,王春东.基于LDA改进的K-means算法在短文本聚类中的研究[J].天津理工大学学报,2018,34(3):7-11. 被引量：6
5胡朝举,赵晓伟.基于词向量技术和混合神经网络的情感分析[J].计算机应用研究,2018,35(12):3556-3559. 被引量：10
6周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：33
7王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术,2019,43(12):76-80. 被引量：20
8石凤贵.基于jieba中文分词的中文文本语料预处理模块实现[J].电脑知识与技术,2020,16(14):248-251. 被引量：36
9盖璇.基于聚类分析算法的垃圾邮件识别[J].计算机与现代化,2020(10):17-22. 被引量：3
10傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3

引证文献1

1沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.

1熊璐,杨阳,沙金锐,范磊.基于区块链的隐私保护交集算法[J].通信技术,2020,53(7):1768-1773. 被引量：1
2林国余.三明市医保档案规范化管理与档案分类探讨[J].办公室业务,2021(11):133-134. 被引量：1
3王秀葵.机关档案的整理与归档新探[J].办公室业务,2021(9):108-109. 被引量：2
4李二超,周扬.基于分类的多策略预测方法求解动态多目标优化问题[J].控制与决策,2021,36(7):1569-1580. 被引量：2
5倪志恒,杨盛菁.我国“养老服务”研究热点分析——基于文献计量方法[J].广西质量监督导报,2021(3):23-24.
6李海涛,杨晗.多维视角下的少林寺档案内容挖掘与知识服务研究[J].山西档案,2021(5):159-166. 被引量：6
7费如君,刘洋,金新峰,尹华政,余豪,成良歌.基于改进遗传算法的梯级水电站优化调度方法[J].水资源研究,2021,10(3):305-311.
8朱丽萍,刘文颖,胡阳,周强,陈仕彬.计及高比例新能源电网分区的输电线路功率双层优化模型[J].智慧电力,2021,49(7):9-15. 被引量：4
9熊励,王成文,王锟.基于事件本体的疫情知识库构建策略[J].图书情报工作,2021,65(14):138-148. 被引量：15
10张朝,张红旗,包曼.一种基于数据仓库技术修正下的信息融合选线方法[J].山西电力,2021(3):13-15. 被引量：1

电子测试

2021年第14期

浏览历史

内容加载中请稍等...

基于文本聚类的档案数据全自动分类方法研究被引量：1

参考文献4

二级参考文献48

共引文献27

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本聚类的档案数据全自动分类方法研究 被引量：1

参考文献4

二级参考文献48

共引文献27

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于文本聚类的档案数据全自动分类方法研究被引量：1