基于分布式框架下的中文文本特征分类被引量：1

Chinese Text Feature Classification Based on Distributed Framework

下载PDF

导出

摘要研究运用复旦中文文本及搜狗中文文档作为研究对象,提高了中文文本分类精确度及召回率,分析得出特征词的最佳贡献值。应用朴素贝叶斯分类方法和改进的TFIDF关键字提取及权重计算,提出TNBIF模型分类方法,在Spark平台上并行分类实现。实验结果表明:应用TNBIF模型实行中文文本分类,精确度高达95.49%,比传统文本分类方法精确度提高5.41%,召回率提高了6.64%。本研究得出最佳贡献值为0.95。 The study uses Fudan Chinese text and Sogou Chinese document as the research object. It improves the Chinese text classification accuracy and recall rate. And it analyzes and obtains the best contribution value of the feature words. Based on naive Bayes classification method, improved TFIDF keyword extraction and weight calculation, the TNBIF model classification method is proposed and implemented on the Spark platform. The experimental results show that the Chinese text classification is applied by the TNBIF model. The accuracy is as high as 95.49%, which is 5.41% higher than the traditional text classification method and the recall rate is increased by 6.64%. This study obtains an optimal contribution of 0.95.

作者张慧芳宗彩乐张晓琳 ZHANG Hui-fang;ZONG Cai-le;ZHANG Xiao-lin(Inner Mongolia University of Science and Technology, Baotou 014010, Inner Mongolia;Qingdao Metro Group Co., Ltd. Operating Branch, Qingdao 266000, Shandong)

机构地区内蒙古科技大学信息工程学院青岛地铁集团有限公司运营分公司

出处《电脑与电信》 2019年第5期1-7,共7页 Computer & Telecommunication

基金国家自然科学基金资助项目,项目编号:61562065

关键词 TNBIF 模型海量数据集 SPARK 特征分类并行分类 TNBIF model massive data set Spark feature classification parallel classification

分类号 TP391.1A [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献13

1梁俊荣.基于Hadoop的图书馆复合大数据存储系统研究[J].现代情报,2017,37(2):63-67. 被引量：14
2徐保鑫,怀丽波,崔荣一.基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J].延边大学学报（自然科学版）,2017,43(1):55-59. 被引量：4
3李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018(2):66-70. 被引量：5
4宋维维,夏绍模,李赞.基于SPARK大数据处理平台的图书馆智慧服务探索与实践[J].情报科学,2018,36(6):45-49. 被引量：20
5陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
6叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：108
7宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：21
8陈磊,吴晓晖.基于Hadoop的分布式集群大数据动态存储系统设计[J].中国电子科学研究院学报,2019,14(6):593-598. 被引量：39
9崔良中,郭福亮,宋建新.基于Map/Reduce的朴素贝叶斯数据分类算法研究[J].海军工程大学学报,2019,31(4):7-10. 被引量：12
10丁月,汪学明.基于改进特征加权的朴素贝叶斯分类算法[J].计算机应用研究,2019,36(12):3597-3600. 被引量：25

引证文献1

1张晨跃,刘黎志,邓开巍,刘杰.基于MapReduce的朴素贝叶斯算法文本分类方法[J].武汉工程大学学报,2021,43(1):102-105. 被引量：6

二级引证文献6

1邵欣欣.改进的贝叶斯算法在商品分类中的应用研究[J].软件工程,2021,24(7):28-30. 被引量：1
2于营,杨婷婷,杨博雄.混淆矩阵分类性能评价及Python实现[J].现代计算机,2021,27(20):70-73. 被引量：22
3戴振邦,江恩杰,刘力嘉,甘江伟.基于分布式管道模式的管道服务框架设计与实现[J].现代信息科技,2021,5(7):44-49.
4崔希,刘首明.基于朴素贝叶斯算法的智能电厂监控夜间视频人脸识别方法[J].电子测试,2021,32(24):44-46. 被引量：3
5贺丽,张哲,黄林竹.大数据技术在公路治超管理平台中的应用探究[J].电脑知识与技术,2022,18(19):20-21.
6叶旺,梁健钊,吴天磊.基于朴素贝叶斯算法的电力数据合规风险智能监督方法[J].电脑编程技巧与维护,2024(2):113-116. 被引量：1

1李凯.中文文本分类方法研究[J].电脑知识与技术,2019,15(2):242-244. 被引量：2
2王时雨,张盛兵,安建峰,黄小平,白弘猷.基于LLVM架构的图像处理程序的并行分类[J].微电子学与计算机,2018,35(1):66-71. 被引量：1
3陈树越,李颖,刘佳镔,朱军,黄萍.基于活动轮廓模型的图像分割改进算法[J].常州大学学报（自然科学版）,2019,31(2):82-87. 被引量：3
4周筠,蒋富.基于CUDA架构的改进Marching Cubes算法[J].计算机科学,2018,45(B11):573-575. 被引量：2
5王艺颖.朴素贝叶斯方法在中文文本分类中的应用[J].中国高新科技,2019(7):57-60. 被引量：6
6王沣,林玲,陈娟婷.人工智能在建科标准系统中标准分类的应用[J].福建建设科技,2019(3):77-79.
7吴菲,郭汝静.一种改进的情感倾向判别算法[J].安阳工学院学报,2019,18(2):54-56. 被引量：1
8李满意,刘红艳,陈传榜,潘宏伟,陈小朋,王颂歌,娄玉钤.尪痹的源流及临床意义[J].风湿病与关节炎,2019,8(6):56-60. 被引量：25
9张旭光.基于朴素贝叶斯分类方法对公民身体健康状况的研究[J].市场周刊,2019,32(3):126-127. 被引量：1
10牛永洁.基于Python的改进关键词提取算法的实现[J].电子设计工程,2019,27(13):11-15. 被引量：8

电脑与电信

2019年第5期

浏览历史

内容加载中请稍等...

基于分布式框架下的中文文本特征分类被引量：1

同被引文献13

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于分布式框架下的中文文本特征分类 被引量：1

同被引文献13

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于分布式框架下的中文文本特征分类被引量：1