改进词向量和kNN的中文文本分类算法被引量：6

Improved Chinese text classification algorithm based on word embedding and kNN

下载PDF

导出

摘要为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。 By taking account of the characteristics of pictographic characters and the background of big data,a Chinese text classification algorithm based on deep learning is established to improve the efficiency and accuracy of text classification.According to the characteristics of the Chinese subcharacters(glyph,radical,stroke,etc.),that is,the pictographs′ shapes have their own meanings,a two-channel CBOW(continuous bag-of-words) model based on subcharacters and context is established for Chinese text vectorization. Due to the disadvantage of the slow classification speed of the traditional kNN(k-nearest neighbor)algorithm,a fast kNN classification algorithm based on LSC(landmark-based spectral clustering)and multiobjective data screening is proposed on the basis of the background of big data. The fast kNN algorithm is used to classify the feature vector data converted from the text data. The experimental results show that the improved Chinese text classification algorithm can enlarge its application range,process the Chinese text data more accurately and deal with big data problems more quickly. Its classification rate and effect have been improved to some extent.

作者丁正生马春洁 DING Zhengsheng;MA Chunjie(Xi’an University of Science and Technology,Xi’an 710600,China)

机构地区西安科技大学

出处《现代电子技术》 2022年第1期100-103,共4页 Modern Electronics Technique

基金国家自然科学基金项目(71473194)。

关键词中文文本分类文本向量化快速kNN算法词向量双通道CBOW模型特征向量数据分类 Chinese text classification text vectorization fast kNN algorithm word embedding two-channel CBOW model feature vector data classification

分类号 TN911.1-34 [电子电信—通信与信息系统] TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：17
2常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070. 被引量：34
3孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识,2018,48(1):116-123. 被引量：5
4马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42. 被引量：22
5徐琳宏,林鸿飞,祁瑞华,关菁华.基于部首和音位的情感词汇表示模型[J].中文信息学报,2018,32(6):124-131. 被引量：2
6Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan.Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J].Tsinghua Science and Technology,2017,22(6):619-632. 被引量：9
7周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：67
8徐山,杜卫锋.不均衡训练集下短信过滤系统kNN方法的研究[J].计算机应用与软件,2013,30(11):84-86. 被引量：1
9窦小凡.KNN算法综述[J].通讯世界,2018,25(10):273-274. 被引量：25

二级参考文献64

1徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
2王理嘉.音位归纳的多重可能性[J].汉语学习,1988(3):6-10. 被引量：2
3陈其光.音位标音的几种选择[J].中国语文,1994(4):266-273. 被引量：1
4董琨.汉语的词义蕴含与汉字的兼义造字[J].中国语文,1994(3):226-230. 被引量：8
5Chin-Pang Jack Cheng,Gloria T. Lau,Kincho H. Law.Utilizing Statistical Semantic Similarity Techniques for Ontology Mapping——with Applications to AEC Standard Models[J].Tsinghua Science and Technology,2008,13(S1):217-222. 被引量：3
6曹剑芬.汉语声调与语调的关系[J].中国语文,2002(3):195-202. 被引量：115
7王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
8丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
9郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
10周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71

共引文献173

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：4
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
5袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
6刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
7王鹤琴,王杨.基于贝叶斯决策的网格社区案卷分发模型[J].山东大学学报（理学版）,2018,53(11):85-94. 被引量：1
8裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：14
9廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：40
10李猛,刘元宁.一种基于信息增益的新垃圾邮件特征选择算法[J].吉林大学学报（理学版）,2017,55(2):379-382. 被引量：2

同被引文献51

1李洪,刘培邦,汤胜楠,朱勇,周岭.机械装备智能故障诊断研究现状与发展趋势[J].电子技术应用,2021,47(S01):380-389. 被引量：5
2侯保龙.服务性政府理论及其对我国行政改革的价值[J].新疆社科论坛,2006(1):18-21. 被引量：3
3施雪华.“服务型政府”的基本涵义、理论基础和建构条件[J].社会科学,2010(2):3-11. 被引量：177
4贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：69
5戴婧睿,吴奇,仁和,裘旭益.基于深度置信网络的QAR飞行数据特征提取分析[J].电光与控制,2017,24(11):78-82. 被引量：10
6黄丹丹,郭玉翠.融合attention机制的BI-LSTM-CRF中文分词模型[J].软件,2018,39(10):260-266. 被引量：8
7柳林青,余瀚,费宁,陈春玲.一种基于TextRank的单文本关键字提取算法[J].计算机应用研究,2018,35(3):705-710. 被引量：20
8杨洪富,贾晓亮.基于SAE的航空发动机气路故障诊断[J].航空计算技术,2018,48(6):47-51. 被引量：7
9杨雁莹,姜莹.基于TextRank算法的微博个人关键词云提取的设计与实现[J].电脑编程技巧与维护,2019(2):14-16. 被引量：2
10邱瑶瑶,方勇,黄诚,刘亮,张星.基于语义分析的恶意JavaScript代码检测方法[J].四川大学学报（自然科学版）,2019,56(2):273-278. 被引量：5

引证文献6

1杨波,黄倩,付强,朱荣生.基于CEEMD和优化KNN的离心泵故障诊断方法[J].机电工程,2022,39(11):1502-1509. 被引量：10
2门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
3周寒,莫李平,刘渊,王奕首,卿新林.基于特征优化与改进KNN的航空发动机故障诊断[J].航空计算技术,2023,53(2):45-49.
4田俐.基于kmeans的12345问题热点分析[J].电子技术与软件工程,2023(7):244-247. 被引量：1
5郑磊,顾书缘,王学友,李存辉.基于CNN模型的文本分类可视化系统设计与实现[J].电脑与电信,2023(6):22-27.
6陈典超,王晨.基于语义分析的恶意JavaScript检测技术[J].电子设计工程,2023,31(22):37-41.

二级引证文献13

1周寒,莫李平,刘渊,王奕首,卿新林.基于特征优化与改进KNN的航空发动机故障诊断[J].航空计算技术,2023,53(2):45-49.
2杨铭轩,于亚雄,李青,邱小波,徐开炜.基于KNN的水轮机组轴承监测与故障诊断[J].自动化与仪器仪表,2023(4):66-70. 被引量：1
3陆春元,焦洪宇.基于声振信号融合的IRCMMDE离心泵损伤检测方法[J].机电工程,2023,40(6):952-959. 被引量：2
4骆寅,陈崟炜,秦学聪,陈云飞.基于外磁场的离心泵故障预测模型[J].排灌机械工程学报,2023,41(7):649-654. 被引量：1
5陈博,魏豪,权伟.基于CEEMDAN和CNN-TSA-GRU的滚动轴承故障识别方法研究[J].轻工机械,2023,41(4):68-74.
6普会杰,刘韬,刘畅,周俊,缪护.基于流形学习的旋转设备故障诊断方法[J].中国安全生产科学技术,2023,19(8):209-216.
7辜文娟,张扬.基于IMIE、MCFS和SSA-ELM的离心泵故障诊断方法[J].机电工程,2023,40(9):1456-1463.
8惠琛玥,王刚.公安信息服务平台的智能人机对话生成方法研究[J].自动化与仪器仪表,2023(9):229-232.
9陈剑,许畅,徐庭亮.基于位错叠加法和改进概率神经网络的离心泵故障诊断方法[J].中国机械工程,2023,34(23):2854-2861.
10李思汉,黄倩,付强,张鑫宇,李云鹏.基于生成对抗网络的离心泵时序数据异常检测[J].机电工程,2023,40(12):1957-1964.

1赵书宝,姜春茂.一种基于三支聚类的快速KNN算法[J].小型微型计算机系统,2021,42(9):1845-1851. 被引量：2
2毕云杉,钱亚冠,张超华,潘俊,徐庆华.基于ERNIE模型的中文文本分类研究[J].浙江科技学院学报,2021,33(6):461-468. 被引量：4
3宁泽飞,孙静宇,王欣娟.基于知识图谱和标签感知的推荐算法[J].计算机科学,2021,48(11):192-198. 被引量：6
4王楷鑫,鄢睿,王立国,王双立.新媒体数据分析与应用浅析[J].中国传媒科技,2021(10):145-148. 被引量：1
5赵聪慧,严迎建,刘燕江,朱春生.基于多信号特征融合的硬件木马识别技术[J].计算机工程与设计,2021,42(12):3365-3372. 被引量：2
6《年度车型大选》岚图FREE[J].汽车观察,2021(12):36-36.
7曲全鹏,曲海军,张强.基于VMD-MDE的柱塞泵磨损故障诊断研究[J].机电工程,2021,38(9):1202-1206. 被引量：7
8吴冬梅.基于区块链技术的电子档案快速分类系统设计[J].电子设计工程,2021,29(20):180-184. 被引量：2
9瞿强,杨凯利,张其静,张雪清,娄红红.一种针对电力大数据融合与异常检测的改进方法[J].电力大数据,2021,24(7):24-30. 被引量：1
10卞则康,张进,王士同.基于类标感知的KNN分类算法[J].模式识别与人工智能,2021,34(10):873-884. 被引量：4

现代电子技术

2022年第1期

浏览历史

内容加载中请稍等...

改进词向量和kNN的中文文本分类算法被引量：6

参考文献9

二级参考文献64

共引文献173

同被引文献51

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

改进词向量和kNN的中文文本分类算法 被引量：6

参考文献9

二级参考文献64

共引文献173

同被引文献51

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

改进词向量和kNN的中文文本分类算法被引量：6