基于遗传算法及概率论的文本分类算法被引量：2

Text Classification Algorithm Based on Genetic Algorithm and Probability Theory

下载PDF

导出

摘要本文意在提高文本分类的准确度和速度。利用tf算法对特征项进行初步赋予权值,再使用屏蔽词对特殊非实意词进行屏蔽。本文独创概率论分布法,使用L-E算子进行加权,使得特殊位置与分布广泛的特征项,呈指数形式加权,较优结果能更快收敛。本文利用遗传算法,采用交叉算子和变异算子,采用适宜的目标函数,加快了检索速度,并有更大概率得到最优结果。采用混合算法,可以排除同义词和非特征项的干扰。 This article aims to improve the accuracy and speed of text classification. T ＊ f algorithm is used to initially weigh the feature item, then stop words is used to shield specially meaningless words. Original probability distribution method and weighted L- E operator enable the features in the special positions or widely distributed to weight in exponential form, so that the better results converge faster. In this paper, by using the genetic algorithm, crossover operator and mutation operator, and adopting appropriate objective function, the retrieval process speeds up, and has a greater probability to get the optimal result. Hybrid algorithm is proposed, which can eliminate the synonyms and the characteristics of interference.

作者宋倩王东明

机构地区华东师范大学成都理工大学

出处《电脑与电信》 2015年第3期49-52,共4页 Computer & Telecommunication

基金大夏基金项目项目编号:2013DX-241

关键词遗传算法文本分类特征项 genetic algorithm text classification term

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1Salton G, Buckley B. Term-Weighting approaches in automatic text retrieval [J]. Information Processing and Management, 1988, 24(5): 513-523.
2Fodor I K. A survey of dimension reduction techniques[R]. Tech- nical report UCRL-ID-148494, LLNL,2002.
3Lewis D D. Features selection and feature extraction for text cate- gorization [J]. Pattern Anal Applic, 2003,6 : 301-308.

同被引文献27

1张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
2柳炳祥,章义来,刘少兰,李云辉,许益,邓力群.数据挖掘在电子政务数据分析的应用研究[J].情报杂志,2005,24(3):31-33. 被引量：6
3杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
4胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：37
5张志斌.数据挖掘中的线性代数工具[J].国外科技新书评介,2013(5):18-19. 被引量：1
6郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29
7李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
8周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：100
9王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究[J].情报理论与实践,2015,38(6):121-127. 被引量：4
10贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：22

引证文献2

1李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：14
2胡文烨,郭文涛,李振业,许鸿奎.基于NLP的政企类文本智能分类的实现与应用[J].电子技术与软件工程,2022(16):253-258.

二级引证文献14

1叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：9
2梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：12
3王昊,虞为,孟镇,张卫.民生话题下政务微博评论Emotion-Cause Pair抽取方法研究[J].情报科学,2023,41(12):136-146.
4周庆华,李晓丽.基于MCNN的铁路信号设备故障短文本分类方法研究[J].铁道科学与工程学报,2019,16(11):2859-2865. 被引量：15
5叶佳鑫,熊回香,童兆莉,孟秋晴.在线医疗社区中面向医生的协同标注研究[J].数据分析与知识发现,2020,4(6):118-128. 被引量：4
6段尧清,姚兰.政媒融合问政平台非正式文本自动分类匹配研究[J].情报理论与实践,2020,43(6):156-161. 被引量：5
7许彩滇,刘晓丽.基于改进K-means算法的网络入侵行为取证研究[J].中国人民公安大学学报（自然科学版）,2020,26(2):68-74.
8李跃艳,熊回香,李晓敏.在线问诊平台中基于组合条件的医生推荐研究[J].数据分析与知识发现,2020,4(8):130-141. 被引量：8
9周雷.专利发明人对专利价值的影响研究--以中国科学院2018年3月专利拍卖为例[J].文献与数据学报,2020,2(4):70-83. 被引量：5
10韩广,卜桐,王明明,郑海青,孙晓云,金龙.基于双通道双向长短时记忆网络的铁路行车事故文本分类[J].铁道学报,2021,43(9):71-79. 被引量：5

1丁一.一词一议[J].广东印刷,2006(1):66-66.
2李健,黄廷辉,崔更申,杨旻.基于信任模型的AOMDV协议的改进[J].桂林航天工业学院学报,2014,19(1):1-7. 被引量：1
3凌云翔,史扬,胡华平,金士尧.基于HLA的仿真体系结构及调度问题研究[J].自动化学报,2000,26(6):830-834. 被引量：2
4StarSuite6.0载实意——sun与中国教育界携手[J].计算机与网络,2002,28(7):32-32.
5倪立年,刘月梅,刘国华.大型数据中心UPS供电系统设计研究[J].中国科技纵横,2014(8):171-171.
6brand.开始菜单的特殊烙记[J].计算机应用文摘,2004(17):42-42.
7丁一.一词一议[J].广东印刷,2005(3):69-69.
8张国平,徐汶东.字符串模式匹配算法的改进[J].计算机工程与设计,2007,28(20):4881-4884. 被引量：11
9曾史方.探究小型水电站的电气监控策略[J].中国科技博览,2014(20):368-368. 被引量：1
10邦纳超性能工业智能指示灯——EZ-LIGHT[J].国内外机电一体化技术,2008,11(5):70-70.

电脑与电信

2015年第3期

浏览历史

内容加载中请稍等...

基于遗传算法及概率论的文本分类算法被引量：2

参考文献3

同被引文献27

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于遗传算法及概率论的文本分类算法 被引量：2

参考文献3

同被引文献27

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于遗传算法及概率论的文本分类算法被引量：2