基于KNN的多要素文本协调分类算法被引量：1

Multiple Elements Text Coordinate Classification Algorithm Based on KNN

下载PDF

导出

摘要文本分类能够帮助人们更有效地利用不断膨胀的海量网络信息,然而网络文本中已不再是以单一的文本内容形式出现,更多的是包含标题、关键字、摘要、正文等多种要素。若用传统的文本分类器,则效果明显不好。综合利用文本各要素,提出通过KNN算法对各要素进行文本分类,再使用模拟退火算法以及Bayes定理协调各要素比重的多要素文本协调分类算法。实验结果表明,该算法是可行的,并且使用该算法得到的分类器比仅使用文本内容得到的分类器具有更高的分类准确率。 Text classification can help people use massive information on the Internet effectively. However the information contains title, keywords, abstract, and contents rather than simple texts. There- fore, if we just use common text classifier, we can/t get the good effect. Considers all of the ele- ments in a text and uses KNN to do text classification. The proportion of each element is coordi- nated by the simulated annealing algorithm and Bayes theory. Gets a classification algorithm which applies to multiple elements of a text. The experimental result shows that this algorithm is feasible and the classification has more accuracy rate than a classification using only contents.

作者庄晶晶张东站

机构地区厦门大学数据库实验室信息科学与技术学院

出处《现代计算机》 2013年第7期9-12,共4页 Modern Computer

关键词文本分类 KNN算法多要素模拟退火算法 Bayes定理 Text Classification KNN Algorithm Multiple Elements the Simulated Annealing Algorithm~ Bayes Theory

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
2D D Lewis. Naive(Bayes) at Forty: The Independence As- sumption in Information Retrieval. In: The lOth European Conf on Machine Leaning (ECML -98 ),New York: Berlin: Springer, 1998:4- 15.
3Y Yang,X Lin. A Re-Examination of Text Categorization Methods. In: The 22nd Annum Int'l ACM SIGIR Conf on Research and Development in Information Retrieval,New York:ACM Press, 1999.
4Y Yang,C G Chute. An Example-Based Mapping Method for Text Categorization and Retrieval. ACM Trans on Information Systems,1994,12(3):252-277.
5E Wiener. A Neural Network Approach to Topic Spotting. The 4th Annual Symp on Document Analysis and Information Retrieval(SDAIR 95),Las Vegas,NV,1995.
6R E Schapire,Y Singer. Improved Boosting Algorithms Using Confidence-Rated Predications. In: Proc of the 1 lth Annual Conf on Computational Learning Theory. Madison:ACM Press, 1998:80-91.
7T Joachims. Text Categorization with Support Vector Ma- chines: Learning with Many Relevant Features. In: The lOth European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998:137-142.

二级参考文献3

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88

共引文献383

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献14

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2王承忠.实验室间比对的能力验证及稳健统计技术第四讲　能力验证试样的均匀性和稳定性检验[J].理化检验（物理分册）,2004,40(10):533-538. 被引量：34
3张宇.K-近邻算法的改进及实现[J].电脑开发与应用,2008,21(2):18-20. 被引量：6
4桑应宾,刘琼荪.改进的k-nn快速分类算法[J].计算机工程与应用,2009,45(11):145-146. 被引量：8
5刘天羽,李国正,尤鸣宇.不均衡故障诊断数据上的特征选择[J].小型微型计算机系统,2009,30(5):924-927. 被引量：6
6顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9
7钟智,朱曼龙,张晨,黄樑昌.最近邻分类方法的研究[J].计算机科学与探索,2011,5(5):467-473. 被引量：18
8奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21):97-100. 被引量：28
9刘凡,张昀,姚晓,彭倩,聂鸿宇,李剑,周湶.基于K近邻算法的换流变压器局部放电模式识别[J].电力自动化设备,2013,33(5):89-93. 被引量：36
10夏均忠,苏涛,安相璧,冷永刚,张阳.滚动轴承故障模式识别方法现状分析[J].噪声与振动控制,2013,33(4):185-189. 被引量：9

引证文献1

1汪庆华,刘江炜,张兰兰.交叉验证K近邻算法分类研究[J].西安工业大学学报,2015,35(2):119-124. 被引量：17

二级引证文献17

1马立人,蒋中华.生产生物芯片及相关设备的厂商及服务及内容[J].现代科学仪器,2000,17(1):12-18. 被引量：6
2章潇俪,薛河儒,郜晓晶,周艳青.基于多特征融合与RF的牛乳体细胞分类与识别[J].内蒙古农业大学学报（自然科学版）,2018,39(6):87-92. 被引量：2
3刘树慧,王顺芳.基于特征融合和有监督局部保持投影的蛋白质亚核定位[J].计算机应用与软件,2017,34(2):251-255. 被引量：1
4杨秀媛,裘微江,金鑫城,陈勇,邹卫美,郑志伟,郭中华,秦泽阳.改进K近邻算法在风功率预测及风水协同运行中的应用[J].电网技术,2018,42(3):772-778. 被引量：18
5施瑞朗.基于社交平台数据的文本分类算法研究[J].电子科技,2018,31(10):69-70. 被引量：9
6王栋璀,丁云飞,朱晨烜.基于中智KNN的齿轮箱故障诊断方法[J].振动与冲击,2019,38(20):148-153. 被引量：13
7苗开超,罗希昌,张淑静,王飞,周建平.基于色域分析的大雾图像特征提取与等级识别方法[J].科学技术与工程,2019,19(35):228-233. 被引量：5
8李驰,段雨梅.K近邻算法优化设计策略[J].电脑知识与技术,2019,15(11):200-202. 被引量：4
9文晶,郑扬飞.基于Stacking的社区矫正人员标签生成[J].计算机与现代化,2020,0(3):60-64. 被引量：1
10黄光华,殷锋,冯九林.一种交叉验证和距离加权方法改进的KNN算法研究[J].西南民族大学学报（自然科学版）,2020,46(2):172-177. 被引量：7

1刘竹松,李振坤,叶枝平.基于Bayes定理的动态负载平衡算法研究[J].现代计算机,2007,13(3):12-14.
2吕安民,牛晓太,郭建忠.基于Bayes定理的分类规则研究[J].计算机应用研究,2006,23(2):24-25. 被引量：3
3邹逸江.基于Bayes定理的数据挖掘方法研究[J].解放军测绘研究所学报,2002,22(1):41-44.
4徐小慧,张安.基于粒子群优化算法的最佳熵阈值图像分割[J].计算机工程与应用,2006,42(10):8-11. 被引量：31
5丁文博.网络信息处理与安全方面的计算机应用[J].信息与电脑（理论版）,2015(9):87-88. 被引量：4
6王兆华.应用行为模式识别的垃圾邮件过滤技术[J].计算机光盘软件与应用,2012(3):74-74.
7风雨彩虹.炙手可热，六款APP助你玩转短视频[J].电脑知识与技术（经验技巧）,2017,0(1):5-15.
8饶浩,陈红玲.基于NBC的子宫肌瘤辅助诊断方法[J].韶关学院学报,2005,26(12):13-15.
9王旸,刘晓东,徐小慧,胡军.基于粒子群优化的数据分类算法[J].系统仿真学报,2008,20(22):6158-6162. 被引量：8
10冯保红,冯祖仁,王煜,王国生,赵三军.控制系统的Bayes可靠性评估算法[J].测控技术,2012,31(2):59-63. 被引量：1

现代计算机

2013年第7期

浏览历史

内容加载中请稍等...

基于KNN的多要素文本协调分类算法被引量：1

参考文献7

二级参考文献3

共引文献383

同被引文献14

引证文献1

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于KNN的多要素文本协调分类算法 被引量：1

参考文献7

二级参考文献3

共引文献383

同被引文献14

引证文献1

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于KNN的多要素文本协调分类算法被引量：1