基于Naive Bayes的维吾尔文文本分类算法及其性能分析被引量：7

UYGHUR TEXT CLASSIFICATION BASED ON NAIVE BAYES AND ITS PERFORMANCE ANALYSIS

下载PDF

导出

摘要以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择Naive Bayes算法为分类引擎,用C#实现分类系统。预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数。在包含10大类共计3 000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果。结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的。 In this paper, taking the automatic classification of large-scale Uyghur text collected from the network as the research background, we have designed the Uyghur text classification system with modular structure, and based on through investigations, we chose the Naive Bayes algorithm as the classification engine, and have implemented the classification system using C-sharp. In the preprocessing part, combining with the lexical characteristics of Uyghur language and by introducing the stem extraction method into the procedure, we have greatly reduced the whole feature dimensions. The classification experimental results on the basis of large-scale text corpus includes more than 3000 documents which are belongs to different 10 categories are given, and the results of the classification experiments for different number of features selected by using x2 statistical method are also given respectively. Results show that only 1% to 3% of the features in Uyghur feature space are critical, so it is possible to determine which ones are the best features or to further reduce the feature space dimensions.

作者艾海麦提江.阿布来提吐尔地.托合提艾斯卡尔.艾木都拉

机构地区新疆大学信息科学与工程学院

出处《计算机应用与软件》 CSCD 北大核心 2012年第12期27-29,共3页 Computer Applications and Software

基金国家自然科学基金项目(61063022 61163033)

关键词维吾尔文文本分类 NAIVE Bayes词干提取停用词 Uyghur Text classification Naive Bayes Stem Extract Stop words

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1SOMAN K P.数据挖掘基础教程[M].范明,牛常勇,译.北京:机械工业出版社,2009.
2吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯全文搜索引擎检索器的关键技术[J].计算机工程,2008,34(21):45-47. 被引量：4
3LiuBing.Web数据挖掘[M].清华大学出版社,2009:322-344.

二级参考文献2

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2米吉提.阿布力米提,库尔班.吾布力.在多文种环境下的维吾尔语文字校对系统的开发研究[J].系统工程理论与实践,2003,23(5):117-124. 被引量：14

共引文献15

1王花,古丽拉.阿东别克,吴守用.基于SVM的哈萨克语文本分类[J].计算机应用,2010,30(6):1676-1678. 被引量：2
2周欢,李广明,张高煜.SOM+K-means两阶段聚类算法及其应用[J].现代电子技术,2010,33(16):113-116. 被引量：13
3吐尔洪.吾司曼,维尼拉.木沙江.维、哈、柯多语种搜索引擎中索引器的研究[J].新疆大学学报（自然科学版）,2011,28(2):132-135. 被引量：2
4佟玉军,曹光辉,陈文实,刘鸿沈.一个改进的决策树算法[J].辽宁工业大学学报（自然科学版）,2011,31(4):225-227. 被引量：1
5王毅,楼恒越.一种改进的Slope One协同过滤算法[J].计算机科学,2011,38(B10):192-194. 被引量：20
6吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
7李永可,吴悠,张太红,冯向萍,吴向前.维文垃圾网页多元线性回归识别研究[J].新疆大学学报（自然科学版）,2012,29(2):218-222. 被引量：1
8姜大庆,周勇,夏士雄.基于语义描述与优化的网络性能数据聚类方法[J].计算机应用,2012,32(6):1522-1525. 被引量：1
9徐桂彬,邓伟.结合DCTM与HMM的音乐分类方法[J].计算机工程与设计,2012,33(11):4245-4249. 被引量：4
10宋雅婷,孟莉秋,孙道层,宫霞英.数据挖掘技术在教学中的应用[J].中国教育技术装备,2013(3):55-57. 被引量：2

同被引文献58

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
3薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
4鲁明羽.Bayes文本分类器的改进方法研究[J].计算机工程,2006,32(17):63-65. 被引量：11
5胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
6艾山·吾买尔,吐尔根·依布拉音,早克热·卡德尔.维吾尔语名词词干提取算法的研究[C]//第四届全国信息检索与内容安全学术会议,中国北京,2008.
7Sebastiani F. Machine learning in automated text categoriza- tion [ J ]. ACM computing surveys,2002,34 ( 1 ) : 1-47.
8Yang Y, Liu X. A re-examination of text categorization meth- ods[C]//Proceedings of 22nd annual international ACM SI- GIR conference on research and development in information retrieval. Berkeley : [ s. n. ], 1999:42-49.
9Yang Xiquan, Sun Na. The application of latent semantic inde- xing and ontology in text classification [ J ]. International jour- nal of innovative computing, information and control, 2009,5 (12) :1-9.
10Vries A, Mamoulis N, Nes N, et al. Efficient k-NN search on vertically decomposed data [ C ]//Proceedings of the ACM SIGMOD conference on management of data. [ s. 1. ] : [ s. n. ] ,2002:322-333.

引证文献7

1苏小英,胡彦鹏,杨竣辉,李明.一种新的用于文本分类的概率分类器设计[J].计算机技术与发展,2014,24(3):46-48. 被引量：1
2亚力青.阿里玛斯,哈力旦.阿布都热依木,陈洋.基于向量空间模型的维吾尔文文本过滤方法[J].新疆大学学报（自然科学版）,2015,32(2):221-226. 被引量：4
3何燕,哈力旦.阿布都热依木,阿丽亚.艾尔肯,吴冰冰.一种新的维吾尔文文本分类特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(3):42-46. 被引量：1
4阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6
5金秀,姜尚伟,苑莹.基于股吧信息的投资者情绪与极端收益的可预测性研究[J].管理评论,2018,30(7):16-25. 被引量：29
6李高鹏,艾山·吾买尔.融合词性的维吾尔语文本分类研究[J].现代计算机,2019,25(17):21-25.
7塞麦提·麦麦提敏,司马义·阿不都热依木.维吾尔语停用词抽取方法研究[J].计算机工程,2019,45(10):288-292.

二级引证文献40

1尹必超,孔东民,季绵绵.散户积极主义提高上市公司审计质量吗[J].会计研究,2022(10):157-178. 被引量：5
2罗剑宏,徐子涵.投资者情绪、拥挤交易行为与股票风险溢价关系研究[J].价格理论与实践,2019(10):83-86. 被引量：8
3杨丽玲.基于核覆盖算法的中文文本分类研究[J].吉林师范大学学报（自然科学版）,2014,35(4):133-135.
4胡辉,胡松,陈伽,蔡昭权.基于向量空间模型的网页过滤分析[J].电子技术与软件工程,2016(12):9-10.
5赵旭东,亚森.艾则孜.基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案[J].电子设计工程,2016,24(16):109-112. 被引量：3
6于丽,亚森.艾则孜.采用相关反馈和文档相似度的维吾尔语检索词加权方法[J].华侨大学学报（自然科学版）,2017,38(3):408-413.
7艾比布拉.阿不拉,马振,哈力旦.阿布都热依木,吴冰冰.基于Hadoop的维吾尔文文本分类[J].计算机工程与设计,2018,39(8):2500-2504. 被引量：1
8刘霞,秦华锋.基于深度置信网络的假手指静脉图像检测算法[J].重庆工商大学学报（自然科学版）,2018,35(5):32-38. 被引量：2
9阿丽亚·艾尔肯.改进的期望交叉熵算法在维吾尔文垃圾短信分类上的应用[J].名城绘,2018,0(8):704-705.
10许凯波,罗广祥,孙震辉.基于深度信念网络的乳腺肿瘤辅助诊断研究[J].计算机与数字工程,2019,47(3):582-586. 被引量：3

1耿瑞焕,陈改霞.基于频度和类内精确度的x^2统计改进研究[J].电子技术与软件工程,2015(4):181-181.
2Websense云端ACE拦截针对性网络攻击[J].微电脑世界,2013(1):119-119.
3陈琳,王箭.三种中文文本自动分类算法的比较和研究[J].计算机与现代化,2012(2):1-4. 被引量：6
4石义,钱步仁.基于内容与行为特征的反垃圾邮件系统[J].网络安全技术与应用,2009(4):20-21. 被引量：3
5黄冬梅,顾兢兢.基于Bayes算法的态势评估[J].舰船电子工程,2012,32(5):46-47. 被引量：1
6王花,古丽拉.阿东别克,吴守用.基于SVM的哈萨克语文本分类[J].计算机应用,2010,30(6):1676-1678. 被引量：2
7黄树成,朱宇光,董逸生.基于半监督学习的数据流分类方法[J].计算机研究与发展,2007,44(z2):225-229. 被引量：1
8杜雄,黄建,夏杨.一种基于CAM的数据包分类引擎的设计[J].微电子学与计算机,2005,22(5):162-165. 被引量：3
9梁曌,陈思宇,梁小林,康欣.基于KNN和Bayes算法的组合分类器的垃圾评论识别研究[J].经济数学,2016,33(1):36-41. 被引量：1
10赵妮娜.改进的Salbayes算法在图像识别中的研究[J].计算机光盘软件与应用,2012,15(24):25-27. 被引量：1

计算机应用与软件

2012年第12期

浏览历史

内容加载中请稍等...

基于Naive Bayes的维吾尔文文本分类算法及其性能分析被引量：7

参考文献3

二级参考文献2

共引文献15

同被引文献58

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于Naive Bayes的维吾尔文文本分类算法及其性能分析 被引量：7

参考文献3

二级参考文献2

共引文献15

同被引文献58

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于Naive Bayes的维吾尔文文本分类算法及其性能分析被引量：7