中文文本分类中的文本表示因素比较被引量：5

Comparative study on text representation schemes in Chinese text classification

下载PDF

导出

摘要研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则. We investigated the representation methods for text classification, proposed the framework of analyzing Chinese text representation algorithms, analyzed the influence of text representation, and obtained the influence of variable text representation factors on classification effect. Using Chinese characters can directly obtain better effect than expected ; there is little difference on classification effect among splitting articles with smaller or huger dictionary or even by complicated splitting algorithm; and classification with only 01 to represent whether a feature is presented in a text or not can lead to not bad effect. We also found it can greatly improve classification effect to use reasonable vector value such as suitable formalization algorithm. These conclusions have provided instructions to contifurther applications.

作者张爱华荆继武向继

机构地区中国科学技术大学电子工程与信息科学系中国科学院研究生院信息安全国家重点实验室

出处《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第3期400-407,共8页 Journal of the Graduate School of the Chinese Academy of Sciences

基金国家863研究计划(2006AA01Z454)项目资助

关键词中文文本分类文本表示向量化 Chinese text classification, text presentation, vectorization

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys,2002,34( 1 ) : 1 -47
2Salton G, Wong A, Yang C. A vector space model for automatic indexing. Communication of the A CM, 1975,18( 11 ): 613 -620
3Yang Y. A comparative study on feature selection in text categorization. In: Proceedings of the Fourteenth International Conference on Machine Learning ( ICML' 97). San Francisco: Morgan Kaufmann Publishers Inc, 1997. 412-420
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
5冯是聪,单松巍,龚笔宏,张志刚,李晓明.“天网”目录导航服务研究[J].计算机研究与发展,2004,41(4):653-659. 被引量：8
6Yang YM, Liu X. A re-examination of text categorization methods. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999. 42 - 49
7罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5. 被引量：63
8Li JY, Sun MS, Zhang X. A comparison and semi-quantitative analysis of words and character-bigrams as features in Chinese text categorization. In: Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL. Morrlstown: Association for Computational Linguistics, 2006. 545 - 552
9Song FX, Liu SH, Yang JY. A comparative study on text representation schemes in text categorization. Pattern Analysis & Applications, 2005, 8 (1) :199- 209
10LangJ, Lin F, Wang J. A comparative study on representing units in Chinese text clustering, Knowledge Science. In: Engineering and Management ( KSEM2006). Heidelberg: Springer Berlin, 2006. 466 - 476

二级参考文献18

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
4Mehta M, Agrawal R, Rissanen J. SLIQ: A Fast Scalable Classifier for Data Mining[A]. Lecture Notes in Computer Sci. Proc. of the 5th Int.Conf. on Extending Database Tech. [C], 1996:18-33
5Shafer J C, Agrawal R, Mehta M. SPRINT: A Scalable Parallel Classifier for Data Mining[A]. Mumbai(Bombay), India: Proc. of the 22nd Int. Conf. on Very Large Databases[C], 1996
6Friedman N, Geiger D, Goldszmidt M. Bayesian Network Classifier[J].Machine Learning, 1997, 29( 1 ):131 - 163
7Liu B, Hsu W, Ma Y. Integrating Classification and Association Rule Mining[A]. Agrawal R. Proc. of the 4th Int. Conf. on Knowledge Discovery and DataMining[C], NY, USA: AAAI Press, 1998:80-86
8WebInfomallWebsitshttp://net.cs.pku.edu.cn/-webg/infomall/index.html . 2002
9TianwangsearchengineWebsits http://e.pku.edu.cn . 1997
10http://cn.yahoo.com . 2003

共引文献457

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献40

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
3钟义信.自然语言理解的全信息方法论[J].北京邮电大学学报,2004,27(4):1-12. 被引量：42
4刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
5程岚岚,何丕廉,孙越恒.基于朴素贝叶斯模型的中文关键词提取算法研究[J].计算机应用,2005,25(12):2780-2782. 被引量：13
6于海燕,陈晓江,冯健,房鼎益.Web文本内容过滤方法的研究[J].微电子学与计算机,2006,23(9):51-54. 被引量：9
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8张广渊,李晶皎,王爱侠.基于知识的满文识别后处理[J].计算机辅助工程,2006,15(3):69-71. 被引量：2
9刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
10Hakkinena J, Suontaustab J, Riisc S, et al. Assessing Text - to - phoneme Mapping Strategies in Speaker Independent Isolated Word Recognition [ J]. Speech Communication, 2003, 41 (2 - 3 ) :455 - 467 .

引证文献5

1夏彦,何琳,潘运来,欧阳辰晨.基于规则与统计相结合的互联网突发事件识别研究[J].现代图书情报技术,2010(10):65-69. 被引量：6
2阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5
3田瑞,闫丹凤.针对特定主题的短文本向量化[J].软件,2012,33(11):202-205. 被引量：5
4郑秋生,翟琳琳.基于改进Rocchio算法的短文本自动分类研究[J].中原工学院学报,2013,24(1):70-73. 被引量：3
5孙新,欧阳童,严西敏,尚煜茗,郭文浩.基于训练集裁剪的加权K近邻文本分类算法[J].情报工程,2016,2(6):8-16. 被引量：7

二级引证文献26

1张昱,罗年学.互联网突发事件监测信息分类方法研究[J].数字制造科学,2022(1):75-80.
2刘樑,史浩,何婧,李仕明.非常规突发事件在线信息处理及其演化传播规律研究综述[J].电子科技大学学报（社科版）,2013,15(2):17-21. 被引量：2
3李纲,李阳.情报视角下的突发事件监测与识别研究[J].图书情报工作,2014,58(24):66-72. 被引量：29
4李兆阳,赵阿群.基于BRITE的向量地址平均长度仿真研究[J].软件,2015,36(2):45-48. 被引量：1
5张海军.维吾尔语短语自动抽取研究进展[J].计算机科学与探索,2015,9(12):1420-1429. 被引量：3
6曹孟毅,黄穗,王会进,何杰,龙舜.基于内容相似度的运动路线推荐[J].计算机工程与应用,2016,52(9):33-38. 被引量：6
7阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6
8章胤,赵文慧,包恒玥,李亚健,周克强.基于k-means和关联度分析的网络招聘信息数据挖掘[J].软件工程,2017,20(5):10-14. 被引量：4
9李纲,王晓,叶光辉.国内突发事件预警研究评述[J].情报理论与实践,2017,40(7):138-144. 被引量：10
10雷凯,刘树波,李丹,李永凯.实时路况制约下基于内容的兴趣点推荐[J].计算机工程,2017,43(10):147-152. 被引量：6

1杨云松.安全管理无边界[J].软件世界,2005(4):95-95.
2祁予.浅谈计算机电子信息技术及工程管理[J].通讯世界,2015,0(12):50-50.
3徐霞.无线传感器网络安全技术研究[J].信息与电脑（理论版）,2015(10):75-76 79. 被引量：2
4宋相法,焦李成.基于稀疏表示及光谱信息的高光谱遥感图像分类[J].电子与信息学报,2012,34(2):268-272. 被引量：73
5陆国丽,王小华,王荣波.最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J].现代图书情报技术,2008(12):43-47. 被引量：2
6桑农,张涛,李斌,吴翔.基于字典学习的背景建模[J].华中科技大学学报（自然科学版）,2013,41(9):28-31. 被引量：2
7张松,杨学松.提高空压机机组运行安全性和可靠性[J].自动化技术与应用,2011,30(7):104-106. 被引量：2
8王栋,蔡荭.深亚微米工艺下系统芯片低功耗技术[J].电子与封装,2011,11(1):37-40.
9张玲,袁娜,马永刚,黄鹏.基于测试用例和时间域软件可靠性模型[J].计算机技术与发展,2009,19(11):167-170. 被引量：2
10DX11游戏引领外设升级风暴 6款市售游戏鼠标横评[J].现代计算机（中旬刊）,2010(7):45-50.

中国科学院研究生院学报

2009年第3期

浏览历史

内容加载中请稍等...

中文文本分类中的文本表示因素比较被引量：5

参考文献17

二级参考文献18

共引文献457

同被引文献40

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

中文文本分类中的文本表示因素比较 被引量：5

参考文献17

二级参考文献18

共引文献457

同被引文献40

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

中文文本分类中的文本表示因素比较被引量：5