基于语料信息度量的文本分类性能影响研究被引量：5

Study on the Influences of Text Categorization Performance Based on Corpus Information Measurement

下载PDF

导出

摘要基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。 The categorization performances usually vary in different corpus data with different categorization algorithms. The article proposes a new method to improve the categorization performance based on the analysis of the basic reason for the difference in categorization effects of the specialized corpus and the self-built corpus. It measures the corpus information from the comparison of the automatic catego-rization performances of different corpus through defining three indexes, namely, the category clustering density, the category complexity and the category definition. And it inspects the relationship between the three indexes and the categorization performance with multiple factors analysis of variance to obtain the effect relationship of the different indexes on the different algorithms categorization performances, and proposes an overlap text categorization method based on the category definition to verify the validity of the index. The experiments show that three indexes all affect the categorization performance of different algorithms to some extent. The higher clustering density, the lower complexity and the higher category definition, the better categorizationperformances will be.

作者李湘东巴志超黄莉

机构地区武汉大学信息管理学院武汉大学信息资源研究中心武汉大学图书馆

出处《情报杂志》 CSSCI 北大核心 2014年第9期157-162,180,共7页 Journal of Intelligence

关键词语料库自建语料类别信息分类算法分类性能 corpus self-built corpus category information categorization algorithm categorization performance

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1林琛,李弼程,周杰.基于信息粒度的交叠类文本分类方法[J].情报学报,2011,30(4):339-346. 被引量：7
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
3刘海峰,刘守生,姚泽清.文本分类中基于训练样本空间分布的K近邻改进算法[J].情报学报,2013,32(1):80-85. 被引量：9
4Japkowicz N, Stephen S. The Class Imbalance Problem: A Sys-tematic Study[ J]. IntelligentData Analysis,2002,6 (5):429 -449.
5孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
6Roberto H W, George D C, Renato F C, et al. A Global-rank-ing Local Feature Selection Method for Text Categorization[J].Expert Systems with Applications,2012,39(17):12851-12857.
7Reuters-21578[EB / OL]. [2011-05-02]. http:/ / www. David-dlewis. com / resources / testcollections / reuters21578/.
8互联网语料库(SogouT)[EB/OL].[2011-01-01].http://www.sogou.com/labs/dl/t.html.
9复旦大学中文分类语料[EB / OL]. [2011 -05 -02] http:/ /www. nlp. org. cn / docs / download. php? doc_id =295.
10王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：8

二级参考文献90

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
3宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
5杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
6郑德权,李生,赵铁军,于浩.基于一种混合语言模型的自动文本分类技术研究[J].电子与信息学报,2007,29(3):601-605. 被引量：2
7印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
8Moschitti A,Basili R. Complex linguistic features for text classification : A comprehensive study [ C ]//McDonald S, Tait J. Proceedings of the ECIR-04. Sunderland: Springer-Verlag. Sunderland, U. K. ,2004 : 181-196.
9Garcia V, Alejo R, Sanchez J S,et. al. Combined effects of class imbalance and class overlap on instance-based classification [ C ]. IDEAL, 2006 : 371-378.
10Orriols A, Bernardo E. The class imbalance problem in learning classifier systems: a preliminary study [ C ]// Proc. Conf. on Genetic and Evolutionary Computation, 2005:74-78.

共引文献178

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
4虞晓娟,廖桂平,李锦卫,金晶.基于色度域划分的马铃薯绿皮检测方法[J].农业工程学报,2009,25(S2):314-319. 被引量：18
5常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
6潘和平,樊政军,马勇.基于信息熵识别油气层和水层的聚类方法[J].石油大学学报（自然科学版）,2004,28(6):31-34. 被引量：5
7薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].中国索引,2005,3(1):37-43. 被引量：2
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
10唐明,张自力.文本挖掘在多文化交流平台中的应用研究[J].西南师范大学学报（自然科学版）,2006,31(3):110-113. 被引量：2

同被引文献52

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
3王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
4胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
5Bin Wang,Gareth J. F. Jones,Wenfeng Pan.Using online linear classifiers to filter spam emails[J]. Pattern Analysis and Applications . 2006 (4)
6Fabrizio Sebastiani.Machine learning in automated text categorization[J]. ACM Computing Surveys (CSUR) . 2002 (1)
7Yiming Yiming, Liu Xin. A Re-examination of Text Categorization Methods [ C]. Proceedings of the 22nd Annual International ACM SlGIR Conference ON Research and Development in the Information Retrieval. Berkeley, USA, 1999= 42-49.
8Sebastiani F. Machine Learning in Automated Text Categorization [ J ]. ACM Computing Surveys. 2002 ( ! ) : 1 -47.
9T. Bailey, A. KJain, A Note on Distance Weighted K-Nearest Neighbor Rules [J]. IEEE Transactions on Systems, Man, and Cybematics, 1978 (8): 311-313.
10G. Guo, H. Wang, D. Bell, KNN Model Based Approach in Classification [C]. In ODBASE, 2003:986 -996.

引证文献5

1谭学清,张磊,周通,罗琳.一种基于聚类密度的文本分类算法研究[J].图书馆学研究,2016(13):74-83.
2李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
3高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
4李伟,汪廷华,郑惠宁.基于特征族群语义扩散核的半监督农业文本分类[J].赣南师范大学学报,2018,39(3):66-71. 被引量：2
5张华鑫.基于SVM的文本分类研究[J].情报探索,2015(5):133-135. 被引量：4

二级引证文献18

1袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
2韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
3董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：32
4高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
5曹奔,夏勉,任志洪,林秀彬,徐升,赖丽足,王琪,江光荣.大数据时代心理学文本分析技术--“主题模型”的应用[J].心理科学进展,2018,26(5):770-780. 被引量：13
6单妍,苏曼娜.文字出版物的智能审读方法研究[J].福建电脑,2018,34(5):1-3.
7李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：13
8王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4
9沈炜域,刘奇飞.利用概念化的少样本短文本分类研究[J].情报探索,2018(12):5-9.
10杨捷,段明明,洪峰,张思路,江雄.浅谈文本智能分析技术在电网客户工单语义分析中的应用[J].科学与信息化,2019,0(1):9-10.

1宋世杰,胡华平,胡笑蕾,金士尧.数据挖掘技术在入侵检测分类中的应用[J].装备指挥技术学院学报,2003,14(6):87-91.
2张元元,姜树明,魏志强,张建峰,许世杰.基于步态的身份识别研究综述[J].山东科学,2012,25(3):113-118. 被引量：3
3陆忠树.关于无线MESH网络路由协议的分析与研究[J].电脑知识与技术,2016,12(7X):33-34. 被引量：1
4才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
5龚江,石培春,李春燕.使用SPSS软件进行多因素方差分析[J].农业网络信息,2012(4):31-33. 被引量：31
6谭学清,张磊,周通,罗琳.一种基于聚类密度的文本分类算法研究[J].图书馆学研究,2016(13):74-83.
7李江华,时鹏,郑剑.一种基于语料的本体评价方法[J].情报杂志,2012,31(7):187-190. 被引量：5
8郑家恒,杜永萍,刘昌钰.基于语料的动态获取专业词汇方法初探[J].计算机工程,2002,28(5):64-66. 被引量：4
9王晓文,刘雨.图像超分辨率研究综述[J].信息技术,2009,33(7):236-240. 被引量：11
10吴守用.基于SVM的哈萨克语文本分类初探[J].现代计算机,2010,16(4):16-19.

情报杂志

2014年第9期

浏览历史

内容加载中请稍等...

基于语料信息度量的文本分类性能影响研究被引量：5

参考文献26

二级参考文献90

共引文献178

同被引文献52

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于语料信息度量的文本分类性能影响研究 被引量：5

参考文献26

二级参考文献90

共引文献178

同被引文献52

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于语料信息度量的文本分类性能影响研究被引量：5