基于特征恢复的中文残缺文本分类研究

A Research of Incomplete Chinese Text Categorization Based on Feature Recovery

下载PDF

导出

摘要为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi-Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。 In order to improve the efficient of incomplete text categorization, this paper takes Chinese text categorization based on support vector machine categorization method （SVM） and chi--square statistic （Chi--Square） of the text feature extraction method as research background. This paper proposes a new method of incomplete text categorization on the basis of two kinds of text features recovery algorithm under the categorization of supervised learning mode. Comparing with traditional direct categorization method, the new method achieves part of incomplete text recovery through pre--term incomplete word recovery before text categorization. Experiments show that the feature recovery, compare to traditional methods, the new method gets little effect on the text categorization at low incomplete rates and gets better categorization results at high incomplete rates.

作者徐璐周亚建

机构地区北京邮电大学信息安全中心

出处《北京电子科技学院学报》 2011年第4期23-29,共7页 Journal of Beijing Electronic Science And Technology Institute

基金国家高技术研究发展计划(863计划)(No.2009AA01Z430) 国家自然科学基金(No.60972077 60973146)

关键词文本分类 SVM 卡方统计特征恢复 Text Categorization SVM Chi-- Square Feature Recovery

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1张煜东,吴乐南,韦耿.基于GCM与RFH的文本图像联合识别[J].信息与控制,2009,38(5):571-574. 被引量：4
2鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4郭龙,平西建,周林,童莉.基本图像特征用于文本图像文种识别[J].应用科学学报,2011,29(1):56-60. 被引量：4

二级参考文献93

1程娟,平西建,周冠玮.基于多特征和SVM的文本图像版面分类方法[J].数据采集与处理,2008,23(5):569-574. 被引量：6
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
7孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
8童莉,平西建.基于信息度量的图像特征与文本图像分类[J].计算机工程,2004,30(17):143-145. 被引量：7
9徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
10孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87

共引文献122

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
3郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
4王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
5洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
6陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
7黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
8陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
9梁刚.基于机械分词与统计学的新词识别研究[J].情报理论与实践,2005,28(5):475-477. 被引量：6
10佘莉,符红光,方海光.几何命题处理中的中文分词技术[J].计算机工程,2005,31(18):180-182. 被引量：4

1张卫国,王展,兰军,李东晖.一种基于几何特征的斜视人脸图象特征恢复方法[J].计算机应用研究,2000,17(4):86-87. 被引量：5
2王华,李介谷.人脸斜视图象的特征提取与恢复[J].上海交通大学学报,1997,31(1):101-104. 被引量：5
3刘仕良,方建军.Pro/E轨迹文件的应用[J].现代制造工程,2004(11):33-34. 被引量：1
4郭子选,谢晓尧,刘嵩.基于特征恢复的离群点移除算法的研究[J].贵州师范大学学报（自然科学版）,2016,34(1):88-92. 被引量：1
5刘云华,吕剑,朱林,罗年猛.基于区域生长的三角网格模型孔洞修补方法[J].计算机工程,2014,40(10):239-244. 被引量：5
6王晅,毕秀丽,马建峰,肖斌.基于图像局部纹理方向概率统计模型的非线性滤波算法[J].计算机应用,2006,26(12):2829-2831.
7乔振民,邢立新,李淼淼,董连英,潘军,王红红,朱亚静.遥感影像的云及其阴影覆盖区光谱重构[J].吉林大学学报（信息科学版）,2012,30(1):35-39. 被引量：3
8郭玲,王晓兰,周献中.结合颜色特征和结构特征的彩色地图分层算法[J].计算机辅助设计与图形学学报,2003,15(12):1463-1467. 被引量：2
9贺强,张树生,白晓亮.曲面特征恢复的三角网格模型孔洞修补算法[J].哈尔滨工业大学学报,2011,43(11):120-124. 被引量：3
10徐国天.基于EXT3文件系统的数据库文件恢复与检验软件的开发[J].信息网络安全,2011(10):44-46. 被引量：11

北京电子科技学院学报

2011年第4期

浏览历史

内容加载中请稍等...

基于特征恢复的中文残缺文本分类研究

参考文献4

二级参考文献93

共引文献122

相关作者

相关机构

相关主题

浏览历史