一种基于类别分布信息的中文文本分类模型被引量：1

A Model of Chinese Text Categorization Based on Sort Distribution Information

导出

摘要特征降维是文本分类面临的主要问题之一。首先通过x^2分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。 The feature reduction is one of the main problems in text classification ,Firstly, the authors select features by using CHI distribution. Secondly,the authors cluster the selected features by using an improved method which based on density dustering. In virtue of the sort distribution information, the authors reduce the number of features twice and the information lost few, Lastly, based on the sort of texts, the authors use the distributing of probability to express text with matrix, and realizes the text categorization by using matrix norm. The experiment shows that this method has a higher precision for the text classification.

作者刘海峰王元元姚泽清

机构地区解放军理工大学指挥自动化学院解放军理工大学理学院

出处《图书情报工作》 CSSCI 北大核心 2008年第1期73-76,共4页 Library and Information Service

基金国家自然科学基金资助项目“基于不完全信息的交互式群决策理论及其应用”(项目编号：70571087)研究成果之一

关键词文本分类特征选择特征聚类 Bayes分布文本表示 text categorization feature clustering bayes distributing text expressing feature selection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用[J].计算机工程与应用,2001,37(9):57-60. 被引量：16
2刘海峰,王元元.基于向量模型的文本检索若干问题研究[J].情报杂志,2006,25(10):57-59. 被引量：14
3盖杰,王怡,武港山.基于潜在语义分析的信息检索[J].计算机工程,2004,30(2):58-60. 被引量：29
4陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
5吴春国,梁艳春,孙延风,周春光,吕英华.关于SVD与PCA等价性的研究[J].计算机学报,2004,27(2):286-288. 被引量：27
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60
8Yang Y,Pedersen J P.A comparative study on feature selection in text categorization.Proceedings of the Fourteenth International Conference on Machine Learning(ICML'97).San Francisco:Morgan Kaufmann Publishers,1997:412-420.
9代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
10刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11

二级参考文献102

1杨健,杨静宇,叶晖.Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003,29(4):481-493. 被引量：97
2钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：10
3王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
4黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
5.SMART 1992,源代码下载[EB/OL].ftp.cs.cornell.edu/ftp/pub/smart/smart.11.0.tar.Z,.
6孙斌.Relative Information and a Sense Matrix Model for IR.TR-003,ICL PKU.北京大学计算语言所报告.2003-11.语言所技术报告编号2004-3[EB/OL].http:∥icl.pku.edu.ch/icl_tr/,.
7Duda R, Hart P. Pattern Classification and Scene Analysis [M].New York: Wiley, 1973:113 -120.
8Sammon J W. An optimal discriminant plane[ J]. IEEE Transactions on Computer, 1970,19:826 - 829.
9Foley D H, Sammon J W Jr. An optimal set of discriminant vectors[J]. IEEE Transactions on Computer, 1975, 24(3): 281 -289.
10Duchene J, Leclercq S. An optimal transformation for discriminant and principal component analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988, 10(6) : 978 -983.

共引文献552

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
4李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
7王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
8刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
9蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
10黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.

同被引文献7

1孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
3郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
4Rocchio J J. Relevance feedback in information retrieval. The SMART Retrieval System Experiments in Automatic Document Processing. New Jersey : Prentice Hall Inc, 1971:313 - 323.
5胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报（自然科学版）,2007,30(10):1261-1264. 被引量：14
6姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
7刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40

引证文献1

1刘怀亮,张治国,马志辉,赵捧未.基于KNN的中文文本分类反馈学习研究[J].图书情报工作,2008,52(10):101-104. 被引量：3

二级引证文献3

1李浩君,项静,华燕燕.基于KNN算法的mCSCL学习伙伴分组策略研究[J].现代教育技术,2014,24(3):86-93. 被引量：14
2刘怀亮,杜坤,秦春秀.基于知网语义相似度的中文文本分类研究[J].现代图书情报技术,2015(2):39-45. 被引量：15
3吕婷,朱正月,余沛文.基于机器学习的学生学习伙伴推荐平台设计[J].安徽电子信息职业技术学院学报,2022,21(6):7-11.

1刘海峰,王元元,姚泽清,王倩.一种基于特征聚类的文本分类模型研究[J].情报学报,2008,27(2):224-228. 被引量：2
2杨蕾,陈景武,王金才.用ASP实现假设检验中P值的积分求解[J].电脑学习,2006(4):27-28.
3崔逊学,方红雨,朱徐来.传感器网络定位问题的概率特征[J].计算机研究与发展,2007,44(4):630-635. 被引量：14
4于秀兰,钱国蕙,周建林,贾晓光.多光谱遥感图像BP网分类器学习样本选取法的研究[J].红外与毫米波学报,1999,18(6):449-454. 被引量：6

图书情报工作

2008年第1期

浏览历史

内容加载中请稍等...

一种基于类别分布信息的中文文本分类模型被引量：1

参考文献15

二级参考文献102

共引文献552

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于类别分布信息的中文文本分类模型 被引量：1

参考文献15

二级参考文献102

共引文献552

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于类别分布信息的中文文本分类模型被引量：1