基于BP网络的中文文本分类技术被引量：2

Chinese Text Categorization Technology Using BP Neural Network

下载PDF

导出

摘要本文在对文本分类的问题,关键技术及系统结构进行介绍的基础上,详细阐述了一种利用带动力项的BP神经网络作为分类器的中文文本自动分类方法。该法采用归一化TFIDF算法对特征向量进行权值计算,并使用期望交叉熵统计方法对特征向量集进行精简。此外,我们在TanCorp12数据集上测试了特征项数目和训练次数对于分类器的宏平均和微平均性能的影响。 This paper has illustrated the description of the Chinese text categorization problem, the key technology and system design, and base on that, this paper explains the method how to use BP artificial network（ with momentum） to achieve the goal of automatically classifying Chinese texts into different categories. The method adopts the TF - IDF formula to calculate weight and uses Expected Cross Entropy method as a way of reducing space dimension. Finally,on the TanCorpl2 text set, we use macro- average F1 and micro- average F1 as evaluation criterion to test the impact of parameters, such as input node number,training times, on the performance of the classifier.

作者杨新武李森刘椿年

机构地区多媒体与智能软件技术北京市重点实验室北京工业大学计算机学院

出处《微计算机应用》 2008年第3期31-36,共6页 Microcomputer Applications

基金国家自然科学基金重大项目(No.60496322) 北京市组织部优秀人才(No.2005D0501508) 北京工业大学校青基金

关键词文本分类 BP神经网络特征降维 text categorization, BP neural network, feature reduction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1马光志,张汇.一种带潜在类别主题词的简单贝叶斯文本分类器[J].微计算机应用,2004,25(4):471-474. 被引量：2
2庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293

二级参考文献11

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4Marco Ramoni, Paola Sebastiani.Bayesian Methods for Intelligent Data Analysis.New York: Springer Press,1999.
5Freund Y,Schapire.A decision-theoretic generalization of on-line learning and an application to boosting.Proc.of the Second European Conf on Computational Learning.1995.
6黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
7鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
8卜东波，博士学位论文，2000年
9Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
10Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页

共引文献293

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献17

1岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
2陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量：3
3刘幺和,陈睿,彭伟,周蕾.一种BP神经网络学习率的优化设计[J].湖北工业大学学报,2007,22(3):1-3. 被引量：15
4曹红丽.混合高斯模型的混合EM算法研究及聚类应用[D].乌鲁木齐:新疆大学,2010.
5岳佳,王士同.双重高斯混合模型的EM算法的聚类问题研究[J].计算机仿真,2007,24(11):110-113. 被引量：14
6张浩,汪楠.文本分类技术研究进展[J].计算机与信息技术,2007,23(1):95-96.
7A P Dempster, N M laired, D B Rubi n. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, 1977,B(39): 1-38.
8Jinwen Ma,Shuqun Fu. On the correct convergence of the EM algorithm for Gaussian mixtures[J}. Pattern Recognition, 38(12): 2602-2611.
9Jamshidian M, Jennrich R I. Conjugate gradient acceleration of the EM algorithm[J]. Journal of the American Statistical Association, 1993, 88:221- 228.
10Jie Cao, Zhang Wu, Junjie Wu, Wenjie Liu. Towards information- theoretic K-means clustering for image indexing[J]. Signal Processing, 2012.

引证文献2

1陈宇,许莉薇.基于高斯混合模型的林业信息文本分类算法[J].中南林业科技大学学报,2014,34(8):114-119. 被引量：3
2田欢,李红莲,吕学强,周建设,夏红科.基于改进BP神经网络的学术活动文本分类[J].北京信息科技大学学报（自然科学版）,2018,33(5):38-44. 被引量：5

二级引证文献8

1冯长敏,张炳江.基于BP神经网络的分段函数连续优化处理[J].北京信息科技大学学报（自然科学版）,2019,34(1):18-22. 被引量：5
2董芷艺,谢章伟,崔展齐.基于开发者模型的问题修复者推荐方法[J].北京信息科技大学学报（自然科学版）,2019,34(3):64-67.
3吕淑宝,王明月,翟祥,陈宇.一种深度学习的信息文本分类算法[J].哈尔滨理工大学学报,2017,22(2):105-111. 被引量：19
4崔晓晖,师栋瑜,陈志泊,许福.基于Spark框架XGBoost的林业文本并行分类方法研究[J].农业机械学报,2019,50(6):280-287. 被引量：10
5王思迪,胡广伟,杨巳煜,施云.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59. 被引量：4
6吴君戈,张笑笑,邹春明,宋好好.基于改进LDA模型的信息安全事件提取算法[J].网络空间安全,2020,11(12):87-92. 被引量：1
7陈卓,吴君戈,刘正剑.基于改进小波神经网络的高速网络流量预测算法研究[J].中国新通信,2020,22(23):39-41. 被引量：3
8李刚,杨志.低速城市路况下驾驶员制动特性辨识研究[J].机械设计与制造,2021(12):14-18.

1王静婷.基于语义相似度的Web文本分类研究[J].图书馆学研究,2012(9):64-69. 被引量：2
2申雷华,孙立辉.基于SURF特征的交通标志识别算法[J].信息与电脑,2016,28(1):68-69. 被引量：2
3何江平,文俊浩,邓恬洁,王道乾.基于支持向量机的图像识别[J].重庆大学学报（自然科学版）,2006,29(1):57-60. 被引量：9
4盖赟.基于微分算子的三维人脸表情识别[J].计算机科学,2014,41(B11):128-132.
5蒋芳.软件是一种工具——交互设计观点[J].程序员,2005(3):62-64. 被引量：1
6马远坤,梁永全,刘彤,赵建立,李玉军.一种基于数据迁移的冷启动解决算法[J].计算机工程,2014,40(4):273-276.
7刘宏磊,李一鸣,贺欢,韩博.掌上迎新系统的设计与实现研究[J].中国教育信息化（高教职教）,2012(2):57-60. 被引量：6
8任璐.基于极坐标直方图的图像检索算法[J].数字技术与应用,2012,30(7):105-107. 被引量：2
9薛丹,孙万蓉,李京京,贾海龙,杨子峰,王政.一种基于SVM的改进车牌识别算法[J].电子科技,2013,26(11):22-25. 被引量：14
10何文斌,梁利姣.基于分形和Gabor滤波的高分辨率遥感影像分割[J].东莞理工学院学报,2011,18(3):53-57.

微计算机应用

2008年第3期

浏览历史

内容加载中请稍等...

基于BP网络的中文文本分类技术被引量：2

参考文献2

二级参考文献11

共引文献293

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于BP网络的中文文本分类技术 被引量：2

参考文献2

二级参考文献11

共引文献293

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于BP网络的中文文本分类技术被引量：2