基于概率神经网络的文本自动分类研究被引量：14

Study on Automatic Text Categorization with Probabilistic Neural Networks

下载PDF

导出

摘要本文提出了将一种径向基网络的重要变形--概率神经网络应用于文本自动分类的研究,与常用的K-最邻近法相比,具有一定的优势,特别是在训练集中各类的训练样本数很不平衡时;与BP等其他神经网络相比,其特点是需调节的参数少,不需确定隐层数、隐层中的神经元数量等网络结构,比较容易使用.此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是非常重要的.

作者施洁斌

机构地区浙江大学图书馆

出处《情报学报》 CSSCI 北大核心 2004年第2期147-151,共5页 Journal of the China Society for Scientific and Technical Information

关键词概率神经网络文本自动分类 K-最邻近法情报分析文本挖掘

分类号 G254.1 [文化科学—图书馆学] G353 [文化科学—情报学]

引文网络
相关文献

参考文献12

1史忠植.知识发现.北京:清华大学出版社,2002,334-363
2王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17
3李勇,桑艳艳.网络文本数据分类技术与实现算法[J].情报学报,2002,21(1):21-26. 被引量：29
4庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
5相玉红,姚小军,张瑞生,刘满仓,胡之德,范波涛.用概率神经网络对多环芳烃的致癌性分类[J].兰州大学学报（自然科学版）,2002,38(4):55-60. 被引量：9
6R.D.Romero et al.Optical Chinese character recognition using probabilistic neural networks.Pattern Recognition,1997,30(8):1279～1292
7Z.R.Yang et al.Probabilistic neural networks in bankruptcy prediction.Journal of Business Research,1999,44:67～74
8陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
9李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
10朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29

二级参考文献25

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
3鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
5戴乾圜.化学致癌剂及化学致癌机理的研究，多环芳烃致癌性能的定量分子轨道模型--双区理论[J].中国科学：B辑,1979,(10):964-977.
6Yang Yiming，Proceedings of the 14th International Conference on Machine rning，1997年，412页
7Yang Yiming，Information Retrieval，1999年，1卷，1/2期，69页
8Yang Yiming，Proceedings ICML 97 14th Int Conference on Machine Learning，1997年
9李国臣，中文信息学报，1997年，13卷，4期，10页
10Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年

共引文献544

1王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
2安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
3蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
4陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
5李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
6蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
7张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
8赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
9兰东俊,朱精南.网页视图的重构与转化[J].计算机应用,2003,23(z2):158-159. 被引量：1
10许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1

同被引文献162

1王成儒,王金甲,李静.一种用于说话人辨认的概率神经网络的MCE训练算法[J].仪器仪表学报,2002,23(z3):154-156. 被引量：4
2许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
3陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
4陈雪天,李荣陆.使用最大熵模型进行文本分类[J].计算机工程与应用,2004,40(35):78-79. 被引量：4
5翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
6李斗,李弼程.一种神经网络文本分类器的设计与实现[J].计算机工程与应用,2005,41(17):107-109. 被引量：2
7孙豫峰.基于概率神经网络的蛋白质亚细胞定位[J].太原师范学院学报（自然科学版）,2005,4(2):23-25. 被引量：2
8张庆国,张宏伟,张君玉.一种基于k最近邻的快速文本分类方法[J].中国科学院研究生院学报,2005,22(5):554-559. 被引量：14
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10刘晓婷,鹿蕾.图书自动分类系统非精确推理模型的研究与设计[J].现代电子技术,2005,28(24):69-72. 被引量：1

引证文献14

1谷雷,杨青,王大志.概率神经网络在化工过程故障检测中的应用[J].控制工程,2008,15(S1):128-130. 被引量：8
2白如江.基于粗糙集和RBF神经网络的文本自动分类方法[J].现代图书情报技术,2006(6):47-51. 被引量：3
3白如江,王效岳.基于粗糙集理论和BP神经网络的文本自动分类方法研究[J].山东大学学报（理学版）,2006,41(3):79-84. 被引量：3
4王效岳,白如江.一种基于粗糙-神经网络的文本自动分类方法[J].情报学报,2006,25(4):475-480. 被引量：1
5梁刚健,赵春晖,许增福.基于级连式支持向量机的文本自动分类算法[J].黑龙江大学自然科学学报,2006,23(6):814-817.
6张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
7赵海军,李欣,杨炳儒.科研管理中文献自动跟踪系统的开发[J].天津工业大学学报,2008,27(1):67-69.
8谷雷,杨青,王大志.基于小波分析与概率神经网络的化工过程故障诊断[J].工业仪表与自动化装置,2008(3):8-11. 被引量：4
9胡健,董跃华,杨炳儒.基于关键词的WEB文献自动跟踪系统的实现方法[J].南昌大学学报（理科版）,2008,32(3):300-303. 被引量：2
10周法国,王映龙,杨炳儒,陈卓.基于发现特征子空间模型的文本分类算法[J].计算机应用研究,2009,26(10):3712-3715. 被引量：2

二级引证文献42

1耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
2陆丽娜.图书自动分类系统的设计研究[J].现代情报,2008,28(3):171-172. 被引量：2
3张涛,傅丽芳.基于粗糙集及RBF网络的英文字母识别[J].计算机应用与软件,2008,25(11):210-213. 被引量：1
4张燕平,徐庆鹏,苏守宝,邢猛.一种基于贪婪覆盖的文本分类方法[J].计算机技术与发展,2009,19(1):74-76. 被引量：1
5刘锋,唐佳,仲红.一种基于RBF神经网络的XML文本分类方法[J].计算机技术与发展,2009,19(8):34-36. 被引量：3
6陈新元.近年来我国分类检索语言研究热点综述[J].科技情报开发与经济,2009,19(20):133-136. 被引量：1
7白似雪,万晶.用时效曲线拟合改进PageRank算法[J].南昌大学学报（工科版）,2009,31(3):234-237. 被引量：1
8李建锋.一种基于Rough-GA-BP的文本分类算法[J].计算机应用与软件,2010,27(2):124-125.
9赵小强,王新明.基于改进核主元分析的TE过程故障诊断[J].工业仪表与自动化装置,2010(3):7-11. 被引量：3
10张燕平,乔立秋,朱远枫,徐庆鹏.一种基于资源优化神经网络(RON)的文本分类方法[J].计算机应用与软件,2010,27(7):33-36.

1施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
2朱妍霖,王琳.基层数字档案室建设之我见[J].四川档案,2016(3):27-28. 被引量：1
3杨天庆.地道与不足——评析《会场没了“BP”声》[J].当代劳模,2002,0(10):38-38.
4商惠.住高层是不是更危险[J].青年科学,2008(Z2):54-54.
5聂珍.一种基于径向基网络的读者流失分析模型[J].现代情报,2010,30(6):27-30. 被引量：3
6梁绍红.如何建设基层数字档案室建设[J].浙江档案,2009(6):50-51. 被引量：9
7谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
8顾永跟.自动分类探讨[J].湖州师专学报,1995,17(5):15-17.
9李果,沈晓勇,王应明,庄文平.用神经网络方法进行DEA有效预测[J].预测,1999,18(5):64-66. 被引量：6
10鲍国海.EI网络数据库收录的中国科技期刊综合分析(1978～2006年)[J].中国科技期刊研究,2007,18(3):393-397. 被引量：12

情报学报

2004年第2期

浏览历史

内容加载中请稍等...

基于概率神经网络的文本自动分类研究被引量：14

参考文献12

二级参考文献25

共引文献544

同被引文献162

引证文献14

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于概率神经网络的文本自动分类研究 被引量：14

参考文献12

二级参考文献25

共引文献544

同被引文献162

引证文献14

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于概率神经网络的文本自动分类研究被引量：14