网页分类中特征提取方法的比较与改进被引量：6

THE COMPARISON AND IMPROVEMENT OF FEATURE-SELECTION METHOD IN WEB PAGE CLASSIFICATION

下载PDF

导出

摘要在传统的特征提取算法的基础上,对CHI公式做了两点改进,并结合KNN算法进行了分类测试比较,通过实验证明本文所采用的特征词提取方式,在一定程度上,能够得到较高的分类准确率,存在一定的合理性. The document, on the basis of traditional feature extraction algorithm, makes two improvements on CHI formula and makes classification testing comparison combined with KNN algorithm. It proves via experiment that the feature extraction method adopted in the document can acquire higher classification accuracy rate and certain nationality on certain degree.

作者呼声波刘希玉

机构地区山东师范大学图书馆山东师范大学管理与经济学院

出处《山东师范大学学报（自然科学版）》 CAS 2008年第3期35-37,53,共4页 Journal of Shandong Normal University(Natural Science)

基金泰山学者建设工程专项经费资助项目山东省自然科学基金重大项目(Z2004G02)

关键词特征提取 χ^2 文本分类 feature extraction χ^2 web classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2Yang Yiming. Pedersen J O. A Comparative Study on Feature Selection in Text Categorization[A]. Proceedings of the Fourteenth International Conference on Machine Learning[C ]. Nashville: Morgan Kaufmann, 1997.412-420
3张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
4唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
5Abdelwadood Mesleh. Support vector machines based Arabic language text classification system[ A]. Proceedings of the 12th WSEAS International Conference on Applied Mathematics[ C ]. Cairo, Egypt: WSEAS,2007.228 - 233
6李桂芳,刘培玉.一种基于改进遗传算法的文本特征选择方法[J].山东师范大学学报（自然科学版）,2007,22(2):17-19. 被引量：4

二级参考文献30

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
3柳伯超,秦茂玲,刘弘.基于遗传算法的多约束背包问题求解方案[J].山东师范大学学报（自然科学版）,2007,22(1):19-22. 被引量：8
4Yang Yiming,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th International Conference on Machine Learning ICML97,1997:412-420.
5Karypis G,Han E.Fast supervised dimensionality reduction algorithm with applications to document categorization and retrieval[C]// Proc of the 9th ACM International Conference on Information and Knowledge Management CIKM-00.New York,US:ACM Press,2000: 228-233.
6Baker L D,McCallum A K.Distributional clustering of words for text classification[C]//Proc of the 21st Annual International ACM SIGIR, 1998 :96-103.
7谭松波语料库[DB/OL].http://lcc.software.ict.ac.cn/-tansongbo/corpusl.php.
8Jolliffe I T.Principal component analysis[M].New York:Spriger Verlag, 1986.
9Martinez A M,Kak A C.PCA versus LDA[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.
10D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.

共引文献162

1陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
2修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
3钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
5尚文倩,瞿有利,黄厚宽,朱海滨,林永民,董红斌.基于基尼的模糊kNN分类器(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):87-90.
6周琳.摄影,靠的就是眼力[J].军事记者,2006(10):52-52.
7尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
8崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
9司广涛,李培峰,朱巧明,李军辉.基于最大熵模型的邮件过滤系统研究[J].计算机工程与应用,2006,42(32):119-121.
10贾宁.使用概念基元特征进行自动文本分类[J].计算机工程与应用,2007,43(1):24-26. 被引量：6

同被引文献64

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
4胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6李明杰.特征抽取方法在网页分类中的应用[J].常熟理工学院学报,2005,19(4):106-108. 被引量：1
7王晔,黄上腾.基于潜在链接分析的FTSVM网页分类[J].计算机工程,2006,32(10):12-14. 被引量：3
8谷峰,刘晨曦,吴扬扬.基于序列数据挖掘的中文网页特征选择方法[J].山东大学学报（理学版）,2006,41(3):97-100. 被引量：2
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
10张博锋,苏金树,徐昕.一种新的多类SVM方法及其在文本分类中的应用[J].广西师范大学学报（自然科学版）,2006,24(4):95-98. 被引量：9

引证文献6

1陈笑筑,王东,陈笑蓉.基于页面标签的网页分类研究[J].商场现代化,2009(19):100-101. 被引量：2
2袁野,封化民.基于Vague集的Web内容安全文本分类[J].广西师范大学学报（自然科学版）,2010,28(1):147-152. 被引量：3
3陈振亚,陈光辉,徐建民.一种基于本体的文本特征选取方法[J].广西师范大学学报（自然科学版）,2011,29(1):143-146. 被引量：2
4于洪波.网页特征提取技术研究[J].山东理工大学学报（自然科学版）,2011,25(2):107-110. 被引量：3
5薛永大.网页分类技术研究综述[J].电脑知识与技术,2012,8(9):5958-5961. 被引量：2
6桑书娟,王敏.一种结合文档频率和互信息的特征项提取方法[J].电脑知识与技术（过刊）,2012,18(4X):2593-2594. 被引量：1

二级引证文献13

1郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
2袁鼎荣,谢扬才,陆广泉,刘星.一种新的基于软集合理论的文本分类方法[J].广西师范大学学报（自然科学版）,2011,29(1):129-132. 被引量：2
3李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1
4李力沛,罗颖.面向Web检索服务的个性化词典的研究与实现[J].计算机时代,2012(11):1-3.
5王爱领.基于改进的Vague-Topsis方法的公租房轮候排序评价研究[J].郑州大学学报（理学版）,2013,45(3):115-119. 被引量：5
6李立.特征提取技术在个性化网页推荐系统中的应用[J].中国新通信,2013,15(19):60-60.
7杨现民,余胜泉.学习资源语义特征自动提取研究[J].中国电化教育,2013(11):74-80. 被引量：9
8潘光强,周军,何洋.基于朴素贝叶斯分类模型的文本特征选择研究[J].电脑知识与技术,2014(1):133-137.
9王石榴,林之丹.科技期刊语义化研究[J].广东科技,2014,23(8):216-218.
10王爱领.基于改进的Vague群决策的工程绿色施工风险评价研究[J].郑州大学学报（理学版）,2014,46(4):115-120. 被引量：4

1李钊,李鸿.几种去噪方法的比较与改进[J].工业控制计算机,2012,25(8):9-10. 被引量：3
2王梦兰.智能优化算法的比较与改进[J].中国水运,2012(12):48-49. 被引量：3
3周珍,吴祈宗.Vague集距离的比较与改进[J].系统工程学报,2007,22(5):486-491. 被引量：1
4王明令.中文文本分类中特征提取方法的比较与改进[J].兰州工业高等专科学校学报,2010,17(6):1-4.
5申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
6田露飞.常见进程调度算法的比较与改进[J].计算机光盘软件与应用,2014,17(16):46-47. 被引量：3
7张毅,张冬梅.搜索引擎PageRank算法的比较与改进[J].科技创新导报,2008,5(21):18-18. 被引量：2
8周战荣,张清华,王莲芬,李爱君.干涉条纹边缘检测方法的比较与改进[J].光学技术,2007,33(S1):133-134.
9崔凤奎,王晓强,张丰收,王永森.二值图像细化算法的比较与改进[J].洛阳工学院学报,1997,18(4):48-52. 被引量：35
10俞呈阳,周密.基于视频序列特性的运动估计算法比较与改进[J].电视技术,2008,32(z1):27-29.

山东师范大学学报（自然科学版）

2008年第3期

浏览历史

内容加载中请稍等...

网页分类中特征提取方法的比较与改进被引量：6

参考文献6

二级参考文献30

共引文献162

同被引文献64

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

网页分类中特征提取方法的比较与改进 被引量：6

参考文献6

二级参考文献30

共引文献162

同被引文献64

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

网页分类中特征提取方法的比较与改进被引量：6