可分性判据在中文网页分类中的应用被引量：5

A Separable Criterion Applying in Chinese Web Page Classification

下载PDF

导出

摘要提出了一种改进的基于统计的中文网页的分类算法，通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究，我们对贝叶斯模型分类算法进行了改进，提出了利用一种基于概率分布的可分性判据分类方法，即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化，因而具有较高的分类精确率和召回率。 This paper presents a modified statistic Chinese web page classification algorithm.Similarity based method and Bayes model based method are the popular approaches for text classification.In this paper, we modified Bayes model method,then uses the probability likelihood ratio of each class to increase the separability of feature words vectors.In the following method:Similarity based method,Bayes model based method,modified Bayes model based method.The experiment shows that among these methods,the modified algorithm not only presents the maximum distance between classes,but also improves precision and recall.

作者秦兵郑实福刘挺张刚李生

机构地区哈尔滨工业大学信息检索组

出处《微处理机》 2002年第1期26-28,共3页 Microprocessors

关键词可分性判据贝叶斯方法文本概率模型中文网页分类计算机网络 separable criterion,Bayes model,text probability model,web page classification

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献71

1彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
2诸青,郁亦明.文献自动分类的分析与研究[J].现代图书情报技术,1985(4):40-46. 被引量：8
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
5赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
6邓茜,林红.中文新闻信息自动分类标引的构想与实现[J].中国传媒科技,2005(9):19-21. 被引量：2
7刘华.基于语料库的领域词语聚类C#实现[J].计算机工程与应用,2005,41(36):167-169. 被引量：3
8刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
9鲁明羽,沈抖,郭崇慧,陆玉昌.面向网页分类的网页摘要方法[J].电子学报,2006,34(8):1475-1480. 被引量：5
10姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22

引证文献5

1李红宇,刘庆江.中文自动分类在搜索引擎中的应用研究[J].计算机科学,2008,35(5):292-293. 被引量：2
2钱爱兵,江岚.基于标题的中文新闻网页自动分类[J].现代图书情报技术,2008(10):59-68. 被引量：7
3王树西,夏增艳.一种区分索引与信息的网页分类数学模型及证明[J].计算机科学,2014,41(B11):307-312.
4荣光,张化祥.文本分类在搜索引擎性能中的应用[J].科技致富向导,2008,0(12X):14-15. 被引量：1
5曹树金,杨涛.自动分类在搜索引擎性能优化中的应用[J].情报科学,2004,22(2):213-219. 被引量：12

二级引证文献21

1陈思彤.泳池中有个美丽女孩——记蝶泳世界冠军周雅菲[J].游泳,2005(4):47-49.
2刘臻.个性化新闻搜索系统的研究[J].浙江万里学院学报,2005,18(4):32-34.
3李孟臣.VSM与LSI中的正交假设[J].现代情报,2005,25(8):223-224. 被引量：1
4田甜.文档自动分类的方法探讨[J].情报杂志,2006,25(2):77-78. 被引量：1
5刘梦燕.搜索引擎分类体系及其性能优化初探[J].高校图书馆工作,2006,26(2):37-39. 被引量：2
6柯佳,程显毅,李晓薇.基于用户兴趣反馈的智能合作过滤模型的研究[J].计算机工程与设计,2007,28(7):1659-1662. 被引量：1
7原福永,于歌,崔春华.基于特征选择的网页分类方法研究[J].计算机工程与设计,2007,28(17):4282-4284. 被引量：3
8王涛.文本自动分类研究[J].图书馆学研究,2007(12):40-43. 被引量：2
9赵天昀.多分类SVM在企业竞争情报自动分类中的应用[J].现代情报,2008,28(10):184-186. 被引量：3
10林群霞,黎小平.网络信息检索及其前沿技术的发展[J].惠州学院学报,2009,29(3):69-73. 被引量：3

1薛松,李雷.基于类内离散度的最小二乘支持向量机[J].计算机技术与发展,2015,25(4):71-74.
2王永,程灿,戴明军,孙永.一种半监督支持向量机优化方法[J].工矿自动化,2010,36(12):47-50. 被引量：2
3应文豪,王士同.基于相似度差的大间隔快速学习模型[J].计算机科学,2013,40(8):239-244. 被引量：1
4苏小英,陈家琪.基于间隔最大化的自动文本分类模型[J].计算机工程与设计,2006,27(12):2169-2171.
5刘雄.k－近邻法与支持向量分类对电商顾客行为预测效果的对比研究[J].财讯,2016,0(24):73-74. 被引量：1
6刘建华,龚松杰.模糊最小包含球支持向量机[J].计算机工程,2013,39(1):183-186.
7许洪贵,赵琨,田英杰.鲁棒半监督ν-支持向量分类机[J].系统科学与数学,2010,30(2):265-273.
8陶剑文,王士同.总间隔模糊超球学习机[J].模式识别与人工智能,2012,25(2):237-247.
9罗琦.一种最大分类间隔SVDD的多类文本分类算法[J].电讯技术,2014,54(4):496-499. 被引量：2
10于华,刘忠宝.模糊大间隔最小超球模型[J].计算机应用研究,2017,34(3):658-660.

微处理机

2002年第1期

浏览历史

内容加载中请稍等...

可分性判据在中文网页分类中的应用被引量：5

同被引文献71

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

可分性判据在中文网页分类中的应用 被引量：5

同被引文献71

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

可分性判据在中文网页分类中的应用被引量：5