Web文本分类技术研究及其实现被引量：5

Research and Implementation of Web Text Classification

下载PDF

导出

摘要随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。 With the development of Intemet at full speed,the research of Web text classification has already got people＇s close concem.A large amount of research results have been got. This paper has discussed several key technologies in the course of Web text classification in detail at first; Then directing against the traditional classification algorithm of Web text lack of cngnitive independence and studying again, it proposes an extended Web text classification model and algorithm. Through a series of experiments, can get the result that such algo- rithm has higher classification precision and recall.

作者饶文碧柯慧燕

机构地区武汉理工大学计算机学院

出处《计算机技术与发展》 2006年第3期116-118,共3页 Computer Technology and Development

关键词 WEB文本分类向量空间模型特征提取反馈判定 Web text classification vector space model feature extraction feedback and judge

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类方法的研究与实现[J].计算机应用,2004,24(S1):277-279. 被引量：19
3何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7

二级参考文献9

1Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
2Pawlak Z. Rough Sets. International Journal of Information and Computer Science, 1982, 11(5): 341-356
3Pawlak Z, Grzymla-Busse J. Rough Sets. Communications of the ACM, 1995,38(11):88-95
4Deerwester S, Dumains S, Fumas G, et al. Indexing by Latent Semantic Analysis [J]. Journal of the American Society for Information Science, 1990, 41(6):391-407
5Bao Yongguang, Aoyama S, Du Xiaoyong. A Rough Set-based Hybrid Method to Text Categorization. Second International Conference on Web Information Systems Engineering (WISE′01) Volumel.2002:254-261
6Chouchoulas A, Shen Q. A Rough Set-Based Approach to Text Classification. In 7th International Workshop, RSFDGrC99, Yamaguchi,Japan, 1999:118-129
7黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52
8刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75
9秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量：73

共引文献136

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
3胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
4王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
5徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
6吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
7王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
8朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
9谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
10丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.

同被引文献23

1胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
2郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
3郑小霞,钱锋.高斯核支持向量机分类和模型参数选择研究[J].计算机工程与应用,2006,42(1):77-79. 被引量：39
4王圆,孙铁利,李杨.Web文本挖掘中的特征表示和特征提取[J].电脑知识与技术,2006,1(5):67-68. 被引量：2
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7Inderjit S. Dhillon,Dharmendra S. Modha. Concept Decompositions for Large Sparse Text Data Using Clustering[J] 2001,Machine Learning(1-2):143～175
8索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
9熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
10何建英,陈蓉,徐淼,刘佳,于中华.基于类别特征向量表示的中文文本分类算法[J].计算机应用研究,2008,25(2):337-338. 被引量：11

引证文献5

1孙铁利,张妍,李晓微.文本挖掘中特征降维方法比较研究[J].电脑知识与技术,2008(1):201-204. 被引量：1
2晋幼丽,周明全,王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,19(11):35-37. 被引量：5
3庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010,18(3):70-74. 被引量：4
4王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
5柯尊柏,张建华,李昂,李光敏(指导).文本分类技术在名人数据筛选系统中的应用[J].电脑知识与技术,2019,0(1X):10-11. 被引量：1

二级引证文献14

1石芙芙,董祥军,陈修宽.Web文本分类中特征选择的研究[J].山东轻工业学院学报（自然科学版）,2009,23(3):22-24. 被引量：1
2侯亚南,黄映辉.用于形式背景提取的中文文本表示[J].计算机技术与发展,2010,20(9):36-39.
3马甲林,张桂珠,刘金岭.中英文文本分类系统异同因素的探讨[J].电脑学习,2011(2):111-112.
4何云,李辉,姚能坚,赵榕生.改进K-means算法实现移动通信行为特征分析[J].计算机技术与发展,2011,21(6):63-65. 被引量：1
5王煜,刘敏.基于支持向量机的规则零件检测技术研究[J].电子测量技术,2012,35(1):80-84. 被引量：7
6李戴维,李宁.基于Solr的分布式全文检索系统的研究与实现[J].计算机与现代化,2012(11):171-176. 被引量：23
7刘夫成,高尚.基于聚类和支持向量机的个人信誉评估方法[J].信息技术,2013,37(2):42-44. 被引量：1
8吴宏洲.分词技术的研究与应用——一种抽取新词的简便方法[J].软件工程师,2015(12):64-68. 被引量：3
9蔡松成,牛耘.基于最大期望算法的蛋白质交互关系识别[J].计算机技术与发展,2018,28(8):48-52.
10吴宏洲.分词技术的研究与应用——一种快速分词的实现[J].电脑知识与技术,2015,11(2X):179-182. 被引量：2

1饶文碧,柯慧燕,张丽.一种扩展的基于VSM的Web文本分类算法[J].计算机应用与软件,2006,23(10):113-115. 被引量：2
2张卫民,陈宏敏.几种特定判定形式的MC／DC评估分析[J].飞行器测控学报,2008,27(4):56-60. 被引量：1

计算机技术与发展

2006年第3期

浏览历史

内容加载中请稍等...

Web文本分类技术研究及其实现被引量：5

参考文献3

二级参考文献9

共引文献136

同被引文献23

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

Web文本分类技术研究及其实现 被引量：5

参考文献3

二级参考文献9

共引文献136

同被引文献23

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

Web文本分类技术研究及其实现被引量：5