基于概念的Web文本分类方法及实现

Method and realization of Web text classification based on concepts

下载PDF

导出

摘要通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。 The extraction of plain text content of Web pages is achieved by studying the html page structure,. The commonly used method of feature extraction and text classification is researched. The concept feature extraction method based on the concept dictionary is proposed and the simple vector fuzzy distance matching algorithm is used to classify the text. A Chinese concept of Web-based text classification system is designed and implemented. Through comparative analysis of experimental data, the classification accuracy is up to 89% before the introduction of the concept of characteristic while the classification average efficiency is improved greatly to more than 95 % after the introduction.

作者郑瑞娟张仰森

机构地区北京信息科技大学智能信息处理研究所

出处《北京信息科技大学学报（自然科学版）》 2013年第2期77-81,共5页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金资助项目(61070119) 北京大学计算语言学教育部重点实验室开放课题基金资助项目(KLCL-1005) 北京市属市管高等学校人才强教计划基金资助项目(PHR201007131) 北京市教委专项基金(PXM2012-014224-000020)

关键词 WEB文本分类概念特征概念词典模糊距离匹配算法 Web text classification concept characteristic concept dictionary fuzzy distancematching algorithms

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1高淑琴.Web文本分类技术研究现状述评[J].图书情报知识,2008,25(3):81-86. 被引量：7
2周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
3张小艳,宋丽平.论文本分类中特征选择方法[J].现代情报,2009,29(3):131-133. 被引量：2
4罗三定,陆文彦,王浩,贾维嘉.基于概念的文本类别特征提取与文本模糊匹配[J].计算机工程与应用,2002,38(16):97-99. 被引量：22
5苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(6):193-195. 被引量：17
6张东礼,汪东升,郑纬民.基于VSM的中文文本分类系统的设计与实现[J].清华大学学报（自然科学版）,2003,43(9):1288-1291. 被引量：16
7冯永,李华,钟将,叶春晓.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学,2010,37(1):251-254. 被引量：21
8王治和,杨延娇.对简单向量距离文本分类算法的改进[J].计算机科学,2009,36(1):236-238. 被引量：4

二级参考文献90

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
7王本年,高阳,陈世福,谢俊元.Web智能研究现状与发展趋势[J].计算机研究与发展,2005,42(5):721-727. 被引量：23
8陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
9冯冲,陈肇雄,黄河燕,关真珍.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58. 被引量：6
10曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48

共引文献242

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7黄晓斌,夏明春,叶楚璇.数字图书馆信息过滤系统初探[J].现代图书情报技术,2004(6):6-10. 被引量：9
8翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
9罗三定,曾亮.基于概念网的智能信息服务系统的设计与实现[J].南华大学学报（理工版）,2004,18(1):44-48. 被引量：1
10王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2

1许鑫,曹昉,袁翀.利用移动Agent技术改进基于概念的信息检索[J].图书情报工作,2003,47(1):86-90. 被引量：3
2桑金歌,于国莉,王守江.基于模糊属性和BP神经网络的彩色图像分割方法[J].计算机教育,2008(4):126-129.
3王建维,张建明,魏小鹏,张德珍.产品方案的模糊协同评价方法[J].农业机械学报,2005,36(3):106-110. 被引量：8
4江红,吴立德,沙新时.机器翻译系统中概念词典的设计与实现[J].计算机研究与发展,1995,32(3):13-18. 被引量：4
5丁银军,武仲科.基于模糊距离的红外图像小目标的精准匹配算法研究[J].北京师范大学学报（自然科学版）,2013,49(6):582-585.
6赵小谦,郑彦,储海庆.概念树在短文本语义相似度上的应用[J].计算机技术与发展,2012,22(6):159-162. 被引量：4
7廖荣福,李彦,李文强.面向产品创新设计的知识库研究[J].机械设计,2008,25(7):5-10. 被引量：8
8刘慧林,冯汝鹏.新的模糊数的模糊距离[J].模糊系统与数学,2005,19(2):106-109. 被引量：8
9王洪瑞,郭唐禾,宋维公.基于模糊距离的BP网络板形信号模式识别的研究[J].东北重型机械学院学报,1997,21(4):283-286. 被引量：4
10贾天奇,张冲,郑姣,郭希娟.基于模糊距离的自适应阈值分割算法[J].计算机工程与设计,2014,35(3):857-860. 被引量：3

北京信息科技大学学报（自然科学版）

2013年第2期

浏览历史

内容加载中请稍等...

基于概念的Web文本分类方法及实现

参考文献8

二级参考文献90

共引文献242

相关作者

相关机构

相关主题

浏览历史