期刊文献+

领域Web文本采集与分类系统研究

下载PDF
导出
摘要 本文以机械领域挖掘机为主题,介绍了一种面向领域的Web文本采集与分类系统实现方法,将专业词库与特征选择相结合,逐步筛选和更新主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;采用基于内容分析的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本;根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类。
作者 卫莉莉 王煜
机构地区 洛阳理工学院
出处 《电子世界》 2012年第21期80-81,共2页 Electronics World
基金 河南省教育厅自然科学研究计划项目(No.12B520033)
  • 相关文献

参考文献7

  • 1J.Han et al..Mining frequent patterns without candidate generation.In Proceedings of the 2000 ACM SIGMOD Conference on Management of Data,Dallas,TX,2000:1 - 12.
  • 2魏松,钟义信,王翔英.中文Web文本挖掘系统WebTextMiner开发[J].计算机应用研究,2006,23(6):211-213. 被引量:1
  • 3沈记全,唐菁,杨炳儒.weh文本挖掘系统及其分类算法的研究与实现.计算机工程2009.03(2):13-14.
  • 4CHAKRABARTI S,BERG DEN VAN M.Focused Crawling:A new approach to Topic-Specific Web Resourse Discovery[q.In Proceedings of the 8th International WWAX7 con ference,Toronto,Canada,1999.
  • 5刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量:14
  • 6Chakrabati S,Punera K,Subram anyam M.Accelerated focused crawling through online relevance feedback,WWW2002,May 7-11,2002 Honolulu,Hawaii,USA. http//www.csberkeley.edu/-soumen/doc/www2002m/p336- chakrabarfi.pdf(Accessed Nov.8,2006).
  • 7M.Ehrig,A2VIaedche.Ontology-focused Crawling of Web Documents.In Proceedings of the 2003 ACM symposium on Applied. une 2003:1174- 1178.

二级参考文献15

  • 1欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量:34
  • 2吴安清,张颖江,涂军.主题搜索ROBOT综合爬行策略的研究[J].武汉理工大学学报,2006,28(2):74-76. 被引量:6
  • 3IBM Intelligent Miner for Text[EB/OL].http://www.software.ibm.com/iminer/fortext.
  • 4Tutorial:TextAnalyst Introduction[EB/OL].http://www.megapu-ter.com/products/ta.
  • 5杜阿宁,方滨兴,胡铭曾.一个基于决策树的中文Web文本挖掘系统[M].北京:高等教育出版社,2003.172-177.
  • 6DEBRA P, HOUBEN G, KORNATZKY Y, et al. Information retrieval in distributed hypertexts[ C]// 4th RIAO Conference. New York:Computer-assisted Information Retrieval, 1994:481 -491.
  • 7HERSEOVICI M, JACOV M, MAREK Y S. The Shark-search algorithm - an application: Tailored Web site mapping[ J]. Computer Networks and ISDN Systems, 1998, 30(17) : 317 - 326.
  • 8CHEN H. CHUNG Y M, RAMSEY M, et al. An intelligent personal spider (agent) for dynamic Internet/Intranet searching[ J]. Decision Support Systems , 1998, 23(1) : 41 -58.
  • 9王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量:275
  • 10孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量:36

共引文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部