一种新的网页自动分类预处理方法

A New Approach to Preprocessing For HomePage Auto Classification

下载PDF

导出

摘要介绍了一种常用的文件类型HTML文件的文本信息预处理方法,该方法能够快速提取网页文本。实验表明,该预处理方法具有较好的分类效果。 The paper proposes a text information preprocessing for html file. This method can fast extract the homepage text. The experiment shows that this method has the better classification effect.

作者曹文梁

机构地区江西理工大学应用科学学院

出处《科技广场》 2008年第5期148-150,共3页 Science Mosaic

关键词预处理 HTML 网页自动分类 Preprocessing HTML HomePage Auto Classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1刘冬梅,王俊义.HTML文本自动分类预处理方法的研究应用[J].内蒙古大学学报（自然科学版）,2007,38(1):75-78. 被引量：4
2张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1

二级参考文献14

1YANG Yiming.An Evalnation of statistical approaches to text categorization[J].Journal of Information retrieval.1999,1(1/2):67～88.
2The World Wide Web Consortium (W3C).HTML 4.01 Specification[S].http:// www.w3.org/TR/html4/24.[1999-12].
3Hammer J,Garcia-Molina H,Cho J,et al.Extracting semistructured information from the web[J].In Workshop on management of semistructured data,1997,26(4):18～25.
4张俐,李星,陆大.中文网页自动分类新算法[J].清华大学学报（自然科学版）,2000,40(1):39-42. 被引量：18
5吕津,赵明生.对因特网上自动信息提取的研究[J].数据通信,2000(1):5-8. 被引量：14
6朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29
7李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
8李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
9张义忠,赵明生,朱精南.基于内容的网页特征提取[J].计算机工程与应用,2001,37(10):1-3. 被引量：9
10孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

共引文献3

1汪志强,冷志杰.农场经济统计数字化系统的网络实现[J].农业网络信息,2009(2):27-30. 被引量：1
2陆丽娜.图书自动分类系统的设计研究[J].现代情报,2008,28(3):171-172. 被引量：2
3刘竟,侯汉清.学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验[J].情报学报,2009,28(1):114-120. 被引量：2

1张如云.文本配色在网页设计中的应用研究[J].办公自动化,2016,21(19):57-58.
2田苗苗.基于决策树的文本分类研究[J].吉林师范大学学报（自然科学版）,2008,29(1):54-56. 被引量：9
3如何快速提取大量目录中的文件？[J].软件,2003,24(10):90-90.
4快速提取大量文章标题[J].电脑爱好者,2003(20):27-28.
5林丽华.快速提取来自特定发件人的附件[J].电脑迷,2011(22):77-77.
6Word2003快速提取文档中的英文[J].电脑爱好者（普及版）,2011(A01):54-54.
7云中月.快速提取Word文档中的图片[J].网络与信息,2008(9):38-38.
8李锐.网页文本分类挖掘的几种算法研究[J].福建电脑,2008,24(10):36-36. 被引量：2
9软件速递[J].大众硬件,2003(8):130-130.
10小抄速记[J].电脑爱好者,2008,0(21):61-61.

科技广场

2008年第5期

浏览历史

内容加载中请稍等...

一种新的网页自动分类预处理方法

参考文献2

二级参考文献14

共引文献3

相关作者

相关机构

相关主题

浏览历史