基于改进HTML-Tree的中文网页特征向量提取方法被引量：3

A method of feature selection for Chinese Web page based on improved HTML-Tree

下载PDF

导出

摘要中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献。经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度。 Feature selection for Chinese web page is a key to improving accuracy and recall of Chinese web page classification. A method of preprocessing web page based on improved HTML-Tree and MTML tag weights is proposed with studies on the structure of HTML page. And feature selection for web page is thus processed based on this method. This method takes well advantage of featmes of different type web pages and takes the conmbutions variety information weights of web page make into consideration. The experimental results show the proposed method is good for improving efficiency of web page feature selection and accuracy and recall of Chinese web page classification.

作者李铭岳周军

机构地区上海交通大学图像通信与信息处理研究所上海市数字媒体处理与传输重点实验室

出处《信息技术》 2009年第1期10-14,共5页 Information Technology

基金国家自然科学基金CNGI项目(CNG1-04-15-2A) 上海市科学技术委员会资助项目(05DZ22102)

关键词 HTML-Tree 特征向量网页分类 HTML-Tree feature selection web page classification

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Fang Yuan, Liu Yang, Ge Yu. Improving the K-NN and applying it in to Chinese text classification [ C ]. Guangzhou: Proceedings of the Fourth lntemational Conference on Machine Leaming and Cybernetics, August 2005 : 18 - 21.
2Jiu-Zhen Hang. SVM based Chinese web page automatic classification [C]. Xi' an: Proceedings of the Second Intemational Conference on Machine Learning and Cybernetics, November 2003:2265 - 2268.
3HTMIA. 01 Specification [ EB/OJ ]. http://www, w3c. org/TR/html4/, W3C Recommendation 24 December 1999.
4宋斌,方小璐.基于网页特征的TFIDF改进算法[J].微计算机应用,2002,23(1):18-20. 被引量：9
5许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
6李晓明,阎宏飞,王继民.搜索引擎一原理、技术与系统[M].北京:科学出版社,2006.
7Yue-Heng Sun, Pi-Lian He, Zhi-Gang Chen. An improved term weighting scheme for vector space model [ C ]. Shanghai : Proceedings of the Third International Conference on Machine learning and Cybernetics, August 2004:1692 - 1695.
8中文网页分类训练集CCT2002-v1.1[ EB/OL]. http ://www. cwirf.org/SharedRes/DataSet/cct, html, 2002.
9中文网页分类评测[EB/OL].http ://www. cwirf, org/2007Web Track/cct/cct2(X)7result. zip, 2007 - 3.

二级参考文献11

1Yang Y. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information (Retrieval 1 ),1999:69-90.
2Mladenic M. Feature Subset Selection in Text-learning. http://www.ai.ijs.si/DunjaMladenic.
3Wulfekuhler M R,Punch W F,Finding Salient Features for Personal Web Page Categorization. In Proc.of 6th International World Wide Web Conference,1997.
4Salton G,Wong A,Yang C. A Vector Space Model for Automatic Indexing. Communications of the ACM,1995,18:613-620.
5Lin Shian-hua. Extracting Classification Knowledge of Intemet Documents With Mining Term Associations: a Semantic Approach. In Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:241-240.
6Cohen W J,Singer Y. Context-sensitive Learning Methods for Text Categorization. In SIGIR'96:Proc. 19th Annual Int. ACM SIGIR Conf.on Research and Development in Information Retrieval,1996:307-315.
7Yang Y,Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In the 14th Int. Conf. on Machine Learning,1997:412-420.
8Yang Y,Liu X. A Re-examination of Text Categorization Methods.In 22nd Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval(SIGIR'99),1999:42-49.
9汪晓岩,胡庆生,李斌,庄镇泉.面向Internet的个性化智能信息检索[J].计算机研究与发展,1999,36(9):1039-1046. 被引量：81
10谢宜辰.网络智能文本分类系统的研究与实现[J].湘潭大学自然科学学报,2000,22(1):12-15. 被引量：3

共引文献30

1朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
2朱征宇,张小林,熊茜,谢祈鸿.基于用户兴趣子类的协作推荐算法[J].计算机科学,2005,32(10):176-180. 被引量：5
3陈浩声,李安,胡柏青.多层分类算法在维修信息挖掘中的应用[J].微计算机应用,2006,27(2):195-198.
4王圆,孙铁利,李杨.Web文本挖掘中的特征表示和特征提取[J].电脑知识与技术,2006,1(5):67-68. 被引量：2
5田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
6邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
7刘茵,苏一丹.一种基于网页结构特征的用户建模技术[J].电脑与电信,2007(5):51-52.
8徐国华.基于Web挖掘的一种个性化推荐算法[J].农业网络信息,2007(5):23-24. 被引量：1
9邓剑勋,邢永康.从文档集推导html标签影响因子的算法[J].计算机科学,2007,34(10):226-228.
10蔡巍,王永成,尹中航.一种无词典的从Web新闻页面抽取主题的算法[J].情报学报,2008,27(1):12-17. 被引量：2

同被引文献12

1王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
2赵燕,陈晓云,莫明辉,汤勇.基于用户群的智能主题爬虫[J].广西师范大学学报（自然科学版）,2007,25(2):230-233. 被引量：3
3Suman Tedla B E. Analyzing bias and quality of search engines using HIT. The University of Houston-Clear Lake, 2006 : 2--3.
4时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
5李涛,陈鹏,李哲.深度Web资源探测系统的研究与实现[J].微计算机信息,2007,23(33):185-187. 被引量：7
6王舜燕,李蕾,吴兵华.基于ID3分类算法的深度网络爬虫设计[J].现代图书情报技术,2008(6):41-45. 被引量：4
7李锐.网页文本分类挖掘的几种算法研究[J].福建电脑,2008,24(10):36-36. 被引量：2
8胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3):65-69. 被引量：5
9胡金柱,周星,舒江波,熊春秀.基于启发式规则的网页主题信息精确定位方法[J].计算机应用研究,2010,27(2):494-497. 被引量：6
10常红要,朱征宇.网页正文提取中与正文无关的图像清除技术[J].计算机技术与发展,2010,20(7):17-20. 被引量：1

引证文献3

1孙玲芳,黎维良.基于定题爬虫的网页分类的多级判定算法[J].科学技术与工程,2009,9(18):5534-5537. 被引量：1
2宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
3林帆,秦晓.一种基于爬虫和html特征提取的移动端跨应用资讯整合展示方案[J].数码世界,2019,0(11):9-9. 被引量：1

二级引证文献4

1焦赛美.网络爬虫技术的研究[J].琼州学院学报,2011,18(5):28-30. 被引量：9
2冉兆春.针对移动终端的网页设计优化研究[J].计算机光盘软件与应用,2013,16(8):300-300.
3耿瑞,李石君,尹为民.基于主题相关性和时间因素的改进PageRank算法[J].微电子学与计算机,2015,32(8):158-162. 被引量：1
4林秋芬,张更路.基于C#的乒乓球赛事信息爬虫设计[J].电脑编程技巧与维护,2020(1):8-10.

1朱晓琨.基于神经网络的电气设备故障诊断[J].现代电子技术,2009,32(22):130-131. 被引量：4
2吴青,刘三阳,杜喆.基于边界向量提取的模糊支持向量机方法[J].模式识别与人工智能,2008,21(3):332-337. 被引量：13
3李辉,陈锐,侯义斌,黄樟钦,张勇.基于复合特征向量提取的隐马尔可夫实时人脸识别算法[J].小型微型计算机系统,2008,29(2):329-332. 被引量：2
4王勇,郭慧.基于支持向量机的轮胎标识点颜色识别[J].华东理工大学学报（自然科学版）,2014,40(4):520-523. 被引量：1
5吴洪艳,黄道平.基于特征向量提取的核主元分析法[J].计算机科学,2009,36(7):185-187. 被引量：9
6郑琨,张杨,赖杰,李森森.基于支持向量机和特征向量提取的人脸识别框架[J].河北工业科技,2016,33(1):58-62. 被引量：4
7叶雷,高盛祥,余正涛,秦广顺,洪旭东.基于事件元素无向图的查询扩展方法[J].中文信息学报,2017,31(1):17-22. 被引量：3
8邓晓刚,田学民.基于特征向量提取的核回归建模方法研究[J].控制工程,2010,17(4):517-520.
9梁虹,吴建平,冯涛,程满.微观交通仿真与GIS数据共享[J].计算机应用,2008,28(2):499-502. 被引量：2
10张锐,杨宣访.基于改进BP神经网络的模拟电路故障诊断研究[J].兵工自动化,2009,28(9):71-73. 被引量：4

信息技术

2009年第1期

浏览历史

内容加载中请稍等...

基于改进HTML-Tree的中文网页特征向量提取方法被引量：3

参考文献9

二级参考文献11

共引文献30

同被引文献12

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进HTML-Tree的中文网页特征向量提取方法 被引量：3

参考文献9

二级参考文献11

共引文献30

同被引文献12

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进HTML-Tree的中文网页特征向量提取方法被引量：3