基于权值优化的网页正文内容提取算法被引量：8

Content Extraction Algorithm of HTML Pages Based on Optimized Weight

下载PDF

导出

摘要目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%. With the increase in advertisement amount in HTML pages,it becomes more and more difficult to extract content accurately.In order to solve this problem,an algorithm of content extraction from HTML pages is proposed based on optimized weight.In this algorithm,first,the features of the content are analyzed to obtain the statistical features of the attributes by analyzing the characteristics of the content block in web pages.Then,in view of diffe-rent importance of the features,the weight and threshold of the features are optimized by using the particle swarm optimization algorithm,which further improves the performance of the algorithm.Finally,some experiments are performed to verify the effectiveness of the algorithm.The results show that,as compared with the algorithm with un-optimized weight,the proposed algorithm improves the recall rate of content extraction to 95.8% without reducing the precision.

作者吴麒陈兴蜀谭骏

机构地区四川大学计算机学院∥网络与可信计算研究所中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2011年第4期32-37,共6页 Journal of South China University of Technology(Natural Science Edition)

基金国家"973"计划项目(2007CB311106)

关键词权值优化正文内容提取特征属性统计特征准确率召回率 weight optimization content extraction feature attribute statistical feature precision recall rate

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Wang J Y,Lochovsky F H. Data-rich section extraction from HTML pages [ C ]//Proc of the 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society Press,2002:313-322.
2W3C DOM IG. Document object model[ EB/OL]. (2010- 6-5 ) http: //www. w3. org/DOM/.
3Lin S H, Ho J M. Discovering informative content blocks from web documents [ C ] //Proc of the ACM SIGKDD'02. Alberta : ACM ,2002 : 190-195.
4Lan Y, Liu B, Li X L. Eliminating noisy information in web pages for data mining [ C]//Proc of the Ninth ACM SIGKDD International Conference on Knowledge Disco- very and Data Mining. Washington : ACM,2003 : 296- 305.
5Debnath S, Mitra P, Pal N, et al. Automatic identification of informative sections of web pages [ J ]. IEEE Tran. on Knowledge and Data Engineering, 2005, 17 ( 9 ) : 1233- 1246.
6欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
7荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
8Suhit G, Gail K, David N, et al. DOM-based content extraction of HTML documents [ C]//Proc of the 12th International World Wide Web Conference. Budapest :ACM, 2003:207-217.
9Cai Deng, He Xiao-fei, Wen Ji-rong, et al. Block-level link analysis [ C ]//Proc of SIGIR'04. Sheffied : ACM, 2004 : 134-142.
10Song Rui-hua, Liu Hai-feng,Wen Ji-rong,et al. Learning block importance models for web pages [ C ] // Proc of World Wide Web Conference. New York: ACM, 2004: 343-348.

二级参考文献9

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4[1]Lin Shian-hua, Ho Jan-ming. Discovering informative content blocks from Web documents [A]. Proceeding of the 8th ACM SIG KDD International Conference on Knowledge Discovery and Data Mining [C]. Edmonton :ACM Press,2002.588 - 593.
5[2]Yi Lan,Liu Bing, Li Xiao-li. Eliminating noisy information in Web pages for data mining [A]. Proceeding of the 8th ACM SIG KDD International Conference on Knowledge Discovery and Data Mining [C]. Washington, DC: ACM Press ,2003. 296 - 305.
6[3]Kovacevic Milos, Dilligenti Michelangelo, Gori Marco,et al. Recognition of common areas in a Web page using a visualization approach [A]. Proceeding of the 10th International Conference on Artificial Intelligence: Methodology, Systems, Applications [C]. Varna: Springer,2002.203 - 212.
7[4]Gupta Suhit, Kaiser Gail E, Neistadt David. et al. DOMbased content extraction of HTML documents [A].Proce-eding of the 12th International World Wide Web Conference [C]. Budapest: ACM Press ,2003. 207 - 214.
8[5]Cai Deng, Yu Shi-peng, Wen Ji-rong, et al. Extracting content structure for Web pages Based on visual representation [A]. Proceeding of the 6th Asia Pacific Web Conference [C]. Xian: Springer,2003. 406 - 417.
9李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

共引文献83

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
5钟佳,王文涛.基于分块的超链引导的主题搜索改进算法[J].中南民族大学学报（自然科学版）,2006,25(2):84-87.
6许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
7刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
8徐薇.Web信息采集中页面分块技术的研究[J].武汉科技学院学报,2007,20(5):43-45. 被引量：2
9冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献76

1郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
2刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
7李连霞,马军,陈竹敏.基于多特征的网页内容提取研究[C].第三届和谐人机环境联合学术会议,2007:151-155
8Rahman A R, Alam H, Hartono R. Content Extraction from Html Documents[C]//Proc. of the 1st International Workshop on Web Document Analysis. Seattle, USA: [s. n.], 2001: 7-10.
9Liu Ling, Pu C, Han Wei. XWRAP: An XML-enabled Wrapper Construction System for Web Information Sources[C]//Proc. of International Conference on Data Engineering. San Diego, USA: [s. n.], 2000: 611-621.
10Cai Deng, Yu Shipeng, Wen Jirong, et al. Extracting Content Structure for Web Pages Based on Visual Representation[C]//Proc. of the 5th Asian-Pacific Web Conference. Xi'an, China: [s. n.], 2003: 406-417.

引证文献8

1王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
2龙珑,邓伟.绿色网络博文倾向性分析算法研究[J].计算机应用研究,2013,30(4):1095-1098. 被引量：1
3龙珑,邓伟.绿色网络网页正文内容提取算法[J].计算机工程,2013,39(7):252-256. 被引量：1
4李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学,2016,34(1):34-37. 被引量：7
5张盈利,夏小玲.非结构化病理文本的结构化信息抽取方法[J].医学信息学杂志,2016,37(4):54-58. 被引量：3
6向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
7顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：3
8陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计,2018,39(4):1017-1021. 被引量：3

二级引证文献26

1陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
2李波,石慧霞,王毅.一种基于同义词发现的文本扩充算法[J].重庆理工大学学报（自然科学）,2014,28(2):76-81. 被引量：4
3李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
4刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
5李欣,李绍稳,许高建,林建彬.基于正则抽取的竹种数据结构化方法研究[J].计算机技术与发展,2018,28(6):147-150.
6周娜,李秀霞,高丹,焦红.基于潜在主题的知识组合分析研究——以传播学为例[J].农业图书情报学刊,2018,30(9):85-90. 被引量：4
7何跃,丰月,赵书朋,马玉凤.基于知乎问答社区的内容推荐研究——以物流话题为例[J].数据分析与知识发现,2018,2(9):42-49. 被引量：6
8郑幸子.移动数字图书馆的图书分类系统设计[J].现代电子技术,2018,41(7):165-169. 被引量：6
9陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计,2018,39(4):1017-1021. 被引量：3
10何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2

1周雄志,段成华.一种基于特征值的数据仓库主题搜索方法[J].微型机与应用,2004,23(9):13-15.
2韩洪光,董晓平.创新始于联想[J].中国发明与专利,2010(1):30-30.
3马丽红,张学东,赵忠夫.基于正交Legendre矩的虹膜识别算法[J].计算机应用,2006,26(4):787-790. 被引量：2
4胡四元,陈伟.基于数据仓库和OLAP的电子馆务决策支持系统[J].图书馆学研究,2007(11):9-11. 被引量：1
5余成波,秦华锋.手指静脉图像特征提取算法的研究[J].计算机工程与应用,2008,44(24):175-177. 被引量：15
6张俊博,李健,张宏宇.潜在语义分析中主题数的确定方法[J].信息技术,2016,40(7):96-100. 被引量：1
7印勇,史金玉,刘丹平.基于Gabor小波的人脸表情识别[J].光电工程,2009,36(5):111-116. 被引量：9
8姚全珠,彭程,宋志理,李薇.基于关联规则的搜索引擎方法[J].计算机工程与应用,2011,47(9):134-136. 被引量：4
9魏利峰,纪建伟.一种高精度高光谱图像分类方案设计[J].计算机工程与科学,2016,38(7):1462-1470. 被引量：1
10雷静,陈琳,李凤.基于用户体验的技能评价系统的Android端界面设计[J].福建电脑,2017,33(3):35-35. 被引量：2

华南理工大学学报（自然科学版）

2011年第4期

浏览历史

内容加载中请稍等...

基于权值优化的网页正文内容提取算法被引量：8

参考文献15

二级参考文献9

共引文献83

同被引文献76

引证文献8

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于权值优化的网页正文内容提取算法 被引量：8

参考文献15

二级参考文献9

共引文献83

同被引文献76

引证文献8

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于权值优化的网页正文内容提取算法被引量：8