基于网页聚类的正文信息提取方法被引量：6

Web Information Extraction Based on Webpage Clustering

下载PDF

导出

摘要精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同内容模板生成的.因此本文提出一种基于网页聚类的正文信息提取的方法,该方法主要有2个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文位置特征生成.采用该方法可以从多种类型的网页中抽取正文信息.我们针对5个网站进行了实验,实验结果表明该方法的可行性和有效性. Accurately extracting important content from webpage has important applications for many research fields in Web mining. Atpresent,the method of webpage segmentation and density statistics is used to solve this problem. However, the existing method maylose its function when the number of characters in the webpage is small. In this paper,we propose a method for extracting web infor-mation,based on the webpage clustering. This method consists of two components：webpage clustering based on structure feature andtext block features generation with similar webpages. The method can extract web information from different types of webpages. Weconduct the experiment with webpages from 5 sites, and the experimental results show that the proposed methods are feasibility and ef-fective.

作者王一洲陈星戴远飞

机构地区福州大学数学与计算机科学学院福建省网络计算与智能信息处理重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2018年第1期111-115,共5页 Journal of Chinese Computer Systems

基金国家自然基金项目(61402111)资助福建省科技平台建设项目(2014m005)资助.

关键词网页聚类正文内容块节点密度 webpage clustering text block node density

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735. 被引量：23
2张乃洲,曹薇,李石君.一种基于节点密度分割和标签传播的Web页面挖掘方法[J].计算机学报,2015,38(2):349-364. 被引量：13

二级参考文献61

1http ://svmlight. joachims, org/.
2Yin Xinyi, Lee Wee Sun. Using link analysis to improve layout on mobile deviees//Proeeedings of the 13th International Conference on World Wide Web (WWW 2004). New York, USA, 2004:338-344.
3Cben Yu, Ma Wei-Ying, Zhang Hong-Jiang. Detecting Web page structure for adaptive viewing on small form factor devices//Proceedings of the 12th International Conference on World Wide Web (WWW 2003). Budapest, Hungary, 2003:225-233.
4Baluja S. Browsing on small screens: Recasting Web-page segmentation into an effcient machine learning framework// Proceedings of the 15th International Conference on World Wide Web (WWW 2006). Edinburgh, Scotland, 2006: 33-42.
5Sun Fei, Song Dandan, Liao Leiian. DOM based content extraction via text density//Proceedings of the 34th Annual International ACM SIGIR Conference (SIGIR 2011). Beijing, China, 2011:245-254.
6Cai Deng, Yu Shipeng, Wen J i-Rong, Ma Wei-Ying. Extracting content structure for Web pages based on visual representation //Proceedings of the 5th Asian-Pacific Web Conference (APWeb 2003). Xi'an, China, 2003:406-417.
7Yi Lan, Liu Bing, Li Xiaoli. Eliminating noisy information in Web pages for data mining//Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2003). Washington, USA, 2003: 296- 305.
8Ramaswamy L, Iyengar A, Liu Ling, Douglis F. Automatic fragment detection in dynamic Web pages and its impact on caching. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2005, 17(6): 859-874.
9Debnath S, Mitra P, Pal N, Giles C L. Automatic identifica- tion of informative sections of Web pages. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2005, 17(9) : 1233-1246.
10Kolcz A, Yih Wen-tau. Site-independent template-block detection//Proceedings of the 11th European Confereneeon on Principles and Practice of Knowledge Discovery in Databases (PKDD 2007). Warsaw, Poland, 2007:152-163.

共引文献32

1王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
2张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
3赵夫群.基于半监督学习的Web页面内容分类技术研究[J].现代电子技术,2016,39(1):108-112. 被引量：1
4王海艳,曹攀.基于节点属性与正文内容的海量Web信息抽取方法[J].通信学报,2016,37(10):9-17. 被引量：12
5李滢,魏俊奎,金义,马路遥,宋永春,王薇.电力评标系统平台的研发与应用[J].科技创新与应用,2017,7(2):190-191. 被引量：2
6张方,尹刚,王涛,余跃.面向开源社区的Web数据抽取方法研究[J].现代计算机,2017,23(3):27-29.
7孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
8温雯,伍思杰,蔡瑞初,郝志峰,王丽娟.KECVS:一个面向专业文献知识实体的类型标注及可视化系统[J].计算机应用与软件,2017,34(8):87-91.
9马晓慧,李泓莹.一种DOM树标签路径和行块密度结合的Web信息抽取方法[J].智能计算机与应用,2017,7(4):13-16. 被引量：4
10吴共庆,刘鹏程,胡骏,胡学钢.基于块密度加权标签路径特征的Web新闻在线抽取[J].中国科学：信息科学,2017,47(8):1078-1094. 被引量：3

同被引文献63

1张志威,王国仁,徐建良,杜小勇.区块链的数据管理技术综述[J].软件学报,2020(9):2903-2925. 被引量：66
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3赵妍,崔浩瀚,荣子超.次同步振荡在线监测的同步提取变换和朴素贝叶斯方法[J].电力系统自动化,2019,43(3):187-192. 被引量：28
4张乃洲,曹薇,李石君.一种基于节点密度分割和标签传播的Web页面挖掘方法[J].计算机学报,2015,38(2):349-364. 被引量：13
5高永兵,周环宇,聂知秘,胡文江.PWSWE:个人微博主题词提取算法的研究[J].计算机应用与软件,2015,32(7):86-89. 被引量：1
6吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735. 被引量：23
7遆佳,李霁.基于视觉信息传达的网页界面设计研究[J].包装工程,2017,38(2):243-245. 被引量：8
8屈建萍,李汉超.高校网站建设规划设计与网页制作方法浅析[J].中国管理信息化,2017,20(1):155-156. 被引量：3
9杜鹏.基于信息架构的数字校园信息接入系统设计[J].自动化与仪器仪表,2017(2):80-82. 被引量：3
10胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8

引证文献6

1文星.基于移动终端适配技术的网站页面信息显示方法[J].自动化与仪器仪表,2019,0(12):126-129. 被引量：2
2王玉兰.基于读者阅读偏好的数字资源智能聚类系统设计研究[J].现代电子技术,2021,44(8):154-158.
3解仲秋.基于时空大数据挖掘的网络舆情研判方法研究[J].电子设计工程,2021,29(8):177-181. 被引量：1
4陈壮,葛斌.一种改进混合文本密度的网页信息提取方法[J].佳木斯大学学报（自然科学版）,2022,40(1):41-44. 被引量：1
5陈壮,葛斌.基于视觉特征去噪和DOM树的网页信息提取方法[J].山西师范大学学报（自然科学版）,2021,35(4):116-121.
6陈小鹏.基于数据挖掘和区块链技术的碳排放信息定向提取模型[J].工业加热,2023,52(7):67-71.

二级引证文献4

1郭霄汉,迟远英,丁治明.基于感知特征的时空过程可视化模型构建[J].计算机与数字工程,2021,49(12):2514-2518. 被引量：1
2张燕,姚江.基于视觉传达的网页界面信息显示系统设计[J].现代电子技术,2022,45(2):125-128. 被引量：4
3付赛红,常汉杰.基于深度学习短文本去噪算法的研究与应用分析[J].软件,2022,43(4):35-37.
4张胜男,吴嘉惟,牛连强,杨坤.移动网页模块化样式模板匹配方法[J].计算机科学与应用,2020,10(6):1234-1242.

1刘律廷.成绩下滑，湿疹之外另有原因[J].妇女生活（现代家长）,2017,0(12):24-25.
2王新蕊,范宇翔,刘钰.加拿大Mawashi公司推出超轻型被动外骨骼系统[J].轻兵器,2018,0(1):34-35.
3张翼鹏,葛丽娜,王红,王丽颖,张静.基于改进细菌觅食算法的舆情热点话题发现[J].计算机工程与设计,2017,38(10):2832-2837. 被引量：4
4张敏言,郭文丽,张海翔.“将锦绣潇湘带回家”创意茶包装设计[J].包装工程,2017,38(24):314-314.
5Joseph Scheer作品[J].东方艺术,2017,0(15):133-133.
6李大勇.如何防御前端跨站脚本攻击[J].计算机与网络,2017,43(22):56-56. 被引量：1
7黄金晶.一种基于Web挖掘技术的远程个性化学习平台的设计与实现[J].苏州市职业大学学报,2017,28(4):20-24.
8黄美思,李燕,肖霞,杜庆治,龙华.公众餐食营养数据采集和评价系统设计与实现[J].软件导刊,2017,16(11):87-89. 被引量：1
9王霞俊.基于Web使用挖掘的实时推荐技术[J].现代职业教育研究,2006,0(1):19-23. 被引量：1
10葛蓝.基于HTML5+CSS3的网页布局[J].数字技术与应用,2017,35(10):92-93. 被引量：7

小型微型计算机系统

2018年第1期

浏览历史

内容加载中请稍等...

基于网页聚类的正文信息提取方法被引量：6

参考文献2

二级参考文献61

共引文献32

同被引文献63

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于网页聚类的正文信息提取方法 被引量：6

参考文献2

二级参考文献61

共引文献32

同被引文献63

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于网页聚类的正文信息提取方法被引量：6