基于视觉特征的主题型网页信息抽取

下载PDF

导出

摘要互联网高速发展的多年积累,如今web已经成为我们每一个普通人日常的一部分.Web绝对是世界上最大的信息数据库.同时每一个web页面中也包含这个目标信息以外的各种广告链接.称之为噪声.如何有效的过滤噪声,提取想要的目标内容已经成为一个实用且重要的研究领域.传统的方法大多都是基于DOM树及网页源代码的.这里在基于网页视觉特征分块算法VIPS的基础上,通过观察归纳网页目标内容和噪声的视觉特征来进行噪声过滤和目标内容提取.并提出了基于噪声和目标内容的视觉特征区别算法NGFV(Based on noise and goal content visual feature algorithm).

作者胡瑞郭星黄永聪

机构地区安徽大学计算机科学与技术学院

出处《赤峰学院学报（自然科学版）》 2016年第6期23-25,共3页 Journal of Chifeng University(Natural Science Edition)

基金安徽大学创新基金项目(yph100153)

关键词 VIPS NGFV 噪声过滤 DOM树

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Deng Cai, Shipeng Yu, Ji-Rong Wen, 等. Extracting Content Structure for Web Pages based on Visual Representation [C].Proc Asia Pacific Web Conference.2003:406-417.
2Bhavdeep Mehta,Meera Narvekar. DOM Tree Based Approach for Web Content Extraction [C].India,ICCICT,2015:16-17.
3INarwal,Neetu.Improving web data extraction by noise removal.Communication and Comput- ing (ARTCom) [C].2013:388-395.
4Mr.Satish J. Pusdekar, Pro.Shaikh.phiroj Chhaware. Using Visual Clues Concept for Extracting Main Data from Deep Web Pages. International Conference on Electronic Systems, Signal Processing and Computing Technologies [C].2014:190-193.
5吴倩,杨逍,张兆心.基于视觉特征的网页信息提取[C]//第六届全国信息检索学术会议论文集,2010.
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7陈劲,林怀忠,陈方疏,等.一种从中文网页中抽取信息的综合方法.计算机研究与发展[S].2012.171-178.
8张昕,鄂海红,宋美娜,杨俊.基于视觉特征的就业信息页面抽取方法[J].软件,2014,35(9):16-20. 被引量：2
9Lei Fu, Yao Meng,Yingju XIA,等.Content Ex- traction based on Webpage Layout Analysis[C]. IEEE,2010:40-43.

二级参考文献18

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
3EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.
4EMBLEY DW,LI X.Record Location and Reconfiguration in Unstructured Multiple-Record Web Documents[A].WebDB'00 Proceedings[C].2000.
5LIM SJ,NG YK.Extracting Structures of HTML Documents Using a High-Level Stack Machine[M].Information Networking in Asia,Gordon and Breach Science Publishers,Newark,New Jersey,2001.
6LIM SJ,NG YK,YANG XC.Integrating HTML Tables Using Semantic Hierarchies And Meta-Data Sets[A].International Database Engineering and Applications Symposium(IDEAS'02)[C].Edmonton,Canada,2002.
7LIM SJ,NG YK.A Heuristic Approach for Converting HTML Documents to XML Documents[A].Proceedings of the Sixth International Conference on Rules and Objects in Databases(DOOD 2000)[C].London,England,2000.1182-1196.
8LIN SH,HO JM.Discovering Informative Content Blocks from Web Documents[A].KDD 2002[C].2002.588-593.
9YU SP,CAI D,WEN JR,et al.Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=632,2002-12.
10WEN JR,SONG RH,CAI D,et al.Microsoft Research Asia at The Web Track of TREC 2003[A].The Twelfth Text Retrieval Conference(TREC'12)[C].2003.

共引文献56

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
7邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

1章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
2安全[J].网管员世界,2011(21):10-10.
3王志文,向福林,曾梦岐.内容中心网络的DoS攻击研究[J].通信技术,2015,48(11):1295-1299. 被引量：1
4易用性与情感同在[J].中国室内装饰装修天地,2009(11):86-87.
5亚军.数据备份的5个重要策略[J].网管员世界,2011(3):99-100.
6好好好.非迅雷会员同样也能让广告消失[J].电脑知识与技术（经验技巧）,2010(10):100-101.
7路个的.批量去除电子书中的垃圾内容[J].计算机应用文摘,2009,25(4):42-42.
8英子,吴森智.大家一起来阻击广告顽固分子[J].电脑爱好者,2013(16):50-52.
9西洲雁.下载快准狠百万军中取上将首[J].计算机应用文摘,2010(15):21-21.
10王孟頔,邰泳.基于VIPS的职位信息抽取技术研究[J].软件导刊,2015,14(9):22-24. 被引量：1

赤峰学院学报（自然科学版）

2016年第6期

浏览历史

内容加载中请稍等...

基于视觉特征的主题型网页信息抽取

参考文献9

二级参考文献18

共引文献56

相关作者

相关机构

相关主题

浏览历史