基于布局相似性的网页正文内容提取研究被引量：10

Study of Web pages content extraction based on layout similarity

下载PDF

导出

摘要合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。 Appropriate Web content extraction technique can remove the data which is redundant, repetitive and useless from massive Web pages while extracting more meaningful and more useful data. Through the observation of Web pages, this paper proposed and implemented a Web content extraction method based on the layout similarity that the pages under the same Web site showed similar in content layout and style structure. It ,achieves the purpose of main content extraction by comparing the similarity of the DOM node structure data from the Web pages belong to the same topic of the same sites. It also did some tenta- tive research and implementation on some other content relevent to this content extraction method. Experiments prove that this method is simple, pratical and universal, and it can not only meet the requirement of both high accuracy but also provide sup- port for more Internet applications of content analysis.

作者杨柳青李晓东耿光刚

机构地区中国科学院计算机网络信息中心中国互联网络信息中心

出处《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页 Application Research of Computers

基金国家自然科学基金面上项目(61375039) 国家自然科学基金青年资助项目(61005029) 中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)

关键词布局相似性网页正文提取信息检索 layout similarity Web page content extract information retrieval

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Gupta S,Kaiser G E,Grimm P,et al.Automating content extraction of HTML documents[J].World Wide Web,2005,8(2):179-224.
2Guo Yan,Tang Huifeng,Song Linhai,et al.ECON:an approach to extract content from Web news page[C]//Proc of the 12th International Asia-Pacific Web Conference.[S.l.]:IEEE Press,2010:314-320.
3Mane T B,Potdar G P.Template extraction from heterogeneous Web pages[J].International Journal of Advanced Computer Research,2012,2(6):197-201.
4Kadam V,Devale P R.A methodology for template extraction from heterogeneous Web pages[J].Indian Journal of Compute Science and Engineering,2012(3):449-452.
5Ma Ling,Goharian N,Chowdhury A,et al.Extracting unstructed data from template generated Web documents[C]//Proc of the 12th International Conference on Information and Knowledge Management.New York:ACMPress,2003:512-515.
6Reis D,Golgher P,Silva A,et al.Automatic Web news extraction using tree edit distance[C]//Proc of the 13th International Conference on World Wide Web.New York:ACM Press,2004:502-511.
7Vieira K,SilvaI A,Pinto N,et al.A fast and robust method for Web page template detection and removal[C]//Proc of the 15th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2006:258-267.
8Cai Deng,Yu Shipeng,Wen Jirong,et al.VIPS:a vision-based page segmentation algorithm,MSR-TR-3003-79[R].[S.l.]:Microsoft Research,2003.
9Cai Deng,Yu Shipeng,Wen Jirong,et al.Extracting content structure for Web pages based on visual representation[J].Web Technologies and Applications,2003,2642:406-417.
10Mehta R,Mitra P,Karnick H.Extracting semantic structure of Web document using content and visual information[C]//Proc of the 14thSpecial Interest Tracks and Posters of International Conference on World Wide Web.New York:ACM Press,2005:928-929.

二级参考文献6

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3LIN S-H,HO J-M.Discovering informative content blocks from Web documents[A].the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'02)[C].July,2002.
4DENG C,YU SP,WEN JR,et al.VIPS:A Vision-Based Page Segmentation,MSR-TR-2003-79[R].2003.
5KOVACEVIC M.Recognition of common areas in web page using visual information:A possible application in a page classification[A].Proceedings of ICDM02[C].Maebashi,Japan:IEEE Press,2002.250-258.
6HANZLIK S.Gorilla Design Studios Presents:The Hosts File[EB/OL].http://aocs-net.com/hosts/,2006.

共引文献32

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2白似雪,刘华斌.基于页面分块模型的PageRank算法研究[J].南昌大学学报（工科版）,2008,30(2):179-183. 被引量：4
3孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
4王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
5张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
6王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4
7李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
8安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
9缪霖,邱会中.Web页面自顶向下的正文信息定位算法[J].计算机工程,2010,36(13):76-78. 被引量：2
10王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.

同被引文献77

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
3何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
9中国互联网络信息中心.第35次中国互联网络发展状况统计报告[R/OL].[2015-02-03].http://www.cnnic.neLcn/hlw.fzyj.
10孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.

引证文献10

1王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
2向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
3王年丰,费潇潇.新闻正文信息在线提取方法研究[J].软件导刊,2017,16(4):9-13.
4王海涌,冯兆旭,杨海波,张津栋.基于结构相似网页聚类的正文提取算法研究[J].计算机工程与应用,2018,54(11):122-127. 被引量：2
5刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
6陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计,2018,39(4):1017-1021. 被引量：3
7吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
8刘博文,王雨琪,林果园.基于结构化文档的钓鱼网站检测算法[J].计算机工程与设计,2019,40(10):2791-2798. 被引量：3
9余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
10李桐宇,任锐,蔡鸿明,姜丽红.基于文本对象模型的自动化网页内容提取方法[J].上海交通大学学报,2018,52(10):1363-1369. 被引量：3

二级引证文献15

1刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
2李欣,李绍稳,许高建,林建彬.基于正则抽取的竹种数据结构化方法研究[J].计算机技术与发展,2018,28(6):147-150.
3何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
4吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
5印杰,蒋宇翔,牛博威,严梓宸,郭延文.基于深度学习的网页篡改远程检测研究[J].南京理工大学学报,2020,44(1):49-54. 被引量：5
6陈前华,胡嘉杰,江吉,吴豪.采用长短期记忆网络的深度学习方法进行网页正文提取[J].计算机应用,2021,41(S01):20-24. 被引量：4
7李国静,尹天阳,张兴睿.基于PAM概率主题模型的赌博网站检测方法[J].计算机应用与软件,2021,38(9):167-172. 被引量：4
8余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
9陈壮,葛斌.一种改进混合文本密度的网页信息提取方法[J].佳木斯大学学报（自然科学版）,2022,40(1):41-44. 被引量：1
10陆向艳,刘峻.网络钓鱼攻击分析和防范探讨[J].数字通信世界,2022(1):179-181. 被引量：2

1王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
2欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,37(3):64-66. 被引量：6
3屠毅春.DORP平台的设计及其应用[J].核动力工程,2014,35(6):180-183.
4苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
5陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
8朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1
9林涌.僵尸网络BotNet探讨[J].电脑知识与技术（过刊）,2009,15(4X):4385-4386.
10高俊光,赵崇辉,施真芳.基于VB的Winsock控件的原理与应用[J].应用科技,2004,31(3):12-14. 被引量：22

计算机应用研究

2015年第9期

浏览历史

内容加载中请稍等...

基于布局相似性的网页正文内容提取研究被引量：10

参考文献17

二级参考文献6

共引文献32

同被引文献77

引证文献10

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于布局相似性的网页正文内容提取研究 被引量：10

参考文献17

二级参考文献6

共引文献32

同被引文献77

引证文献10

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于布局相似性的网页正文内容提取研究被引量：10