基于视觉特征的网页正文提取方法研究被引量：13

The research on vision-based Web page information extraction algorithm

下载PDF

导出

摘要利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。 To get the useful information blocks, this paper first segmented the Web page into blocks with its visual features and its DOM tree＇s characteristics, and then deleted the noise blocks. This is a recursive process until no block can be deleted. Then handled the reserved blocks with the VIPS algorithm to get the semantic blocks. At last, got the text content by handling the semantic blocks. Experiment shows that this method is feasible.

作者安增文徐杰锋

机构地区中国石油大学(华东)计算机与通信工程学院

出处《微型机与应用》 2010年第3期38-41,共4页 Microcomputer & Its Applications

关键词页面分块信息提取视觉特征 page segmentation information extraction visual features

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2CAI D, YU S, WEN J R, et al. VIPS: A vision-based page segmentation algorithm. Microsoft Technical Report, MSR-TR-2003-79. 2003:10.
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
5JOHNSON R, HOELLER J, ARENDENSEN A, et al. Spring框架高级编程[M].蒋培译.北京:机械工业出版社,2006.
6张华平.ICTCLAS[EB/OL].[2009-08-15].http://mtgroup.ict.ac.cn/-zhp/ICTCLAS.htm.2002.
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32

二级参考文献28

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
7许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
8赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
9黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
10EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.

共引文献152

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
7吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
8吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
9郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
10许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11

同被引文献99

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4李嘉佑,贾自艳,何清,史忠植.基于Web挖掘的网页清洗技术[J].计算机工程与应用,2006,42(25):98-101. 被引量：7
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8何雪梅,黄学军.Web2.0及其搜索初探[J].科技情报开发与经济,2007,17(17):190-192. 被引量：11
9徐禾芳,何振辉.基于搜索引擎和数据挖掘的博客营销[D】.广州:华南理工大学工商管理学院,2008.
10LIAO XIANGWEN, CAO DONGLIN, TAN SONGBO, et al. Combining language model with sentiment analysis for opinion retrieval of blog-post [ C]// TREC 2006: Text Retrieval Conference 2006 Proceedings. IS. l.]: NIST, 2006:211-213.

引证文献13

1范纯龙,夏佳,肖昕,吕红伟,徐蕾.基于功能语义单元的博客评论抽取技术[J].计算机应用,2011,31(9):2417-2420. 被引量：3
2陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
3申晨,周辉.基于区域分块的微内容类网页正文提取技术[J].海南大学学报（自然科学版）,2013,31(1):31-36. 被引量：2
4朱毅华,张超群,曾通,吴龙凤,徐玛丽,王东波,李晓晖.基于子树相似度计算的网页评论提取算法研究[J].现代图书情报技术,2013(11):52-59. 被引量：5
5苏金波,朱剑宇,杨柳,刘跃.基于关键词相关性的有害信息爬虫系统研究[J].计算机技术与发展,2014,24(3):143-146.
6付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
7黄彦姣,吴秦,梁久祯.基于增强约束条件随机场的Web对象信息抽取[J].计算机工程与应用,2015,51(23):143-148. 被引量：1
8薛安荣,王丹,黄祖卫.基于CSS模板的职位信息并行抽取系统设计[J].电子科技,2016,29(10):93-96. 被引量：1
9马晓慧,李泓莹.一种DOM树标签路径和行块密度结合的Web信息抽取方法[J].智能计算机与应用,2017,7(4):13-16. 被引量：4
10杜博远,王美清,陈长福,陈飞.基于结构一致和特征学习的网页信息标签提取[J].计算机工程与应用,2017,53(7):74-78. 被引量：2

二级引证文献39

1张玉峰,何超.基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J].情报理论与实践,2012,35(7):47-50. 被引量：4
2滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
3李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
4李大辉,何清刚,王佰玲,邹新一.基于网页结构的网站检测研究[J].高技术通讯,2015,25(10):912-918.
5钱冬梅,范春树.通信网络大数据挖掘智能加速算法研究[J].激光杂志,2016,37(3):132-135. 被引量：4
6才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4
7罗莉.基于改进BigFIM算法的网络信息大数据高频数据项挖掘算法研究[J].激光杂志,2016,37(7):135-140. 被引量：3
8苏秀芝.基于标题与文本相似度的网页正文提取算法[J].科技创新与应用,2016,6(25):57-58. 被引量：1
9郝志峰,袁琴,蔡瑞初,温雯,骆魁永.基于加权频繁子树相似度的网页评论信息抽取[J].计算机应用研究,2017,34(6):1636-1639. 被引量：3
10刘念,任党利,田菊宁,孔丹.高校图书馆期刊资源优化与读者个性化推荐的融合研究——以西安建筑科技大学图书馆为例[J].图书馆学研究,2017(12):48-53. 被引量：7

1郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2
2蒋建中,丁宝琼,吴琼,邱文武.基于页面分块的网页排序算法:BHITS[J].计算机工程,2010,36(11):64-66. 被引量：2
3路松峰,王丹丹.面向移动设备的WEB页面分块算法[J].小型微型计算机系统,2007,28(9):1672-1677. 被引量：1
4李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5
5李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
6李卫东,唐国华.基于网页分块思想的PageRank算法研究与优化[J].科技经济市场,2011(5):7-9.
7袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3
8姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
9陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
10李盈润.Web邮件信息块提取技术研究[J].无线互联科技,2014,11(3):152-152.

微型机与应用

2010年第3期

浏览历史

内容加载中请稍等...

基于视觉特征的网页正文提取方法研究被引量：13

参考文献7

二级参考文献28

共引文献152

同被引文献99

引证文献13

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的网页正文提取方法研究 被引量：13

参考文献7

二级参考文献28

共引文献152

同被引文献99

引证文献13

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的网页正文提取方法研究被引量：13