基于视觉特征的网页信息抽取方法研究被引量：4

Research on Web Page Information Extraction Based on Visual Features

下载PDF

导出

摘要面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。 Facing with the large-scale heterogeneous web pages, web extraction methods based on visual features tend to have poor generality and low extraction efficiency. To deal with the issue of poor generality, this paper proposes WEMLVF,a Web page information extraction framework based on visual features using supervised machine learning. This framework has good versatility. The effectiveness of the framework is validated through experiments on forum sites and news review sites. Then,to deal with the issue of low efficiency,the framework WEMLVF is utilized and method is proposed for automatically generating information extraction templates based on XPath and SoftMealy (a wrapper induction algorithm). These two methods use visual features to automatically generate information extraction templates without visual features. It makes full use of visual features information extraction and significantly improve the efficiency of information extraction,which is empirically verified.

作者王宪发郭岩刘悦俞晓明程学旗 WANG Xianfa;GUO Yan;LIU Yue;YU Xiaoming;CHENG Xueqi(School of Computer Science and Technology,University of Chinese Academy of Sciences,Bejing 100049,China;CAS Key Laboratory of Newtwork Data Science and Technology,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院大学计算机与控制学院中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室

出处《中文信息学报》 CSCD 北大核心 2019年第5期103-112,共10页 Journal of Chinese Information Processing

基金国家重点研发计划(2017YFB0803302 2016YFB1000902) 国家重点基础研究发展计划(973)(2014CB340405) 国家重点基础研究发展计划(973)(2014CB340401) 国家自然科学基金(61433014)

关键词视觉特征网络信息抽取自动生成模板 visual features web extraction automatic template generation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量：7

二级参考文献5

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2ALEXJC. The easy way to extract useful text from arbitrary HTML [EB/OL].http://ai-depot.com/articles/ the- easy-way-to-extract-useful-text-from-arbitrary-html/. April5, 2007.
3FU L M. Rule learning by searching on adapted nets. Proceedings of the 9th National Conference on Artificial Intelligence. Anaheim, CA: AAAI Press, 1991:590-595.
4SESTITO S, DILLON T. Knowledge acquisition of conjunctive rules using muhilayered neural networks. International Journal of Intelligent Systems, 1993, 8 (7) : 779- 805.
5陈敬文,彭哲.基于CPN网络的Web正文抽取技术研究[J].现代图书情报技术,2008(11):65-71. 被引量：2

共引文献6

1解辉,王晓英,金鑫.基于模板知识的带噪音半结构文本数据自动分词方法[J].微型机与应用,2015,34(17):89-91. 被引量：1
2苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
3薛安荣,王丹,黄祖卫.基于CSS模板的职位信息并行抽取系统设计[J].电子科技,2016,29(10):93-96. 被引量：1
4胡露露,刘小勤,孙凯.基于正文特征和网页结构的网页正文抽取方法[J].大气与环境光学学报,2017,12(3):230-235. 被引量：2
5冯韬,李淼,曹宜超,曾伟辉.汉维可比语料数据集[J].中国科学数据（中英文网络版）,2020,5(1):163-168. 被引量：1
6陈前华,胡嘉杰,江吉,吴豪.采用长短期记忆网络的深度学习方法进行网页正文提取[J].计算机应用,2021,41(S01):20-24. 被引量：4

同被引文献33

1彭红超,童名文,邹军华,郝秋红.基于规则的网页分割预处理算法研究[J].计算机科学,2013,40(11A):379-382. 被引量：1
2谭春林,刘清海.期刊编辑发表论文情况的文本挖掘与分析[J].编辑学报,2019,0(4):407-410. 被引量：10
3郭飞,游滨,薛婧媛.Altmetrics热点论文传播特性及影响力分析[J].图书情报工作,2016,60(15):86-93. 被引量：29
4韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报（自然科学版）,2017,12(3):25-28. 被引量：3
5Lei Chen,Jing Zhang,Lijun Cai,Ziyun Deng.Fast Community Detection Based on Distance Dynamics[J].Tsinghua Science and Technology,2017,22(6):564-585. 被引量：2
6任胜兵,王志健,王宇.Web页面自动化设计中布局挖掘和样式匹配算法[J].计算机工程与应用,2018,54(3):227-232. 被引量：2
7李进生,乐惠骁,童名文.基于标题机器学习的网页分割方法[J].计算机科学,2018,45(B06):583-587. 被引量：1
8陈昱,刘中金,赵威威,马原,石志强,孙利民.一种大规模的跨平台同源二进制文件检索方法[J].计算机研究与发展,2018,55(7):1498-1507. 被引量：8
9彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6
10何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2

引证文献4

1陈锐锋,谭春林.大数据视域下知网首发的新冠肺炎专题中文论文文献计量学分析[J].科技传播,2020,12(19):10-14. 被引量：6
2邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.
3周银萍,王跟成.移动互联网敏感信息安全结构检索仿真研究[J].计算机仿真,2022,39(9):451-455.
4张胜男,吴嘉惟,牛连强,杨坤.移动网页模块化样式模板匹配方法[J].计算机科学与应用,2020,10(6):1234-1242.

二级引证文献6

1杨芳艳,蒲瑞生,霍振响,白永利.中医药高校学报特色栏目数字化建设[J].中华医学图书情报杂志,2021,30(4):68-72. 被引量：1
2靳嘉林,王曰芬,刘城,邹本涛.融合Hook机制的多源情报信息采集框架设计与应用研究[J].科技情报研究,2022,4(1):13-22. 被引量：3
3刘春丽,盛南洪.中外COVID-19科研产出分布比较及我国研究热点分析——以Dimensions COVID-19数据集为例[J].科学观察,2022,17(1):38-51. 被引量：2
4沈世敬,崔晓鸣,曹务春.传染病预测模型的应用及研究进展[J].中华医院感染学杂志,2023,33(16):2550-2554. 被引量：2
5郭静,曾芳.基于数据挖掘技术浅析病位在经络病机中的重要作用[J].中华养生保健,2024,42(12):69-73.
6刘海,姚兴兴.关于国内新型冠状病毒相关文献的分析研究——基于中国知网抗击新冠疫情知识服务平台[J].数据挖掘,2023,13(1):36-45.

1木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1
2张立军,唐鑫,孟德建.面向驾驶意图识别的驾驶员头、面部视觉特征提取[J].汽车技术,2019(2):14-20. 被引量：5
3付谦(文/摄影).走读帕罗奥多[J].中关村,2019,0(3):106-108.
4王黎潇.倾斜摄影测量技术在三维建模研究中的应用[J].中国锰业,2019,37(2):92-94. 被引量：7
5孟鑫,芦良花,靳艳.老年急性心肌梗塞合并急性左心衰竭治疗的康复护理[J].心理月刊,2019(6):83-83. 被引量：2
6张永真,吕学强,申闫春,徐丽萍.基于SAO结构的中文专利实体关系抽取[J].计算机工程与设计,2019,40(3):706-712. 被引量：9
7李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6
8李丹.面向深网网页的信息抽取算法研究[J].信息记录材料,2019,20(1):46-47.
9李玎,祝跃飞,林伟.基于视觉感知特征的手机应用流量识别方法[J].计算机应用研究,2019,36(4):1153-1157. 被引量：2
10党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3

中文信息学报

2019年第5期

浏览历史

内容加载中请稍等...

基于视觉特征的网页信息抽取方法研究被引量：4

参考文献1

二级参考文献5

共引文献6

同被引文献33

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的网页信息抽取方法研究 被引量：4

参考文献1

二级参考文献5

共引文献6

同被引文献33

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的网页信息抽取方法研究被引量：4