基于视觉特征的就业信息页面抽取方法被引量：2

Employment Information Page Extraction Method based on Visual Features

下载PDF

导出

摘要随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中。为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人工干预。该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板。通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来。实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果。 With the development of network technology, lots of employment information pop up all over Internet. But information in various employment information website is showed scattered. In order to solve the contradiction between accuracy and efficiency in the traditional method of web information extraction, this paper uses the template generation method based on visual features, and puts forward a kind of employment information page extraction method based on visual features. This method can reduce manual intervention and ensure the extraction accuracy at the same time. This method generates the initial template through the analysis of web visual features automatically, and generates the final web extraction template through manual configuration. The scattered employment data on the Internet is converted to the unified format data through this method. The experimental results show that the rate of accuracy and recall is high, and achieve good results of extraction.

作者张昕鄂海红宋美娜杨俊

机构地区北京邮电大学计算机学院PCN&CAD中心

出处《软件》 2014年第9期16-20,共5页 Software

基金国家科技支撑计划课题(2013BAH10F01)项目"劳动者全生命周期的就业信息服务系统及应用示范" 高等学校博士学科点专项科研基金课题(20110005120007) 北京高等学校青年英才计划项目(YETP0445) 教育部信息网络工程研究中心北京市教育委员会共建项目专项资助

关键词 WEB信息抽取模板 VIPS DOM树 XPATH Web Information Extraction Template VIPS DOM Tree XPath

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2Stephen Soderland.Learning Information Extraction Rules for Semi-Structured and Free Text[J]. Machine Learning . 1999 (1-3)
3Chen, Jinlin,Zhong, Ping.Web information extraction using web-specific features. Journal of Digital Information Management . 2008
4孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
5王志华,魏斌,李占波,赵伟.基于本体的Web信息抽取系统[J].计算机工程与设计,2012,33(7):2634-2639. 被引量：14
6李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
7李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

二级参考文献54

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
6万常选,刘云生,徐升华,刘喜平,林大海.基于区间编码的XML索引结构的有效结构连接[J].计算机学报,2005,28(1):113-127. 被引量：38
7王静,孟小峰,王宇,王珊.以目标节点为导向的XML路径查询处理[J].软件学报,2005,16(5):827-837. 被引量：21
8杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
9孟小峰,王宇,王小锋.XML查询优化研究[J].软件学报,2006,17(10):2069-2086. 被引量：44
10刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41

共引文献251

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
5雷庆,吴扬扬,缑锦.从复杂XML文档中抽取目标关系片段的方法[J].郑州大学学报（理学版）,2009,41(1):40-43.
6孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
7郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
8谌志群,周其力.基于综合语义的XML文档相似度计算方法[J].杭州电子科技大学学报（自然科学版）,2009,29(3):64-67.
9王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
10王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6

同被引文献22

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2吴倩,杨逍,张兆心.基于视觉特征的网页信息提取[C]//第六届全国信息检索学术会议论文集,2010.
3Deng Cai, Shipeng Yu, Ji-Rong Wen, 等. Extracting Content Structure for Web Pages based on Visual Representation [C].Proc Asia Pacific Web Conference.2003:406-417.
4Bhavdeep Mehta,Meera Narvekar. DOM Tree Based Approach for Web Content Extraction [C].India,ICCICT,2015:16-17.
5INarwal,Neetu.Improving web data extraction by noise removal.Communication and Comput- ing (ARTCom) [C].2013:388-395.
6Mr.Satish J. Pusdekar, Pro.Shaikh.phiroj Chhaware. Using Visual Clues Concept for Extracting Main Data from Deep Web Pages. International Conference on Electronic Systems, Signal Processing and Computing Technologies [C].2014:190-193.
7陈劲,林怀忠,陈方疏,等.一种从中文网页中抽取信息的综合方法.计算机研究与发展[S].2012.171-178.
8Lei Fu, Yao Meng,Yingju XIA,等.Content Ex- traction based on Webpage Layout Analysis[C]. IEEE,2010:40-43.
9Madhavan J, Ko D, Kot L, et al. Google' s deep web crawl [ J ]. Proceedings of the VLDB Endowment, 2008,1 ( 2 ) : 1241 -1252.
10Stevanovic D, An Aijun, Vlajic N. Feature evaluation for Web crawler detection with data mining techniques [ J ]. Expert Sys- tems with Applications,2012,39(10) :8707-8717.

引证文献2

1胡瑞,郭星,黄永聪.基于视觉特征的主题型网页信息抽取[J].赤峰学院学报（自然科学版）,2016,32(6):23-25.
2刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4

二级引证文献4

1肖慧华.政府网络舆情监测系统的功能分析[J].科技广场,2017(3):51-54. 被引量：1
2刘高军,印佳明.基于图书特征及词典的豆瓣图书垃圾评论识别[J].计算机技术与发展,2019,29(11):107-112. 被引量：1
3陶影辉,道瑶瑶,殷晓靓,张小先.基于Hadoop的舆情分析系统模型研究[J].中国新通信,2019,0(14):167-167. 被引量：1
4童涛,陈平平,刘睿杰.基于Citespace的网络舆情研究知识图谱分析[J].服务科学和管理,2021,10(4):53-61.

1关于图片上传后找路径[J].黑客防线,2005(9):140-140.
2邓杰英.浅谈组建Intranet及其应用[J].华南金融电脑,2002(10):100-101.
3章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
4安全[J].网管员世界,2011(21):10-10.
5付费搜索信息醒目区分[J].金融科技时代,2016,24(9):91-91.
6陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
7任传成.基于校园网的毕业生就业信息网站的分析与设计[J].中国教育信息化（高教职教）,2009(9):39-41. 被引量：3
8周震方.远方的客人,来我的博客闪聊会[J].电脑爱好者,2009(2):42-42.
9IE无法打开淘宝宝贝详细页面[J].电脑迷,2010(6):92-92.
10王孟頔,邰泳.基于VIPS的职位信息抽取技术研究[J].软件导刊,2015,14(9):22-24. 被引量：1

软件

2014年第9期

浏览历史

内容加载中请稍等...

基于视觉特征的就业信息页面抽取方法被引量：2

参考文献7

二级参考文献54

共引文献251

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的就业信息页面抽取方法 被引量：2

参考文献7

二级参考文献54

共引文献251

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于视觉特征的就业信息页面抽取方法被引量：2