基于重复模式识别的网页信息抽取研究被引量：6

WebPages Information Extraction Based on Repeating Pattern Recognition

导出

摘要【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和相似度的计算量较大,时间较长。【Purpose/significance】With the explosive growth of webpages and webpages noise, an efficient and accurate extraction method of webpages information is needed urgently by website competitive intelligence system,intelligent site development and mobile reading.【Method/process】In this paper, a new method of information extraction based on repeated pattern recognition is proposed, and the headlines and main contents of the details are extracted through the steps of page parsing, similarity calculation, clustering, group formation, deletion of banner ads and navigation links.【Result/conclusion】For the pages with stable structure, this paper achieves higher quality information extraction. The disadvantage is that the computation of clustering and similarity is large and the time is long.

作者李志义沈之锐 LI Zhi-yi;SHEN Zhi-rui(School of Economic and Management,South China Normal University,Guangzhou 510006,China;Baidu Online Network Technology(Beijing)Co.Ltd,Beijing 100085,China)

机构地区华南师范大学经济与管理学院百度在线网络技术(北京)有限公司

出处《情报科学》 CSSCI 北大核心 2019年第3期88-92,96,共6页 Information Science

基金国家社科基金项目"基于表示学习的跨模态检索模型与特征抽取研究"(17BTQ062)

关键词重复模式信息抽取编辑距离聚类 repeating pattern information extraction edit distance clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
2苗杰,倪波.面向集成竞争情报系统的数据挖掘应用研究[J].情报学报,2001,20(4):443-450. 被引量：33
3曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15
4李亚子,方安,陈薇,朱峰.Web页面最大有意义节点发现算法研究[J].现代图书情报技术,2009(10):22-27. 被引量：3
5孔胜,王宇.一种基于正文特征的新闻网页抽取方法[J].情报杂志,2010,29(8):122-124. 被引量：7
6刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：51
7史笑兴,王太君,何振亚.二阶隐马尔可夫模型的学习算法及其与一阶隐马尔可夫模型的关系[J].应用科学学报,2001,19(1):29-32. 被引量：16
8陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：6
9张儒清,郭岩,刘悦,俞晓明,程学旗.任意网页的主题信息抽取研究[J].中文信息学报,2017,31(5):127-137. 被引量：6
10陈雪,梁永全,赵相彬.改进的基于本体的Web信息抽取[J].计算机应用与软件,2013,30(7):14-16. 被引量：6

二级参考文献145

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
6包昌火.开展竞争情报研究　促进我国信息服务业的发展[J].情报理论与实践,1995,18(1):1-2. 被引量：17
7丁晟春,顾德访.Jena在实现基于Ontology的语义检索中的应用研究[J].现代图书情报技术,2005(10):5-9. 被引量：33
8李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
9王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
10成瑜,何洁月.本体驱动的半结构化Web生物数据抽取[J].计算机工程,2006,32(5):192-194. 被引量：5

共引文献188

1周军.论数据仓库技术在竞争情报业务中的应用[J].情报资料工作,2004,25(S1):142-144.
2方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
3马奎林,龙国华.Web挖掘技术在竞争情报活动中的应用浅析[J].硅谷,2008,1(1). 被引量：1
4蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志,2005,24(1):38-39. 被引量：28
5钟安鸣,贾春福.基于系统调用入侵检测的马氏链模型[J].计算机应用研究,2005,22(4):134-136. 被引量：3
6朱永武.基于数据挖掘的企业竞争情报系统[J].现代情报,2005,25(6):168-169. 被引量：13
7高峰.近十年我国企业竞争情报系统研究热点与趋势[J].现代经济信息,2010(3):131-132. 被引量：1
8程洁.数据挖掘技术在情报学领域的应用研究现状分析[J].现代情报,2005,25(10):14-15. 被引量：2
9王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
10王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4

同被引文献69

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：15
3陈涛,栾禹鑫,谭英杰,栾悦,乔意凡.基于爬虫技术的校园网络舆情分析和监测系统[J].网络安全技术与应用,2018(12):54-55. 被引量：6
4何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
5刘丽娟,张胤,杨一.基于本体思想的网页信息抽取方法[J].计算机与现代化,2015(9):90-94. 被引量：5
6翟丽丽,张影,王京.基于广度优先搜索的变异加权模糊C-均值聚类算法[J].统计与决策,2016,32(15):9-14. 被引量：3
7刘晓波,张明明,涂俊超,左红艳.基于广度优先搜索的小波聚类算法[J].振动与冲击,2016,35(15):178-183. 被引量：6
8李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用,2016(9):56-56. 被引量：3
9孙晓冬,肖萍.基于主动模式的互联网舆情监控系统设计[J].信息网络安全,2016(9):272-277. 被引量：2
10王海艳,曹攀.基于节点属性与正文内容的海量Web信息抽取方法[J].通信学报,2016,37(10):9-17. 被引量：12

引证文献6

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
3钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
4李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022,39(3):439-443. 被引量：2
5赵蔷.基于Python爬虫的旅游网站数据分析与可视化[J].电子设计工程,2022,30(16):152-155. 被引量：6
6柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：2

二级引证文献22

1唐绍华.新一代信息技术在规划辅助平台中的应用研究[J].现代信息科技,2021,5(3):110-113. 被引量：2
2贺宗平,王正路.一种面向互联网文本数据采集框架的设计[J].电子技术与软件工程,2021(12):187-189. 被引量：4
3黄萍,朱惠娟,陈琳琳.基于深度学习的情感分类技术在高校舆情分析中的应用研究[J].软件工程,2021,24(11):59-62. 被引量：5
4王伊,黄俊勋,刘晋泽,王玉龙,王韶红.一种基于定题信息批量引用的技术研究[J].现代信息科技,2021,5(11):72-74.
5刘晓辉,邵开丽,周凯祥.基于大数据的灾情舆情分析与预警系统研究[J].物联网技术,2022,12(8):53-55. 被引量：2
6赵蔷.基于Python爬虫的旅游网站数据分析与可视化[J].电子设计工程,2022,30(16):152-155. 被引量：6
7王华珍,孙雨洁,何霆,陆炫羽,刘晓聪.后疫情时代侨情危机状况识别方法[J].华侨大学学报（自然科学版）,2022,43(6):825-832.
8黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
9宋云娟.基于Python的数据分析可视化探索与实践[J].信息与电脑,2022,34(17):46-48.
10苏明焱.基于Python的招聘网站信息的爬取与数据分析[J].信息与电脑,2022,34(24):193-195. 被引量：2

1李艳红,严育洪.仪式感:给学生“幸逢其时”的学习动力[J].辽宁教育,2018(12):48-51. 被引量：3
2艾依.数字营销二十年敬畏人性与技术革命[J].互联网周刊,2018,0(12):68-69.
3陶凤.BuzzFeed淘金术[J].中国报业,2018(9):58-58.
4付聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究[J].计算机应用研究,2019,36(4):988-991. 被引量：15
5王凯,陈丹伟.基于LSTM的动态图模型异常检测算法研究[J].计算机工程与应用,2019,55(5):76-82. 被引量：13
6特供版Flash默认搜集用户隐私[J].电脑爱好者,2018,0(16):78-78.
7程智君.基于微信的微课程教学模式研究与实践——以高职《模电》项目教学为例[J].青春岁月,2019(1):142-142.
8石进,李益婷,刘千里.企业竞争情报态势感知系统研究[J].情报杂志,2019,38(4):43-51. 被引量：20
9赵敏涯,华英,吴笛,黄鹏,赵明明.基于Java技术的新闻采集器设计与实现[J].电脑编程技巧与维护,2019(4):21-23.
10陈剑,史有群,陶然.近似镜像网页去重方法研究[J].电气工程与自动化（中英文版）,2016,5(2):56-61.

情报科学

2019年第3期

浏览历史

内容加载中请稍等...

基于重复模式识别的网页信息抽取研究被引量：6

参考文献19

二级参考文献145

共引文献188

同被引文献69

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于重复模式识别的网页信息抽取研究 被引量：6

参考文献19

二级参考文献145

共引文献188

同被引文献69

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于重复模式识别的网页信息抽取研究被引量：6