基于正则表达式的HTML信息提取被引量：4

The HTML Information Extraction Based on Regular Expressions

下载PDF

导出

摘要在实际应用中经常需要分析Web页面的源代码,对HTML标记进行分析提取有用的数据。研究了如何利用正则表达式获取常见的HTML标记内容,实现了对HTML信息的定制提取,并以如何抓取一个学生成绩表的数据信息为例介绍了其实现过程。 Under the actual application, we need to information from html tags. The paper researched how to get realized to extract custom html tag information, and took illustrate the implementation process. analyse source code of web and extract useful common html tag content by regular expressions, grabing a student score data as an example to

作者李文华杨亚仿吴昊

机构地区长江大学计算机科学学院

出处《电脑开发与应用》 2012年第4期44-46,共3页 Computer Development & Applications

关键词正则表达式 HTML 信息提取 regular expressions, HTML, information extraction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
2刘亚东,彭舰,张达平.基于智能的网页信息提取系统的研究与设计[J].四川大学学报（自然科学版）,2009,46(4):957-962. 被引量：7
3陈红叶.基于HTML和XML的信息提取方法研究[J].微机发展,2003,13(a02):54-55. 被引量：3

二级参考文献32

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2Jackson J Myllymaki J.基于Web的数据挖掘:自动抽取用HTM、XML和Java编写的信息[J／0L].http:／／www.IBM.com.2001.6.,.
3孟小峰.数据挖掘走向Internet .微电脑世界,2001,(52).
4EIKVIL L. Information extraction from World Wide Web--a survey [R]. [S. l. ] : Norwegian Computing Center, 1999.
5ALBERTO H F, ALTIGRAN S, et al. A brief survey of Web data extraction tools [J]. SIGMOD Rec. , 2002, 31 (2).
6CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: towards automatic data extraction from large Web sites [ C ]// VLDB2001 : 109-118.
7MENG Xiaofeng, L U Hongjun, et al. SG-WRAP: a schemaguided wrapper generator data engineering [ C ]//Proceedings of 18th International Conference on Data Engineering, 2002.
8ARASU A, GARCIA-MOLINA H. Extracting structured data from Web pages [ C]//ACM SIGMOD Conference, 2003.
9LIU B, GROSSMAN R, ZHAI Y. Mining data records in Web pages [C]//KDD2003, 2003: 601-606.
10WANG J, LOCHOVSKY F H. Data extraction and label assignment for Web databases [ C] //Proceedings of the 12th International Conference on World Wide Web, 2003: 187-196.

共引文献11

1黄乐,赵舫.基于用例方法的电力企业需求分析建模[J].江南大学学报（自然科学版）,2007,6(2):173-176. 被引量：2
2张宗平,李海雁.基于XML的Web信息提取技术研究[J].现代计算机,2007,13(8):29-30. 被引量：1
3陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
4冯曦曦,朱学芳.基于Spring框架的农业网站信息资源采集器设计与实现[J].信息化研究,2011,37(3):19-22. 被引量：1
5袁林.信息抽取在战略情报研究中的应用[J].指挥信息系统与技术,2012,3(1):49-53. 被引量：3
6张冬梅,陈钊,陈剑.基于改进DSE算法的web信息抽取[J].数字技术与应用,2012,30(3):171-173.
7何贤江,左航,李远红.面向移动平台的FAQD自动问答系统[J].四川大学学报（自然科学版）,2012,49(3):560-564. 被引量：1
8黄亮,赵泽茂,梁兴开.基于属性标签的Web数据挖掘[J].计算机应用与软件,2012,29(11):156-159. 被引量：1
9刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4
10曲建升,刘红煦.知识发现中异构信息标准化处理研究——以资源环境领域文献为例[J].图书情报工作,2016,60(6):84-90. 被引量：4

同被引文献31

1邓莉琼,吴玲达,陈丹雯,袁志民.基于OpenGL的时空信息可视化系统设计与实现[J].系统仿真学报,2009,21(S1):163-165. 被引量：1
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3AndrewW.正则表达式入门经典[M].北京:清华大学出版社,2008.
4王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7
5Weskamp M. Newsmap[DB/OL]. 2013-03-04. http:// www.marumushi.com/apps/newsmap.
6Mod C. Buzztracker-World News[DB/OL]. 2013-03-04. http://www.buzztracker.org.
7Bradshaw P. Yahoo Tracker by FlatFeetPete[DB/OL].2013- 03-04. http://www.flat feetpete.com/ytrack/index.html.
8Zuylen C V. From documents to information: A new mod- el for information retrieval[EB/OL]. 2013-03-04. http:// www.inxight.com/pdfs/TimeWall_FinalPrint.pdf.
9Havre S, Nowell L. ThemeRiver: Visualizing theme changes over time[J]. Proceedings of the IEEE Sympo-sium on Information Visualization, 2000(10): 115 - 123.
10Havre S, Hetzler E, Whitney P, et al. ThemeRiver: Visual- ization thematic changes in large document collections [J]. Proceedings of the IEEE Transactions on Visualiza- tion and Computer Graphics, 2002,18(1):9-20.

引证文献4

1刘冉.快速将联系人信息添加到网络邮箱中[J].电子商务,2013,14(5):63-64.
2桑鹏,唐新明,艾波,王华斌.RSS新闻事件的多维描述与时空可视化方法[J].地球信息科学学报,2014,16(3):341-348. 被引量：4
3侯天峰,程和生,赵远.移动平台下路由器管理软件的研究与设计[J].微型电脑应用,2017,33(2):38-40.
4翟继强,周艳艳,郭鹏姣,杨海陆.采用OBDD实现快速子匹配提取[J].广西大学学报（自然科学版）,2017,42(5):1760-1766.

二级引证文献4

1米春桥,彭小宁,米允龙,赵嫦花.农业大数据技术研究现状与发展趋势[J].安徽农业科学,2016,44(34):235-237. 被引量：6
2王升翔,汪超亮,杨维新,李传荣.基于分层树模型的中文网页主题时间提取方法[J].计算机应用,2017,37(A01):270-272. 被引量：1
3李响,杨小琳,魏勇,董玮,胡涛.基于支持向量机的新闻事件类型识别[J].地理信息世界,2019,26(2):73-78. 被引量：3
4冯宇星,崔磊,曹之玉,韩笑.基于RSS的预警信息聚合推送服务研究[J].科技创新导报,2020,17(35):7-10. 被引量：1

1蔡建宏,万涛,黄维.HTML信息到数据库信息的转换[J].湖北大学成人教育学院学报,2006,24(1):69-74. 被引量：1
2黄东,肖金芳,董宜芳.多记录数据库表快速处理两例[J].中小学电教（综合）,2005(10):56-57.
3王俊京.用Excel制作学生成绩表的方法[J].技术与市场,2011,18(9):321-321.
4宋永成.轻轻松松分辨重复数据[J].电脑知识与技术（经验技巧）,2014(9):41-42.
5蒋洪力.Excel排序排位的几种方法[J].大众电脑,2003(4):70-72.
6沈毅.利用顺序表实现成绩单的生成与检索[J].中国科技纵横,2012(14):243-244.
7陈淑娟.试论Excel函数在学生成绩表中的应用[J].电脑知识与技术,2016,12(11Z):220-222. 被引量：1
8陈实.用Excel制作“智能”学生成绩表[J].电脑知识与技术（过刊）,2006(11):40-41.
9刘海涛.VB、Excel、Access、Word的联合应用技术[J].电脑学习,2003(5):39-40. 被引量：4
10徐文昭.运用Excel VBA实现邮件合并功能[J].福建电脑,2012,28(2):188-189. 被引量：3

电脑开发与应用

2012年第4期

浏览历史

内容加载中请稍等...

基于正则表达式的HTML信息提取被引量：4

参考文献3

二级参考文献32

共引文献11

同被引文献31

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于正则表达式的HTML信息提取 被引量：4

参考文献3

二级参考文献32

共引文献11

同被引文献31

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于正则表达式的HTML信息提取被引量：4