摘要
在实际应用中经常需要分析Web页面的源代码,对HTML标记进行分析提取有用的数据。研究了如何利用正则表达式获取常见的HTML标记内容,实现了对HTML信息的定制提取,并以如何抓取一个学生成绩表的数据信息为例介绍了其实现过程。
Under the actual application, we need to information from html tags. The paper researched how to get realized to extract custom html tag information, and took illustrate the implementation process. analyse source code of web and extract useful common html tag content by regular expressions, grabing a student score data as an example to
出处
《电脑开发与应用》
2012年第4期44-46,共3页
Computer Development & Applications
关键词
正则表达式
HTML
信息提取
regular expressions, HTML, information extraction