-
题名模板化的Web列表页面信息自动抽取方法的研究
被引量:1
- 1
-
-
作者
王琛
-
机构
江苏建筑职业技术学院信息传媒与艺术学院
-
出处
《现代计算机(中旬刊)》
2013年第8期77-80,共4页
-
基金
江苏建筑职业技术学院院级科研项目(No.JYA310-14)
-
文摘
提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。
-
关键词
WEB信息抽取
列表页面
DOM
网页去噪
数据属性对齐
-
Keywords
Web Information Extraction
List Pages
DOM
Web Noise Removing
Alignment of Data Attributes
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于web的视频聚合解决方案
- 2
-
-
作者
柯菁
-
机构
福建教育学院信息技术系
-
出处
《海峡科学》
2007年第7期63-65,69,共4页
-
文摘
本文利用xml和java的httpclient技术及正则表,通过对网络中视频信息的列表抓取,列表页面分析获得视频的名称、图片地址、视频播放页地址、视频播放页连接地址、标签和视频流地址,充分挖掘网络视频资源,节省存储空间和带宽;其次,通过抓取分析视频信息的rss文件,获取其新增的内容扩大自己视频资源,定时抓取他人主页,分析视频信息获取焦点的视频内容,以减少编辑成本;最后运用lucene搜索引擎框架,把获取的信息建成索引库,为客户提供强大搜索功能。
-
关键词
列表抓取
列表页面分析
视频信息的rss文件
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-