期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
模板化的Web列表页面信息自动抽取方法的研究 被引量:1
1
作者 王琛 《现代计算机(中旬刊)》 2013年第8期77-80,共4页
提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该... 提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。 展开更多
关键词 WEB信息抽取 列表页面 DOM 网页去噪 数据属性对齐
下载PDF
基于web的视频聚合解决方案
2
作者 柯菁 《海峡科学》 2007年第7期63-65,69,共4页
本文利用xml和java的httpclient技术及正则表,通过对网络中视频信息的列表抓取,列表页面分析获得视频的名称、图片地址、视频播放页地址、视频播放页连接地址、标签和视频流地址,充分挖掘网络视频资源,节省存储空间和带宽;其次,通过抓... 本文利用xml和java的httpclient技术及正则表,通过对网络中视频信息的列表抓取,列表页面分析获得视频的名称、图片地址、视频播放页地址、视频播放页连接地址、标签和视频流地址,充分挖掘网络视频资源,节省存储空间和带宽;其次,通过抓取分析视频信息的rss文件,获取其新增的内容扩大自己视频资源,定时抓取他人主页,分析视频信息获取焦点的视频内容,以减少编辑成本;最后运用lucene搜索引擎框架,把获取的信息建成索引库,为客户提供强大搜索功能。 展开更多
关键词 列表抓取 列表页面分析 视频信息的rss文件
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部