期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
JavaScript引擎在动态网页采集技术中的应用 被引量:36
1
作者 王映 于满泉 +2 位作者 李盛韬 王斌 余智华 《计算机应用》 CSCD 北大核心 2004年第2期33-36,共4页
怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决办法和模块实现以及测试结果。
关键词 网页采集 JavaScfipt引擎 URL提取 SpiderMonkey
下载PDF
基于LDA模型的网页采集算法设计研究
2
作者 胡六四 《大庆师范学院学报》 2018年第6期55-58,共4页
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。... 根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度。实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率。 展开更多
关键词 LDA 网页采集 动态内容
下载PDF
HTML结构特征及概念学习聚焦网页采集系统设计
3
作者 吉莉莉 陈悦 《中国新技术新产品》 2009年第20期21-21,共1页
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词 聚焦网页采集 HTML结构特征 概念学习
下载PDF
利用网页信息采集技术建立医院内网新闻平台的探讨 被引量:1
4
作者 张雷 李菁姝 +1 位作者 马宇新 张玮 《教育教学论坛》 2013年第51期198-199,共2页
利用网页采集技术,搭建内部新闻平台,医护人员通过信息系统内部网络即可及时了解国内和国际新闻动态。
关键词 网页采集 内网新闻 CMS
下载PDF
一种互联网新闻网页的采集分析方法 被引量:1
5
作者 吴定明 赵东岩 《计算机工程与应用》 CSCD 北大核心 2007年第36期169-172,共4页
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、... 设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。 展开更多
关键词 链接分析 页面评估 互联网 网页采集 链接识别 链接权重 网页权重分析 新闻网页
下载PDF
一种基于网页信息抽取的OA期刊资源采集方法研究 被引量:1
6
作者 黄政 张学福 《数字图书馆论坛》 CSSCI 2017年第5期25-32,共8页
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法... 本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了OA期刊资源采集方式,对不遵循OAI-PMH协议的OA期刊资源采集提供方法借鉴。 展开更多
关键词 OA期刊 OA期刊资源采集 网页信息采集 OA期刊资源采集系统
下载PDF
通用网页数据采集系统设计
7
作者 李波 孙建 《科技与生活》 2010年第2期17-17,18,共2页
设计了一种通用的网页数据采集系统。用户首先设置采集源和目标数据表,系统辅助用户完成其余采集参数的配置,包括动态生成的采集项配置信息,然后系统依据采集配置信息,自动分析页面,匹配采集规则,抽取目的数据,并写入数据库。经... 设计了一种通用的网页数据采集系统。用户首先设置采集源和目标数据表,系统辅助用户完成其余采集参数的配置,包括动态生成的采集项配置信息,然后系统依据采集配置信息,自动分析页面,匹配采集规则,抽取目的数据,并写入数据库。经测试,系统可以满足实际需求。 展开更多
关键词 HTML网页采集 数据采集
下载PDF
可自定规则的Ajax网页信息采集框架的开发 被引量:2
8
作者 张小集 白清源 《电脑开发与应用》 2014年第10期29-31,共3页
针对当前对使用了Ajax技术的网页信息采集的需求,介绍了一个Ajax网页信息采集框架的设计与实现,讨论了框架体系结构、工作流程以及核心问题的分析和解决过程,并对框架的使用方法和二次开发作了简要介绍。
关键词 AJAX 网页信息采集 主题搜索引擎 网络爬虫
下载PDF
网页数据采集算法及在住户调查中的应用 被引量:2
9
作者 沈承放 莫达隆 黄文韬 《统计与决策》 CSSCI 北大核心 2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行... 目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。 展开更多
关键词 网页数据采集算法 住户调查 网络爬虫 多线程 精准扶贫 PYTHON SELENIUM
下载PDF
基于HTTP协议的业务系统网页数据采集应用集成 被引量:4
10
作者 路辉 高尚飞 李少龙 《电子技术与软件工程》 2019年第2期1-3,共3页
分析了互联网网页采集技术情况,结合电力营销管理系统,给出基于HTTP协议的业务系统网页数据采集的请求、响应及数据解析的应用集成设计,解决内部业务系统因其他客观条件不开放数据接口时,实现内部业务系统间的便捷数据集成和数据共享。
关键词 HTTP协议 网页数据采集 应用集成
下载PDF
浅谈网络信息资源采集技术 被引量:29
11
作者 朱华 《国家图书馆学刊》 2004年第2期38-40,共3页
介绍和探讨网络信息采集技术 ,展望网络信息采集系统应用前景。图 1。参考文献 5。
关键词 网络信息资源 信息采集 网页采集 网络数据挖掘 信息收集 信息过滤 智能代理
下载PDF
基于云计算的政府网站网页在线归档管理平台构建研究 被引量:5
12
作者 黄新平 《中国档案》 北大核心 2020年第5期72-72,共1页
平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器... 平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器上的资源,合理分配给多个虚拟服务器,通过物理资源的共享提高平台的整体运作效率,保障平台应用层各类应用程序的最佳运行状态。(2)平台层。该层作为整个平台的核心部分。 展开更多
关键词 政府网站 在线归档 数据库 网页采集 浏览器 管理平台 云计算 构建研究
下载PDF
利用WGET实现网络文献保存和发布的技术探讨 被引量:1
13
作者 魏大威 《国家图书馆学刊》 2004年第2期41-45,共5页
介绍网络信息保存方法 ,重点探讨如何利用WGET实现网站镜像 ,以及在站点镜像中所发现的问题和解决的办法。图 2。参考文献 7。
关键词 WGET 网络文献 文献保存 文献发布 网站镜像 网页采集
下载PDF
基于突发事件热度的站点地图构建算法 被引量:6
14
作者 陈翰 韩永峰 李弼程 《计算机应用研究》 CSCD 北大核心 2012年第8期2943-2947,共5页
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含... 为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含有网站各版块突发事件热度的站点地图。以该站点地图为指导的网页采集器能够及时调整更新频率,准确采集所需网页,较好地适应监测网站的动态变化。实验表明,在站点地图的指导下,突发事件相关网页的采集有效性和效率均有明显提高。 展开更多
关键词 站点地图 突发事件 网页采集 网络舆情 数据挖掘
下载PDF
网络专题知识库关键技术的研究与实现 被引量:4
15
作者 谈春梅 段卫华 曹松强 《现代图书情报技术》 CSSCI 北大核心 2009年第4期70-74,共5页
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行... 使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行研究与实现。 展开更多
关键词 网络专题知识库 网页元数据采集 知识点挖掘 数据快速转换
下载PDF
搜索引擎技术探密 被引量:2
16
作者 杨炯 李映 於晓明 《农业网络信息》 2007年第9期120-122,共3页
搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。互联网信息量爆炸式增长,对搜索引擎提出了新要求。论文陈述了搜索引擎的基本工作流程,讨论了网页信息采集技术、网页存储器与分析索引器技术。
关键词 搜索引擎 网页信息采集 网页存储器 分析索引器
下载PDF
基于Nutch的专题网页资源采集服务系统的设计与实现 被引量:3
17
作者 常智荣 马自卫 李高虎 《现代图书情报技术》 CSSCI 北大核心 2010年第3期19-26,共8页
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专... 在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。 展开更多
关键词 NUTCH 网页资源采集 中文分词插件 WEBSERVICE 集成服务
原文传递
基于Ontology的面向主题的网络信息采集算法 被引量:6
18
作者 刘军 凌云 王勋 《图书情报工作》 CSSCI 北大核心 2006年第5期78-82,共5页
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题... 介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题的网页采集算法,并通过试验证明其优越性。 展开更多
关键词 网页采集 ONTOLOGY RDFS
原文传递
燕山水库数据采集系统浅析
19
作者 李建 《河南水利与南水北调》 2020年第4期87-88,共2页
文章简要介绍了燕山水库数据采集系统,着重从数据采集服务器和数据采集网页两个部分阐述了数据采集系统的功能和使用方法。数据采集系统化在水库安全监测方面实现自动化、信息化、智能化的过程中起着至关重要的作用,作为水库运行管理的... 文章简要介绍了燕山水库数据采集系统,着重从数据采集服务器和数据采集网页两个部分阐述了数据采集系统的功能和使用方法。数据采集系统化在水库安全监测方面实现自动化、信息化、智能化的过程中起着至关重要的作用,作为水库运行管理的一员,一定要熟练掌握数据采集系统,更好地为水库管理实现标准化、自动化、信息化、智能化打下良好的技术基础。 展开更多
关键词 数据采集服务器 数据采集网页 单点测量 巡回测量 定时测量
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部