期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
19
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
JavaScript引擎在动态网页采集技术中的应用
被引量:
36
1
作者
王映
于满泉
+2 位作者
李盛韬
王斌
余智华
《计算机应用》
CSCD
北大核心
2004年第2期33-36,共4页
怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决办法和模块实现以及测试结果。
关键词
网页采集
JavaScfipt引擎
URL提取
SpiderMonkey
下载PDF
职称材料
基于LDA模型的网页采集算法设计研究
2
作者
胡六四
《大庆师范学院学报》
2018年第6期55-58,共4页
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。...
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度。实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率。
展开更多
关键词
LDA
网页采集
动态内容
下载PDF
职称材料
HTML结构特征及概念学习聚焦网页采集系统设计
3
作者
吉莉莉
陈悦
《中国新技术新产品》
2009年第20期21-21,共1页
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词
聚焦
网页采集
HTML结构特征
概念学习
下载PDF
职称材料
利用网页信息采集技术建立医院内网新闻平台的探讨
被引量:
1
4
作者
张雷
李菁姝
+1 位作者
马宇新
张玮
《教育教学论坛》
2013年第51期198-199,共2页
利用网页采集技术,搭建内部新闻平台,医护人员通过信息系统内部网络即可及时了解国内和国际新闻动态。
关键词
网页采集
内网新闻
CMS
下载PDF
职称材料
一种互联网新闻网页的采集分析方法
被引量:
1
5
作者
吴定明
赵东岩
《计算机工程与应用》
CSCD
北大核心
2007年第36期169-172,共4页
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、...
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。
展开更多
关键词
链接分析
页面评估
互联网
网页采集
链接识别
链接权重
网页
权重分析
新闻
网页
下载PDF
职称材料
一种基于网页信息抽取的OA期刊资源采集方法研究
被引量:
1
6
作者
黄政
张学福
《数字图书馆论坛》
CSSCI
2017年第5期25-32,共8页
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法...
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了OA期刊资源采集方式,对不遵循OAI-PMH协议的OA期刊资源采集提供方法借鉴。
展开更多
关键词
OA期刊
OA期刊资源
采集
网页
信息
采集
OA期刊资源
采集
系统
下载PDF
职称材料
通用网页数据采集系统设计
7
作者
李波
孙建
《科技与生活》
2010年第2期17-17,18,共2页
设计了一种通用的网页数据采集系统。用户首先设置采集源和目标数据表,系统辅助用户完成其余采集参数的配置,包括动态生成的采集项配置信息,然后系统依据采集配置信息,自动分析页面,匹配采集规则,抽取目的数据,并写入数据库。经...
设计了一种通用的网页数据采集系统。用户首先设置采集源和目标数据表,系统辅助用户完成其余采集参数的配置,包括动态生成的采集项配置信息,然后系统依据采集配置信息,自动分析页面,匹配采集规则,抽取目的数据,并写入数据库。经测试,系统可以满足实际需求。
展开更多
关键词
HTML
网页采集
数据
采集
下载PDF
职称材料
可自定规则的Ajax网页信息采集框架的开发
被引量:
2
8
作者
张小集
白清源
《电脑开发与应用》
2014年第10期29-31,共3页
针对当前对使用了Ajax技术的网页信息采集的需求,介绍了一个Ajax网页信息采集框架的设计与实现,讨论了框架体系结构、工作流程以及核心问题的分析和解决过程,并对框架的使用方法和二次开发作了简要介绍。
关键词
AJAX
网页
信息
采集
主题搜索引擎
网络爬虫
下载PDF
职称材料
网页数据采集算法及在住户调查中的应用
被引量:
2
9
作者
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行...
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
展开更多
关键词
网页
数据
采集
算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
下载PDF
职称材料
基于HTTP协议的业务系统网页数据采集应用集成
被引量:
4
10
作者
路辉
高尚飞
李少龙
《电子技术与软件工程》
2019年第2期1-3,共3页
分析了互联网网页采集技术情况,结合电力营销管理系统,给出基于HTTP协议的业务系统网页数据采集的请求、响应及数据解析的应用集成设计,解决内部业务系统因其他客观条件不开放数据接口时,实现内部业务系统间的便捷数据集成和数据共享。
关键词
HTTP协议
网页
数据
采集
应用集成
下载PDF
职称材料
浅谈网络信息资源采集技术
被引量:
29
11
作者
朱华
《国家图书馆学刊》
2004年第2期38-40,共3页
介绍和探讨网络信息采集技术 ,展望网络信息采集系统应用前景。图 1。参考文献 5。
关键词
网络信息资源
信息
采集
网页采集
网络数据挖掘
信息收集
信息过滤
智能代理
下载PDF
职称材料
基于云计算的政府网站网页在线归档管理平台构建研究
被引量:
5
12
作者
黄新平
《中国档案》
北大核心
2020年第5期72-72,共1页
平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器...
平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器上的资源,合理分配给多个虚拟服务器,通过物理资源的共享提高平台的整体运作效率,保障平台应用层各类应用程序的最佳运行状态。(2)平台层。该层作为整个平台的核心部分。
展开更多
关键词
政府网站
在线归档
数据库
网页采集
浏览器
管理平台
云计算
构建研究
下载PDF
职称材料
利用WGET实现网络文献保存和发布的技术探讨
被引量:
1
13
作者
魏大威
《国家图书馆学刊》
2004年第2期41-45,共5页
介绍网络信息保存方法 ,重点探讨如何利用WGET实现网站镜像 ,以及在站点镜像中所发现的问题和解决的办法。图 2。参考文献 7。
关键词
WGET
网络文献
文献保存
文献发布
网站镜像
网页采集
下载PDF
职称材料
基于突发事件热度的站点地图构建算法
被引量:
6
14
作者
陈翰
韩永峰
李弼程
《计算机应用研究》
CSCD
北大核心
2012年第8期2943-2947,共5页
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含...
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含有网站各版块突发事件热度的站点地图。以该站点地图为指导的网页采集器能够及时调整更新频率,准确采集所需网页,较好地适应监测网站的动态变化。实验表明,在站点地图的指导下,突发事件相关网页的采集有效性和效率均有明显提高。
展开更多
关键词
站点地图
突发事件
网页采集
网络舆情
数据挖掘
下载PDF
职称材料
网络专题知识库关键技术的研究与实现
被引量:
4
15
作者
谈春梅
段卫华
曹松强
《现代图书情报技术》
CSSCI
北大核心
2009年第4期70-74,共5页
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行...
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行研究与实现。
展开更多
关键词
网络专题知识库
网页
元数据
采集
知识点挖掘
数据快速转换
下载PDF
职称材料
搜索引擎技术探密
被引量:
2
16
作者
杨炯
李映
於晓明
《农业网络信息》
2007年第9期120-122,共3页
搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。互联网信息量爆炸式增长,对搜索引擎提出了新要求。论文陈述了搜索引擎的基本工作流程,讨论了网页信息采集技术、网页存储器与分析索引器技术。
关键词
搜索引擎
网页
信息
采集
网页
存储器
分析索引器
下载PDF
职称材料
基于Nutch的专题网页资源采集服务系统的设计与实现
被引量:
3
17
作者
常智荣
马自卫
李高虎
《现代图书情报技术》
CSSCI
北大核心
2010年第3期19-26,共8页
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专...
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。
展开更多
关键词
NUTCH
网页
资源
采集
中文分词插件
WEBSERVICE
集成服务
原文传递
基于Ontology的面向主题的网络信息采集算法
被引量:
6
18
作者
刘军
凌云
王勋
《图书情报工作》
CSSCI
北大核心
2006年第5期78-82,共5页
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题...
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题的网页采集算法,并通过试验证明其优越性。
展开更多
关键词
网页采集
ONTOLOGY
RDFS
原文传递
燕山水库数据采集系统浅析
19
作者
李建
《河南水利与南水北调》
2020年第4期87-88,共2页
文章简要介绍了燕山水库数据采集系统,着重从数据采集服务器和数据采集网页两个部分阐述了数据采集系统的功能和使用方法。数据采集系统化在水库安全监测方面实现自动化、信息化、智能化的过程中起着至关重要的作用,作为水库运行管理的...
文章简要介绍了燕山水库数据采集系统,着重从数据采集服务器和数据采集网页两个部分阐述了数据采集系统的功能和使用方法。数据采集系统化在水库安全监测方面实现自动化、信息化、智能化的过程中起着至关重要的作用,作为水库运行管理的一员,一定要熟练掌握数据采集系统,更好地为水库管理实现标准化、自动化、信息化、智能化打下良好的技术基础。
展开更多
关键词
数据
采集
服务器
数据
采集
网页
单点测量
巡回测量
定时测量
原文传递
题名
JavaScript引擎在动态网页采集技术中的应用
被引量:
36
1
作者
王映
于满泉
李盛韬
王斌
余智华
机构
中国科学院计算技术研究所软件研究室
出处
《计算机应用》
CSCD
北大核心
2004年第2期33-36,共4页
基金
国家973规划资助项目(G1998030413)
中科院计算所领域前沿青年基金资助项目(20016280-8)
文摘
怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决办法和模块实现以及测试结果。
关键词
网页采集
JavaScfipt引擎
URL提取
SpiderMonkey
Keywords
web retrieval
JavaScript engine
URL extraction
SpiderMonkey
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于LDA模型的网页采集算法设计研究
2
作者
胡六四
机构
安徽电子信息职业技术学院软件学院
出处
《大庆师范学院学报》
2018年第6期55-58,共4页
文摘
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度。实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率。
关键词
LDA
网页采集
动态内容
Keywords
LDA
Web collection
Dynamic content
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
HTML结构特征及概念学习聚焦网页采集系统设计
3
作者
吉莉莉
陈悦
机构
北京信息科技大学
北京信息职业技术学院
出处
《中国新技术新产品》
2009年第20期21-21,共1页
文摘
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词
聚焦
网页采集
HTML结构特征
概念学习
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
P631.43 [天文地球—地质矿产勘探]
下载PDF
职称材料
题名
利用网页信息采集技术建立医院内网新闻平台的探讨
被引量:
1
4
作者
张雷
李菁姝
马宇新
张玮
机构
河北医科大学第一医院信息中心
河北医科大学国资处
出处
《教育教学论坛》
2013年第51期198-199,共2页
文摘
利用网页采集技术,搭建内部新闻平台,医护人员通过信息系统内部网络即可及时了解国内和国际新闻动态。
关键词
网页采集
内网新闻
CMS
分类号
G640 [文化科学—高等教育学]
下载PDF
职称材料
题名
一种互联网新闻网页的采集分析方法
被引量:
1
5
作者
吴定明
赵东岩
机构
北京大学计算机研究所
出处
《计算机工程与应用》
CSCD
北大核心
2007年第36期169-172,共4页
基金
国家部委"十一五"预研项目(the Pre-Research Project of the"Eleventh Five-Year-Plan"of China Ministries and Commissions No.2006BAH02A10)
文摘
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。
关键词
链接分析
页面评估
互联网
网页采集
链接识别
链接权重
网页
权重分析
新闻
网页
Keywords
analyze hyperlinks
PageRank
Internet
collect web pages
identify hyperlinks
hyperlink weight
analyze page weight
news page
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于网页信息抽取的OA期刊资源采集方法研究
被引量:
1
6
作者
黄政
张学福
机构
中国农业科学院农业信息研究所
出处
《数字图书馆论坛》
CSSCI
2017年第5期25-32,共8页
文摘
本文结合开放获取期刊(Open Access Journal,OA期刊)资源特点,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。本文从网页资源描述的角度总结OA期刊资源特点并对其分类。基于网页信息抽取方法在OA期刊资源采集适用性,提出一种基于OA期刊网页元数据抽取的采集方法,并在此方法的基础上设计了采集系统。通过对国内外不遵循OAI-PMH协议的10本OA期刊的网站实证采集,得到45 785篇论文的元数据,证明该采集方法能有效地应用于此类资源采集。研究丰富了OA期刊资源采集方式,对不遵循OAI-PMH协议的OA期刊资源采集提供方法借鉴。
关键词
OA期刊
OA期刊资源
采集
网页
信息
采集
OA期刊资源
采集
系统
Keywords
Open Access Journal
Open Access Journal Resource Acquisition
Web Information Acquisition
Open Access Journal Resource Acquisition System
分类号
G255.2 [文化科学—图书馆学]
下载PDF
职称材料
题名
通用网页数据采集系统设计
7
作者
李波
孙建
机构
装备指挥技术学院
出处
《科技与生活》
2010年第2期17-17,18,共2页
文摘
设计了一种通用的网页数据采集系统。用户首先设置采集源和目标数据表,系统辅助用户完成其余采集参数的配置,包括动态生成的采集项配置信息,然后系统依据采集配置信息,自动分析页面,匹配采集规则,抽取目的数据,并写入数据库。经测试,系统可以满足实际需求。
关键词
HTML
网页采集
数据
采集
分类号
TP274.2 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
可自定规则的Ajax网页信息采集框架的开发
被引量:
2
8
作者
张小集
白清源
机构
福州大学
出处
《电脑开发与应用》
2014年第10期29-31,共3页
文摘
针对当前对使用了Ajax技术的网页信息采集的需求,介绍了一个Ajax网页信息采集框架的设计与实现,讨论了框架体系结构、工作流程以及核心问题的分析和解决过程,并对框架的使用方法和二次开发作了简要介绍。
关键词
AJAX
网页
信息
采集
主题搜索引擎
网络爬虫
Keywords
Ajax
Ajax
webpage information collection
major search engine
web spider
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据采集算法及在住户调查中的应用
被引量:
2
9
作者
沈承放
莫达隆
黄文韬
机构
贺州学院数学与计算机学院
广西师范大学数学与统计学院
出处
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
基金
国家社会科学基金西部项目(18XTJ002)
广西师范大学创新计划项目(XYCSZ2019088)
文摘
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
关键词
网页
数据
采集
算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
Keywords
webpage data acquisition algorithm
household survey
web crawler
multithreading
targeted poverty alleviation
python
Selenium
分类号
O212.1 [理学—概率论与数理统计]
下载PDF
职称材料
题名
基于HTTP协议的业务系统网页数据采集应用集成
被引量:
4
10
作者
路辉
高尚飞
李少龙
机构
云南电网有限责任公司信息中心
出处
《电子技术与软件工程》
2019年第2期1-3,共3页
文摘
分析了互联网网页采集技术情况,结合电力营销管理系统,给出基于HTTP协议的业务系统网页数据采集的请求、响应及数据解析的应用集成设计,解决内部业务系统因其他客观条件不开放数据接口时,实现内部业务系统间的便捷数据集成和数据共享。
关键词
HTTP协议
网页
数据
采集
应用集成
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
浅谈网络信息资源采集技术
被引量:
29
11
作者
朱华
机构
国家图书馆报刊资料部
出处
《国家图书馆学刊》
2004年第2期38-40,共3页
文摘
介绍和探讨网络信息采集技术 ,展望网络信息采集系统应用前景。图 1。参考文献 5。
关键词
网络信息资源
信息
采集
网页采集
网络数据挖掘
信息收集
信息过滤
智能代理
分类号
G250.7 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于云计算的政府网站网页在线归档管理平台构建研究
被引量:
5
12
作者
黄新平
机构
清华大学公共管理学院
出处
《中国档案》
北大核心
2020年第5期72-72,共1页
文摘
平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器上的资源,合理分配给多个虚拟服务器,通过物理资源的共享提高平台的整体运作效率,保障平台应用层各类应用程序的最佳运行状态。(2)平台层。该层作为整个平台的核心部分。
关键词
政府网站
在线归档
数据库
网页采集
浏览器
管理平台
云计算
构建研究
分类号
G270.7 [文化科学—档案学]
下载PDF
职称材料
题名
利用WGET实现网络文献保存和发布的技术探讨
被引量:
1
13
作者
魏大威
机构
国家图书馆信息网络部
出处
《国家图书馆学刊》
2004年第2期41-45,共5页
文摘
介绍网络信息保存方法 ,重点探讨如何利用WGET实现网站镜像 ,以及在站点镜像中所发现的问题和解决的办法。图 2。参考文献 7。
关键词
WGET
网络文献
文献保存
文献发布
网站镜像
网页采集
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于突发事件热度的站点地图构建算法
被引量:
6
14
作者
陈翰
韩永峰
李弼程
机构
信息工程大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2012年第8期2943-2947,共5页
基金
国家社会科学基金重大项目(09&ZD014)
文摘
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含有网站各版块突发事件热度的站点地图。以该站点地图为指导的网页采集器能够及时调整更新频率,准确采集所需网页,较好地适应监测网站的动态变化。实验表明,在站点地图的指导下,突发事件相关网页的采集有效性和效率均有明显提高。
关键词
站点地图
突发事件
网页采集
网络舆情
数据挖掘
Keywords
sitemap
emergency
Web clawer
online public opinion
data mine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络专题知识库关键技术的研究与实现
被引量:
4
15
作者
谈春梅
段卫华
曹松强
机构
南京邮电大学图书馆
南京邮电大学计算机学院
出处
《现代图书情报技术》
CSSCI
北大核心
2009年第4期70-74,共5页
基金
江苏省社会科学基金项目"面向创新的网络专题知识组织与个性化服务范式及其理论研究"(项目编号:07XWC011)
南京邮电大学青蓝计划"远程协助实时信息咨询服务系统的构建与理论研究"(项目编号:NY207117)的研究成果之一
文摘
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行研究与实现。
关键词
网络专题知识库
网页
元数据
采集
知识点挖掘
数据快速转换
Keywords
Network subject knowledge database Web pages metadata acquisition Knowledge point mining Data fast transformation
分类号
TP182 [自动化与计算机技术—控制理论与控制工程]
G250.76 [文化科学—图书馆学]
下载PDF
职称材料
题名
搜索引擎技术探密
被引量:
2
16
作者
杨炯
李映
於晓明
机构
苏州大学计算机科学与技术学院
出处
《农业网络信息》
2007年第9期120-122,共3页
文摘
搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。互联网信息量爆炸式增长,对搜索引擎提出了新要求。论文陈述了搜索引擎的基本工作流程,讨论了网页信息采集技术、网页存储器与分析索引器技术。
关键词
搜索引擎
网页
信息
采集
网页
存储器
分析索引器
Keywords
Internet searching engine
Webpage information gathering
Webpage memorizer
Analysis index
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Nutch的专题网页资源采集服务系统的设计与实现
被引量:
3
17
作者
常智荣
马自卫
李高虎
机构
北京邮电大学计算机学院
北京邮电大学图书馆
北京邮电大学资产经营有限公司
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第3期19-26,共8页
文摘
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。
关键词
NUTCH
网页
资源
采集
中文分词插件
WEBSERVICE
集成服务
Keywords
Nutch Website harvest Chinese analyzer plugin Webservice Integration services
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于Ontology的面向主题的网络信息采集算法
被引量:
6
18
作者
刘军
凌云
王勋
机构
秦山学院
浙江工商大学计算机与信息工程学院
出处
《图书情报工作》
CSSCI
北大核心
2006年第5期78-82,共5页
基金
浙江省2004年自然基金项目"面向电子商务的语义信息搜索与挖掘研究"(项目编号:M063149)的研究成果之一。
文摘
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题的网页采集算法,并通过试验证明其优越性。
关键词
网页采集
ONTOLOGY
RDFS
Keywords
page crawling Ontology rdfs
分类号
G354 [文化科学—情报学]
原文传递
题名
燕山水库数据采集系统浅析
19
作者
李建
机构
河南省燕山水库管理局
出处
《河南水利与南水北调》
2020年第4期87-88,共2页
文摘
文章简要介绍了燕山水库数据采集系统,着重从数据采集服务器和数据采集网页两个部分阐述了数据采集系统的功能和使用方法。数据采集系统化在水库安全监测方面实现自动化、信息化、智能化的过程中起着至关重要的作用,作为水库运行管理的一员,一定要熟练掌握数据采集系统,更好地为水库管理实现标准化、自动化、信息化、智能化打下良好的技术基础。
关键词
数据
采集
服务器
数据
采集
网页
单点测量
巡回测量
定时测量
分类号
TV697 [水利工程—水利水电工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
JavaScript引擎在动态网页采集技术中的应用
王映
于满泉
李盛韬
王斌
余智华
《计算机应用》
CSCD
北大核心
2004
36
下载PDF
职称材料
2
基于LDA模型的网页采集算法设计研究
胡六四
《大庆师范学院学报》
2018
0
下载PDF
职称材料
3
HTML结构特征及概念学习聚焦网页采集系统设计
吉莉莉
陈悦
《中国新技术新产品》
2009
0
下载PDF
职称材料
4
利用网页信息采集技术建立医院内网新闻平台的探讨
张雷
李菁姝
马宇新
张玮
《教育教学论坛》
2013
1
下载PDF
职称材料
5
一种互联网新闻网页的采集分析方法
吴定明
赵东岩
《计算机工程与应用》
CSCD
北大核心
2007
1
下载PDF
职称材料
6
一种基于网页信息抽取的OA期刊资源采集方法研究
黄政
张学福
《数字图书馆论坛》
CSSCI
2017
1
下载PDF
职称材料
7
通用网页数据采集系统设计
李波
孙建
《科技与生活》
2010
0
下载PDF
职称材料
8
可自定规则的Ajax网页信息采集框架的开发
张小集
白清源
《电脑开发与应用》
2014
2
下载PDF
职称材料
9
网页数据采集算法及在住户调查中的应用
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021
2
下载PDF
职称材料
10
基于HTTP协议的业务系统网页数据采集应用集成
路辉
高尚飞
李少龙
《电子技术与软件工程》
2019
4
下载PDF
职称材料
11
浅谈网络信息资源采集技术
朱华
《国家图书馆学刊》
2004
29
下载PDF
职称材料
12
基于云计算的政府网站网页在线归档管理平台构建研究
黄新平
《中国档案》
北大核心
2020
5
下载PDF
职称材料
13
利用WGET实现网络文献保存和发布的技术探讨
魏大威
《国家图书馆学刊》
2004
1
下载PDF
职称材料
14
基于突发事件热度的站点地图构建算法
陈翰
韩永峰
李弼程
《计算机应用研究》
CSCD
北大核心
2012
6
下载PDF
职称材料
15
网络专题知识库关键技术的研究与实现
谈春梅
段卫华
曹松强
《现代图书情报技术》
CSSCI
北大核心
2009
4
下载PDF
职称材料
16
搜索引擎技术探密
杨炯
李映
於晓明
《农业网络信息》
2007
2
下载PDF
职称材料
17
基于Nutch的专题网页资源采集服务系统的设计与实现
常智荣
马自卫
李高虎
《现代图书情报技术》
CSSCI
北大核心
2010
3
原文传递
18
基于Ontology的面向主题的网络信息采集算法
刘军
凌云
王勋
《图书情报工作》
CSSCI
北大核心
2006
6
原文传递
19
燕山水库数据采集系统浅析
李建
《河南水利与南水北调》
2020
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部