期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
19
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Web信息采集中的哈希函数比较
被引量:
8
1
作者
吴丽辉
白硕
+1 位作者
张刚
张凯
《小型微型计算机系统》
CSCD
北大核心
2006年第4期673-676,共4页
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突...
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
展开更多
关键词
web信息采集
哈希函数
URL
下载PDF
职称材料
一个个性化的Web信息采集模型
被引量:
17
2
作者
吴丽辉
王斌
张刚
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第22期86-88,共3页
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息...
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。
展开更多
关键词
个性化
个性化的
web信息采集
搜索引擎
下载PDF
职称材料
基于元搜索引擎的个性化Web信息采集
被引量:
12
3
作者
王忠
程磊
《计算机工程与设计》
CSCD
北大核心
2009年第13期3117-3119,共3页
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标We...
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容。在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量。重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合。
展开更多
关键词
元搜索引擎
个性化
web信息采集
兴趣向量
体系结构
下载PDF
职称材料
Web信息采集中军事主题信息的识别
被引量:
2
4
作者
邵晓良
刘红
《情报杂志》
CSSCI
北大核心
2004年第7期14-16,共3页
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的...
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的效率和精度 ,该算法同样适用于其他领域的主题信息识别。
展开更多
关键词
web信息采集
军事主题
信息
信息
识别
主题词典
网页文本
分词处理
下载PDF
职称材料
基于MongoDB的Web信息采集系统应用研究
被引量:
1
5
作者
孙美卫
《湖南邮电职业技术学院学报》
2017年第2期35-38,共4页
在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试...
在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试结果表明:在挖掘Web日志数据的情况下,能将数据中的主要访问模式进行系统化更新,从而为网站的结构模式采集提供有效信息。
展开更多
关键词
Mongo
DB
web信息采集
系统
日志分析
下载PDF
职称材料
分布式Web信息采集系统的设计与实现
被引量:
7
6
作者
金岳富
范剑英
冯扬
《哈尔滨理工大学学报》
CAS
北大核心
2010年第1期116-119,123,共5页
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该...
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性.
展开更多
关键词
分布式系统
web信息采集
搜索引擎
信息
处理
下载PDF
职称材料
基于NekoHTML的Web信息采集研究
7
作者
李娟
《现代计算机》
2014年第5期77-80,共4页
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。
关键词
web信息采集
下载PDF
职称材料
Web信息采集系统的设计与实现
被引量:
2
8
作者
邓宇
夏红霞
《微计算机信息》
2009年第24期83-85,共3页
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题。Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的...
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题。Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的过程。
展开更多
关键词
信息
资源
web信息采集
网页特征
下载PDF
职称材料
基于XML的Web信息采集系统设计与实现
被引量:
3
9
作者
王磊
《齐齐哈尔大学学报(自然科学版)》
2017年第2期25-28,共4页
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率...
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。
展开更多
关键词
web信息采集
抽取规则
XML
下载PDF
职称材料
分布式JS解析在Web信息采集系统中的应用
10
作者
梁元
《电子技术与软件工程》
2020年第10期163-164,共2页
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处...
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处异构集群环境,基于原本Nutch系统文件的存储结构基础之上,设计整体系统文件数据结构及存储格式。发现设计的该分布式JS解析应用于Web信息采集系统思路,能够动态化、高效且准确的实现Web信息采集,为该领域提出出信息采集技术新思路。
展开更多
关键词
分布式JS解析
web信息采集
Hadoop调度算法
下载PDF
职称材料
Web信息采集技术研究与发展
被引量:
10
11
作者
庞景安
《情报科学》
CSSCI
北大核心
2009年第12期1891-1895,共5页
本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于...
本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于元搜索的信息采集等。
展开更多
关键词
web信息采集
信息
采集
技术
搜索引擎
网络计量学
原文传递
基于Web-Harvest的Web铁路信息采集系统的设计与应用
被引量:
2
12
作者
汤立
李雪山
《铁路计算机应用》
2013年第3期41-44,共4页
基于Web-Harvest开源软件,并对其功能进行了扩展,设计并实现了具有较强通用性的Web铁路信息采集系统,阐释了系统构架和相关的技术,并通过实例介绍了该系统的应用。
关键词
web
—Harvest
web信息采集
开源
下载PDF
职称材料
基于大数据的小微企业统计信息采集策略
被引量:
4
13
作者
张玉明
张远远
《统计与决策》
CSSCI
北大核心
2017年第14期178-181,共4页
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术...
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。
展开更多
关键词
大数据
小微企业
信息
信息
不对称
web信息采集
主题聚焦网络爬虫
下载PDF
职称材料
网络信息采集中链接与主题相关性的判定研究
被引量:
1
14
作者
王兰成
朱建华
《计算机应用与软件》
CSCD
北大核心
2012年第5期209-211,240,共4页
面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定...
面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。
展开更多
关键词
web信息采集
语义分析
URL链接
主题相关性
下载PDF
职称材料
基于Web的新闻采集系统
被引量:
2
15
作者
胡静芳
沈亚斌
《电脑知识与技术》
2009年第7期5111-5113,共3页
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础...
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。
展开更多
关键词
web信息采集
正则表达式
采集
规则
下载PDF
职称材料
一种适用于关键性业务系统的信息采集和处理模型
16
作者
潘家飞
苗红斌
熊桂喜
《计算机应用研究》
CSCD
北大核心
2004年第8期195-196,199,共3页
介绍了一种适用于关键性大型业务系统的信息采集和处理模型。该模型较好地实现了基于WWW平台 ,采用低速连接来实现大规模的信息采集、处理、数据分发的功能 ,同时物理隔离和防火墙技术确保了系统的可靠性、安全性。根据该模型成功地设...
介绍了一种适用于关键性大型业务系统的信息采集和处理模型。该模型较好地实现了基于WWW平台 ,采用低速连接来实现大规模的信息采集、处理、数据分发的功能 ,同时物理隔离和防火墙技术确保了系统的可靠性、安全性。根据该模型成功地设计和实现了一个大型的关键性业务系统。
展开更多
关键词
web信息采集
分布式数据库
物理隔离
下载PDF
职称材料
可配置Web Robot的研究与实现
17
作者
郑莉霞
刘连芳
《计算机技术与发展》
2007年第6期83-86,共4页
针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robo...
针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robot的搜索策略,通过合理扩展可适用于不同类型的Web资源搜索,能够根据不同的个性化搜索需求灵活定制相应的Web Robot,有效地节约了开发Web Robot的各项成本。
展开更多
关键词
web
ROBOT
搜索引擎
web信息采集
下载PDF
职称材料
利用构建语义词典的查询自动分类方法
被引量:
3
18
作者
岳峰
孙亮
+2 位作者
王宽全
王永吉
左旺孟
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2008年第7期1094-1098,共5页
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该...
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.
展开更多
关键词
搜索引擎
查询分类
语义词典
基于主题的
web信息采集
下载PDF
职称材料
影视节目扁平化标签获取技术研究
被引量:
1
19
作者
殷复莲
徐荣阁
+1 位作者
刘志心
冀美琪
《软件导刊》
2019年第7期150-153,158,共5页
针对影视节目标签手动采集费时费力,以及传统树状标签体系信息冗余且不全面等问题,提出一种标签自动获取技术。通过数据爬取技术采集与节目相关的互联网原始数据,然后通过文本分析、同义匹配、数据库匹配等技术进行数据分析与挖掘,最终...
针对影视节目标签手动采集费时费力,以及传统树状标签体系信息冗余且不全面等问题,提出一种标签自动获取技术。通过数据爬取技术采集与节目相关的互联网原始数据,然后通过文本分析、同义匹配、数据库匹配等技术进行数据分析与挖掘,最终实现对扁平化节目标签的获取。实验结果表明,在选取8~10个标签时,该算法准确率为84.3%~92.4%,召回率为53.4%~63.1%,说明该算法获取的标签能够很好地对影视节目进行描述。
展开更多
关键词
扁平化标签
标签自动获取
web
自动
信息
采集
标签库匹配
下载PDF
职称材料
题名
Web信息采集中的哈希函数比较
被引量:
8
1
作者
吴丽辉
白硕
张刚
张凯
机构
中国科学院计算技术研究所软件研究室
中国科学院研究生院
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第4期673-676,共4页
基金
国家"九七三"项目基金(2004CB3181096)资助
文摘
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
关键词
web信息采集
哈希函数
URL
Keywords
web
crawling
hashing
URL
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一个个性化的Web信息采集模型
被引量:
17
2
作者
吴丽辉
王斌
张刚
机构
中国科学院计算技术研究所软件研究室
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第22期86-88,共3页
文摘
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。
关键词
个性化
个性化的
web信息采集
搜索引擎
Keywords
Personalization
Customized
web
crawling
Search engine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于元搜索引擎的个性化Web信息采集
被引量:
12
3
作者
王忠
程磊
机构
武汉工程大学计算机科学与工程学院
支付宝(中国)网络技术有限公司
出处
《计算机工程与设计》
CSCD
北大核心
2009年第13期3117-3119,共3页
文摘
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容。在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量。重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合。
关键词
元搜索引擎
个性化
web信息采集
兴趣向量
体系结构
Keywords
meta search engine
customized
web
information crawling
interest vector
system architecture
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web信息采集中军事主题信息的识别
被引量:
2
4
作者
邵晓良
刘红
机构
解放军第二军医大学网络信息中心
出处
《情报杂志》
CSSCI
北大核心
2004年第7期14-16,共3页
文摘
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的效率和精度 ,该算法同样适用于其他领域的主题信息识别。
关键词
web信息采集
军事主题
信息
信息
识别
主题词典
网页文本
分词处理
分类号
E0-03 [军事—军事理论]
G250.73 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于MongoDB的Web信息采集系统应用研究
被引量:
1
5
作者
孙美卫
机构
泉州经贸职业技术学院
出处
《湖南邮电职业技术学院学报》
2017年第2期35-38,共4页
文摘
在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试结果表明:在挖掘Web日志数据的情况下,能将数据中的主要访问模式进行系统化更新,从而为网站的结构模式采集提供有效信息。
关键词
Mongo
DB
web信息采集
系统
日志分析
Keywords
MongoDB
web
information acquisition system
log analysis
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
分布式Web信息采集系统的设计与实现
被引量:
7
6
作者
金岳富
范剑英
冯扬
机构
哈尔滨理工大学测控技术与通信工程学院
出处
《哈尔滨理工大学学报》
CAS
北大核心
2010年第1期116-119,123,共5页
文摘
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性.
关键词
分布式系统
web信息采集
搜索引擎
信息
处理
Keywords
distributed system
web
crawler
search engine
information processing
分类号
TP315 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于NekoHTML的Web信息采集研究
7
作者
李娟
机构
呼和浩特民族学院计算机系
出处
《现代计算机》
2014年第5期77-80,共4页
文摘
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。
关键词
web信息采集
Keywords
NekoHTML
DOM
web
Information Collection
NekoHTML
DOM
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web信息采集系统的设计与实现
被引量:
2
8
作者
邓宇
夏红霞
机构
武汉理工大学计算机科学与技术学院
出处
《微计算机信息》
2009年第24期83-85,共3页
文摘
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题。Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的过程。
关键词
信息
资源
web信息采集
网页特征
Keywords
information resources
web
information gathering
web
pages characteristic
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于XML的Web信息采集系统设计与实现
被引量:
3
9
作者
王磊
机构
蚌埠学院计算机工程学院
出处
《齐齐哈尔大学学报(自然科学版)》
2017年第2期25-28,共4页
基金
安徽省高校自然科学一般项目(113052015KJ09)
文摘
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。
关键词
web信息采集
抽取规则
XML
Keywords
web
information collection
extraction rules
XML
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
分布式JS解析在Web信息采集系统中的应用
10
作者
梁元
机构
中国航发贵州黎阳航空动力有限公司
出处
《电子技术与软件工程》
2020年第10期163-164,共2页
文摘
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处异构集群环境,基于原本Nutch系统文件的存储结构基础之上,设计整体系统文件数据结构及存储格式。发现设计的该分布式JS解析应用于Web信息采集系统思路,能够动态化、高效且准确的实现Web信息采集,为该领域提出出信息采集技术新思路。
关键词
分布式JS解析
web信息采集
Hadoop调度算法
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web信息采集技术研究与发展
被引量:
10
11
作者
庞景安
机构
中国科学技术信息研究所
出处
《情报科学》
CSSCI
北大核心
2009年第12期1891-1895,共5页
基金
2008年度国家社会科学基金资助项(08BTQ030)
文摘
本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于元搜索的信息采集等。
关键词
web信息采集
信息
采集
技术
搜索引擎
网络计量学
Keywords
web
information collection
information collecting technology
search engine
web
ometrics
分类号
G354 [文化科学—情报学]
原文传递
题名
基于Web-Harvest的Web铁路信息采集系统的设计与应用
被引量:
2
12
作者
汤立
李雪山
机构
中国铁道科学研究院科学技术信息研究所
出处
《铁路计算机应用》
2013年第3期41-44,共4页
基金
中国铁道科学研究院基金项目(2010YJ44)
文摘
基于Web-Harvest开源软件,并对其功能进行了扩展,设计并实现了具有较强通用性的Web铁路信息采集系统,阐释了系统构架和相关的技术,并通过实例介绍了该系统的应用。
关键词
web
—Harvest
web信息采集
开源
Keywords
web
-Harvest
web
information harvest
open source
分类号
U285 [交通运输工程—交通信息工程及控制]
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于大数据的小微企业统计信息采集策略
被引量:
4
13
作者
张玉明
张远远
机构
山东大学管理学院
出处
《统计与决策》
CSSCI
北大核心
2017年第14期178-181,共4页
基金
国家社会科学基金重大项目(15ZDB157)
国家社会科学基金重点项目(12AZD098)
国家统计局全国统计科学研究重点项目(2013LZ23)
文摘
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。
关键词
大数据
小微企业
信息
信息
不对称
web信息采集
主题聚焦网络爬虫
Keywords
big data
small and micro enterprises information
information asymmetry
web
information collection
theme fo- cused
web
crawler
分类号
F276.3 [经济管理—企业管理]
下载PDF
职称材料
题名
网络信息采集中链接与主题相关性的判定研究
被引量:
1
14
作者
王兰成
朱建华
机构
南京政治学院上海校区军事信息管理系
出处
《计算机应用与软件》
CSCD
北大核心
2012年第5期209-211,240,共4页
文摘
面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。
关键词
web信息采集
语义分析
URL链接
主题相关性
Keywords
web
information collection Semantic analysis URL link Subject relevance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Web的新闻采集系统
被引量:
2
15
作者
胡静芳
沈亚斌
机构
景德镇陶瓷学院信息工程学院
中国直升机设计研究所
出处
《电脑知识与技术》
2009年第7期5111-5113,共3页
文摘
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。
关键词
web信息采集
正则表达式
采集
规则
Keywords
web
-information extraction
regular expressions
extraction rule
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种适用于关键性业务系统的信息采集和处理模型
16
作者
潘家飞
苗红斌
熊桂喜
机构
北京航空航天大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2004年第8期195-196,199,共3页
文摘
介绍了一种适用于关键性大型业务系统的信息采集和处理模型。该模型较好地实现了基于WWW平台 ,采用低速连接来实现大规模的信息采集、处理、数据分发的功能 ,同时物理隔离和防火墙技术确保了系统的可靠性、安全性。根据该模型成功地设计和实现了一个大型的关键性业务系统。
关键词
web信息采集
分布式数据库
物理隔离
Keywords
web
Information Collect
Distributed Database
Physical Isolation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
可配置Web Robot的研究与实现
17
作者
郑莉霞
刘连芳
机构
广西大学计算机与电子信息学院
出处
《计算机技术与发展》
2007年第6期83-86,共4页
文摘
针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robot的搜索策略,通过合理扩展可适用于不同类型的Web资源搜索,能够根据不同的个性化搜索需求灵活定制相应的Web Robot,有效地节约了开发Web Robot的各项成本。
关键词
web
ROBOT
搜索引擎
web信息采集
Keywords
web
Robot
marching engine
web
information collection
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
利用构建语义词典的查询自动分类方法
被引量:
3
18
作者
岳峰
孙亮
王宽全
王永吉
左旺孟
机构
哈尔滨工业大学计算机学院
中国科学院软件研究所互联网实验室
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2008年第7期1094-1098,共5页
基金
国家自然科学基金资助项目(60571025)
国家高技术研究发展计划资助项目(2006AA01Z308)
文摘
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.
关键词
搜索引擎
查询分类
语义词典
基于主题的
web信息采集
Keywords
search engine
query classification
semantic lexicon
focused
web
crawling
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
影视节目扁平化标签获取技术研究
被引量:
1
19
作者
殷复莲
徐荣阁
刘志心
冀美琪
机构
中国传媒大学信息与通信工程学院
出处
《软件导刊》
2019年第7期150-153,158,共5页
基金
国家自然科学基金项目(61801441)
国家级大学生创新创业训练计划项目(JG18110205)
文摘
针对影视节目标签手动采集费时费力,以及传统树状标签体系信息冗余且不全面等问题,提出一种标签自动获取技术。通过数据爬取技术采集与节目相关的互联网原始数据,然后通过文本分析、同义匹配、数据库匹配等技术进行数据分析与挖掘,最终实现对扁平化节目标签的获取。实验结果表明,在选取8~10个标签时,该算法准确率为84.3%~92.4%,召回率为53.4%~63.1%,说明该算法获取的标签能够很好地对影视节目进行描述。
关键词
扁平化标签
标签自动获取
web
自动
信息
采集
标签库匹配
Keywords
flattened tag
automatic tag acquisition
web
automatic information collection
tag library matching
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Web信息采集中的哈希函数比较
吴丽辉
白硕
张刚
张凯
《小型微型计算机系统》
CSCD
北大核心
2006
8
下载PDF
职称材料
2
一个个性化的Web信息采集模型
吴丽辉
王斌
张刚
《计算机工程》
EI
CAS
CSCD
北大核心
2005
17
下载PDF
职称材料
3
基于元搜索引擎的个性化Web信息采集
王忠
程磊
《计算机工程与设计》
CSCD
北大核心
2009
12
下载PDF
职称材料
4
Web信息采集中军事主题信息的识别
邵晓良
刘红
《情报杂志》
CSSCI
北大核心
2004
2
下载PDF
职称材料
5
基于MongoDB的Web信息采集系统应用研究
孙美卫
《湖南邮电职业技术学院学报》
2017
1
下载PDF
职称材料
6
分布式Web信息采集系统的设计与实现
金岳富
范剑英
冯扬
《哈尔滨理工大学学报》
CAS
北大核心
2010
7
下载PDF
职称材料
7
基于NekoHTML的Web信息采集研究
李娟
《现代计算机》
2014
0
下载PDF
职称材料
8
Web信息采集系统的设计与实现
邓宇
夏红霞
《微计算机信息》
2009
2
下载PDF
职称材料
9
基于XML的Web信息采集系统设计与实现
王磊
《齐齐哈尔大学学报(自然科学版)》
2017
3
下载PDF
职称材料
10
分布式JS解析在Web信息采集系统中的应用
梁元
《电子技术与软件工程》
2020
0
下载PDF
职称材料
11
Web信息采集技术研究与发展
庞景安
《情报科学》
CSSCI
北大核心
2009
10
原文传递
12
基于Web-Harvest的Web铁路信息采集系统的设计与应用
汤立
李雪山
《铁路计算机应用》
2013
2
下载PDF
职称材料
13
基于大数据的小微企业统计信息采集策略
张玉明
张远远
《统计与决策》
CSSCI
北大核心
2017
4
下载PDF
职称材料
14
网络信息采集中链接与主题相关性的判定研究
王兰成
朱建华
《计算机应用与软件》
CSCD
北大核心
2012
1
下载PDF
职称材料
15
基于Web的新闻采集系统
胡静芳
沈亚斌
《电脑知识与技术》
2009
2
下载PDF
职称材料
16
一种适用于关键性业务系统的信息采集和处理模型
潘家飞
苗红斌
熊桂喜
《计算机应用研究》
CSCD
北大核心
2004
0
下载PDF
职称材料
17
可配置Web Robot的研究与实现
郑莉霞
刘连芳
《计算机技术与发展》
2007
0
下载PDF
职称材料
18
利用构建语义词典的查询自动分类方法
岳峰
孙亮
王宽全
王永吉
左旺孟
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2008
3
下载PDF
职称材料
19
影视节目扁平化标签获取技术研究
殷复莲
徐荣阁
刘志心
冀美琪
《软件导刊》
2019
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部