期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
Web信息采集中的哈希函数比较 被引量:8
1
作者 吴丽辉 白硕 +1 位作者 张刚 张凯 《小型微型计算机系统》 CSCD 北大核心 2006年第4期673-676,共4页
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突... 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷. 展开更多
关键词 web信息采集 哈希函数 URL
下载PDF
一个个性化的Web信息采集模型 被引量:17
2
作者 吴丽辉 王斌 张刚 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期86-88,共3页
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息... 介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。 展开更多
关键词 个性化 个性化的web信息采集 搜索引擎
下载PDF
基于元搜索引擎的个性化Web信息采集 被引量:12
3
作者 王忠 程磊 《计算机工程与设计》 CSCD 北大核心 2009年第13期3117-3119,共3页
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标We... 为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容。在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量。重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合。 展开更多
关键词 元搜索引擎 个性化 web信息采集 兴趣向量 体系结构
下载PDF
Web信息采集中军事主题信息的识别 被引量:2
4
作者 邵晓良 刘红 《情报杂志》 CSSCI 北大核心 2004年第7期14-16,共3页
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的... 介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的效率和精度 ,该算法同样适用于其他领域的主题信息识别。 展开更多
关键词 web信息采集 军事主题信息 信息识别 主题词典 网页文本 分词处理
下载PDF
基于MongoDB的Web信息采集系统应用研究 被引量:1
5
作者 孙美卫 《湖南邮电职业技术学院学报》 2017年第2期35-38,共4页
在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试... 在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试结果表明:在挖掘Web日志数据的情况下,能将数据中的主要访问模式进行系统化更新,从而为网站的结构模式采集提供有效信息。 展开更多
关键词 Mongo DB web信息采集系统 日志分析
下载PDF
分布式Web信息采集系统的设计与实现 被引量:7
6
作者 金岳富 范剑英 冯扬 《哈尔滨理工大学学报》 CAS 北大核心 2010年第1期116-119,123,共5页
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该... Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性. 展开更多
关键词 分布式系统 web信息采集 搜索引擎 信息处理
下载PDF
基于NekoHTML的Web信息采集研究
7
作者 李娟 《现代计算机》 2014年第5期77-80,共4页
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。
关键词 web信息采集
下载PDF
Web信息采集系统的设计与实现 被引量:2
8
作者 邓宇 夏红霞 《微计算机信息》 2009年第24期83-85,共3页
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题。Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的... 随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大问题。Web信息采集系统就是分析页面在Web上的分布特征,利用网站和网页版面元素以及页面之间的关系,并将这些关系转换成所需要数据的过程。 展开更多
关键词 信息资源 web信息采集 网页特征
下载PDF
基于XML的Web信息采集系统设计与实现 被引量:3
9
作者 王磊 《齐齐哈尔大学学报(自然科学版)》 2017年第2期25-28,共4页
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率... 设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。 展开更多
关键词 web信息采集 抽取规则 XML
下载PDF
分布式JS解析在Web信息采集系统中的应用
10
作者 梁元 《电子技术与软件工程》 2020年第10期163-164,共2页
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处... 本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处异构集群环境,基于原本Nutch系统文件的存储结构基础之上,设计整体系统文件数据结构及存储格式。发现设计的该分布式JS解析应用于Web信息采集系统思路,能够动态化、高效且准确的实现Web信息采集,为该领域提出出信息采集技术新思路。 展开更多
关键词 分布式JS解析 web信息采集 Hadoop调度算法
下载PDF
Web信息采集技术研究与发展 被引量:10
11
作者 庞景安 《情报科学》 CSSCI 北大核心 2009年第12期1891-1895,共5页
本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于... 本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于元搜索的信息采集等。 展开更多
关键词 web信息采集 信息采集技术 搜索引擎 网络计量学
原文传递
基于Web-Harvest的Web铁路信息采集系统的设计与应用 被引量:2
12
作者 汤立 李雪山 《铁路计算机应用》 2013年第3期41-44,共4页
基于Web-Harvest开源软件,并对其功能进行了扩展,设计并实现了具有较强通用性的Web铁路信息采集系统,阐释了系统构架和相关的技术,并通过实例介绍了该系统的应用。
关键词 web—Harvest web信息采集 开源
下载PDF
基于大数据的小微企业统计信息采集策略 被引量:4
13
作者 张玉明 张远远 《统计与决策》 CSSCI 北大核心 2017年第14期178-181,共4页
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术... 小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。 展开更多
关键词 大数据 小微企业信息 信息不对称 web信息采集 主题聚焦网络爬虫
下载PDF
网络信息采集中链接与主题相关性的判定研究 被引量:1
14
作者 王兰成 朱建华 《计算机应用与软件》 CSCD 北大核心 2012年第5期209-211,240,共4页
面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定... 面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。 展开更多
关键词 web信息采集 语义分析 URL链接 主题相关性
下载PDF
基于Web的新闻采集系统 被引量:2
15
作者 胡静芳 沈亚斌 《电脑知识与技术》 2009年第7期5111-5113,共3页
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础... 随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 展开更多
关键词 web信息采集 正则表达式 采集规则
下载PDF
一种适用于关键性业务系统的信息采集和处理模型
16
作者 潘家飞 苗红斌 熊桂喜 《计算机应用研究》 CSCD 北大核心 2004年第8期195-196,199,共3页
介绍了一种适用于关键性大型业务系统的信息采集和处理模型。该模型较好地实现了基于WWW平台 ,采用低速连接来实现大规模的信息采集、处理、数据分发的功能 ,同时物理隔离和防火墙技术确保了系统的可靠性、安全性。根据该模型成功地设... 介绍了一种适用于关键性大型业务系统的信息采集和处理模型。该模型较好地实现了基于WWW平台 ,采用低速连接来实现大规模的信息采集、处理、数据分发的功能 ,同时物理隔离和防火墙技术确保了系统的可靠性、安全性。根据该模型成功地设计和实现了一个大型的关键性业务系统。 展开更多
关键词 web信息采集 分布式数据库 物理隔离
下载PDF
可配置Web Robot的研究与实现
17
作者 郑莉霞 刘连芳 《计算机技术与发展》 2007年第6期83-86,共4页
针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robo... 针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robot的搜索策略,通过合理扩展可适用于不同类型的Web资源搜索,能够根据不同的个性化搜索需求灵活定制相应的Web Robot,有效地节约了开发Web Robot的各项成本。 展开更多
关键词 web ROBOT 搜索引擎 web信息采集
下载PDF
利用构建语义词典的查询自动分类方法 被引量:3
18
作者 岳峰 孙亮 +2 位作者 王宽全 王永吉 左旺孟 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第7期1094-1098,共5页
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该... 为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题. 展开更多
关键词 搜索引擎 查询分类 语义词典 基于主题的web信息采集
下载PDF
影视节目扁平化标签获取技术研究 被引量:1
19
作者 殷复莲 徐荣阁 +1 位作者 刘志心 冀美琪 《软件导刊》 2019年第7期150-153,158,共5页
针对影视节目标签手动采集费时费力,以及传统树状标签体系信息冗余且不全面等问题,提出一种标签自动获取技术。通过数据爬取技术采集与节目相关的互联网原始数据,然后通过文本分析、同义匹配、数据库匹配等技术进行数据分析与挖掘,最终... 针对影视节目标签手动采集费时费力,以及传统树状标签体系信息冗余且不全面等问题,提出一种标签自动获取技术。通过数据爬取技术采集与节目相关的互联网原始数据,然后通过文本分析、同义匹配、数据库匹配等技术进行数据分析与挖掘,最终实现对扁平化节目标签的获取。实验结果表明,在选取8~10个标签时,该算法准确率为84.3%~92.4%,召回率为53.4%~63.1%,说明该算法获取的标签能够很好地对影视节目进行描述。 展开更多
关键词 扁平化标签 标签自动获取 web自动信息采集 标签库匹配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部