期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于主题爬虫的网络舆情系统设计与实现
1
作者 江官星 黄卫 《无线互联科技》 2024年第14期33-35,50,共4页
网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情... 网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情监测管理系统。首先,文章阐述了此系统设计思路,分别介绍了系统架构设计、系统功能设计、系统安全设计3个方面内容。最后,文章依次给出了舆情采集、舆情监测、舆情分析、舆情预警、舆情处置5个主要功能的实现方法,旨在为相关部门科学监控与处置网络舆情提供可靠的软件系统。 展开更多
关键词 主题爬虫 网络舆情 系统设计 功能实现
下载PDF
基于BERT的金融文本情感分析与应用 被引量:2
2
作者 季玉文 陈哲 《软件工程》 2023年第11期33-38,共6页
针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文... 针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文本情感分析模型,以BERT模型构建词向量,利用全词掩盖方法,能够更好地表达语义信息。为搭建金融文本数据集,提出一种基于深度学习模型的主题爬虫,利用BERT+Bi-GRU(双门控循环单元)判断网页内文本主题相关性,以文本分类结果计算网页的主题相关度。实验结果表明:本文所设计的情感分析模型在做情感分析任务时取得了87.1%的准确率,能有效分析文本情感倾向。 展开更多
关键词 情感分析 主题爬虫 长短时记忆网络 预训练语言模型
下载PDF
基于概念分析的主题爬虫设计 被引量:10
3
作者 汪涛 樊孝忠 +1 位作者 顾益军 刘林 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第10期890-893,共4页
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比... 研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础. 展开更多
关键词 搜索引擎 主题爬虫 概念分析 相关度 信息采集
下载PDF
基于图像内容检索的主题爬虫设计方法 被引量:4
4
作者 张磊 林坤辉 +1 位作者 周昌乐 毛红朝 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期182-185,共4页
图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方... 图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方法进行图像的特征提取与特征匹配。最后提出了优化爬虫的方法,改进爬虫的搜索策略,提高了爬虫的搜索效率。 展开更多
关键词 基于图像内容检索 主题爬虫 特征提取 特征匹配
下载PDF
网络群体性事件的源信息获取研究初探 被引量:2
5
作者 殷聪 黄炜 《现代情报》 CSSCI 2012年第7期173-177,共5页
随着我国互联网的飞速发展,特别是以SNS、微博为代表的Web2.0应用的兴起,已经形成了一个虚拟信息社会,并逐步演化为一个全新的开放信息传播空间。信息传播更为便捷,为网络舆情的产生提供了现实环境基础。同时,我国正处于机制转轨、社会... 随着我国互联网的飞速发展,特别是以SNS、微博为代表的Web2.0应用的兴起,已经形成了一个虚拟信息社会,并逐步演化为一个全新的开放信息传播空间。信息传播更为便捷,为网络舆情的产生提供了现实环境基础。同时,我国正处于机制转轨、社会转型的过程中,各类群体性事件的不断发生,且呈现出线上线下的联动的特点,对社会、经济的稳定与发展都产生了不良影响。本文在论述由网络群体性事件及其研究现状的基础上,对基于主题爬虫的网络群体性事件的源信息获取的框架进行了深入探讨,为舆情治理提供重要依据。 展开更多
关键词 网络舆情 网络群体性事件 源信息获取 主题爬虫
下载PDF
基于主题的Deep Web聚焦爬虫研究与设计 被引量:2
6
作者 姚双良 《西北师范大学学报(自然科学版)》 CAS 北大核心 2013年第2期40-43,48,共5页
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率... 研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率,可以很好地适应特定主题的结构化Deep Web信息采集. 展开更多
关键词 DEEP WEB 聚焦爬虫 主题
下载PDF
遗传模拟退火算法的纸张表面缺陷智能化检测 被引量:5
7
作者 李一鑫 《造纸科学与技术》 2022年第3期80-83,共4页
造纸工业的自动化生成过程中,不可避免的会使纸张出现各种表面缺陷,缺陷的存在严重影响到纸张的质量和纸产品生产的效率,因此对于纸张表面缺陷的智能化检测逐渐成为纸张生产领域研究热点。设计了一种基于遗传模拟退火算法的纸张表面缺... 造纸工业的自动化生成过程中,不可避免的会使纸张出现各种表面缺陷,缺陷的存在严重影响到纸张的质量和纸产品生产的效率,因此对于纸张表面缺陷的智能化检测逐渐成为纸张生产领域研究热点。设计了一种基于遗传模拟退火算法的纸张表面缺陷检测与分类算法,首先对造纸厂生产线上工业相机采集的纸张图像进行预处理、纸张缺陷区域检测与提取,重点设计了遗传模拟退火算法的缺陷检测分类方案,经验证,所设计的遗传模拟退火算法得到的模型能够对边裂、黑斑、孔洞、褶皱、亮斑和划痕这六类纸病精确的辨识。缺陷的辨识率大于99.7%,完全满足纸张表面质量的检测要求。 展开更多
关键词 遗传模拟退火算法 造纸工业 主题爬虫 纸张缺陷
下载PDF
基于大数据的小微企业统计信息采集策略 被引量:4
8
作者 张玉明 张远远 《统计与决策》 CSSCI 北大核心 2017年第14期178-181,共4页
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术... 小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。 展开更多
关键词 大数据 小微企业信息 信息不对称 WEB信息采集 主题聚焦网络爬虫
下载PDF
基于多个分类器的分布式主题爬虫研究 被引量:1
9
作者 孙滨 《洛阳师范学院学报》 2011年第11期51-53,57,共4页
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速... 随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取. 展开更多
关键词 主题提取 分类器 主题爬虫
下载PDF
基于KNN分类算法的主题网络爬虫 被引量:5
10
作者 李宏志 宋婕 《宜宾学院学报》 2017年第12期61-65,共5页
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网... 提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度. 展开更多
关键词 主题爬虫 KNN分类算法 TF-IDF 主题相关度 IKAnalyzer中文分词
下载PDF
主题爬虫的解决方案 被引量:10
11
作者 刘林 汪涛 樊孝忠 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期137-141,共5页
对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链... 对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集. 展开更多
关键词 搜索引擎 主题爬虫 相关度分析 概念分析 链接分析 信息采集
下载PDF
一种改进Shark-Search的主题爬虫算法 被引量:2
12
作者 仇磊 娄渊胜 常民 《微型电脑应用》 2017年第2期19-21,共3页
针对Shark-Search算法在主题爬虫中对网页全局性的考虑不足,利用PageRank算法计算待下栽URL的权威值来弥补这种不足,提出了Shark-PageRank算法,依据锚文本、锚文本邻近的文本和网页的权威值来权衡URL的价值。实验结果显示,在单位时间里... 针对Shark-Search算法在主题爬虫中对网页全局性的考虑不足,利用PageRank算法计算待下栽URL的权威值来弥补这种不足,提出了Shark-PageRank算法,依据锚文本、锚文本邻近的文本和网页的权威值来权衡URL的价值。实验结果显示,在单位时间里,该算法提高了主题爬虫的速度,并且随着网页数量的增加,该算法具有良好的准确率和稳定性。 展开更多
关键词 主题爬虫 Shark-Search算法 PAGERANK算法 垂直搜索
下载PDF
基于Heritrix视频资源抓取的研究与实现 被引量:1
13
作者 徐枫 归伟夏 《集成技术》 2014年第3期85-91,共7页
教学视频资源是教学资源库的重要组成部分,对视频资源的添加是系统平台的一项重要工作。目前很多教学资源库对视频资源的添加采用手工方式进行,效率不理想且工作量极大。通过引入网络爬虫,利用Heritrix的扩展功能,可以定制相应的模块,... 教学视频资源是教学资源库的重要组成部分,对视频资源的添加是系统平台的一项重要工作。目前很多教学资源库对视频资源的添加采用手工方式进行,效率不理想且工作量极大。通过引入网络爬虫,利用Heritrix的扩展功能,可以定制相应的模块,使其自动抓取网络上的课程视频资源。而通过优化其抓取算法,可以提高资源库中视频的抓取效率和准确率。 展开更多
关键词 视频资源 Heritrix抓取 主题爬虫 垂直搜索
下载PDF
大数据背景下的恐怖主义信息传播途径分析 被引量:2
14
作者 孙学诚 陈前 +1 位作者 唐家骏 石小川 《吉林大学学报(信息科学版)》 CAS 2019年第1期88-95,共8页
为加强对互联网以及社交媒体的恐怖主义信息的甄别和处理,利用数据的爬取和分析甄别,分类恐怖主义信息。通过scrappy框架以及gensim工具包对数据进行爬取,得到了4个数据集,并且进行LDA(Latent Dirichlet Allocation)主题模型的建立,分... 为加强对互联网以及社交媒体的恐怖主义信息的甄别和处理,利用数据的爬取和分析甄别,分类恐怖主义信息。通过scrappy框架以及gensim工具包对数据进行爬取,得到了4个数据集,并且进行LDA(Latent Dirichlet Allocation)主题模型的建立,分别得到恐怖主义信息传播在4个不同领域中的主题分类,以及主题间的关系。实验表明,通过爬取可以有效鉴别出不同的恐怖主义信息主题,以及其在传播中的作用。 展开更多
关键词 恐怖主义 大数据 网络爬虫 主题分析
下载PDF
一种面向农业信息主题网络爬虫的设计 被引量:6
15
作者 汪斌 张云伟 +1 位作者 刘健 陈晶 《安徽农业科学》 CAS 北大核心 2009年第20期9699-9700,9824,共3页
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于... 针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。 展开更多
关键词 主题爬虫 搜索引擎 农业信息 主题相关度
下载PDF
基于本体的主题爬虫的设计与实现 被引量:2
16
作者 杨贞 杜习英 《科技情报开发与经济》 2008年第2期73-75,共3页
分析了最好优先搜索策略中遇到的隧道问题,设计并实现了一种基于本体的主题爬虫系统。
关键词 主题爬虫 本体 最好优先算法
下载PDF
一种基于Context Graph主题爬虫系统的算法实现 被引量:1
17
作者 高庆芳 蒲宝卿 包蕾 《兰州文理学院学报(自然科学版)》 2022年第6期41-45,共5页
对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较... 对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较大规模的汽车网站为研究对象,设置“汽车”为关键词对全部内容展开不同类别的爬取,进而分析所得结果,根据查全率、查准率和F1值综合评价系统的性能.与原有系统相比,升级后算法的模型准确性更好,在一定程度上提高爬取工作的效率. 展开更多
关键词 搜索引擎 主题爬虫 文本分析 机器学习
下载PDF
基于大数据挖掘的赛珍珠文化元素提取与应用 被引量:4
18
作者 蒋驷驹 卢章平 李明珠 《包装工程》 CAS 北大核心 2021年第22期337-346,共10页
目的在大数据环境下,运用大数据技术提取赛珍珠文化元素,探究大数据挖掘理念在文创产品设计中应用的可行性。方法首先,采集赛珍珠相关数据资料,借助网络爬虫工具采集网络媒体中赛珍珠相关的文本信息,同时人工搜集赛珍珠相关学术研究以... 目的在大数据环境下,运用大数据技术提取赛珍珠文化元素,探究大数据挖掘理念在文创产品设计中应用的可行性。方法首先,采集赛珍珠相关数据资料,借助网络爬虫工具采集网络媒体中赛珍珠相关的文本信息,同时人工搜集赛珍珠相关学术研究以及社会访谈资料,然后将数据保存为可编辑的文本形式。其次,运用中文分词工具对采集的文本信息进行处理,将语言字符串切分成词语,滤除中文停用词、低频词及干扰词,形成精炼的赛珍珠数据集合。之后,采用LDA主题模型算法对数据集合进行降维、聚类,形成初步的主题模型,然后经过人工筛选构建赛珍珠文化元素主题模型。最后,根据文化元素主题模型内容,选择赛珍珠文化元素进行赛珍珠文创产品设计实践。结论依照大数据挖掘理念,通过对网络爬虫技术、中文分词工具以及LDA主题模型算法等大数据处理工具的综合应用,能够科学高效地从庞大的社会网络媒体中提炼赛珍珠文化元素,从而达到促进整个文创产品设计流程的效果。 展开更多
关键词 大数据挖掘 网络爬虫 中文分词 主题模型 赛珍珠 文创产品
下载PDF
Python框架下基于主题的数据爬取技术研究与实现 被引量:3
19
作者 严斐 肖璞 《计算机时代》 2018年第11期10-13,共4页
如今上网查询和购物已经成为人们的生活必需。由于在很多系统上查看商品或资源需要点击跳转多个页面,随着浏览时间的增加,经常会出现眼花缭乱的感觉。若只为用户呈现必要的数据,必将提高筛选资源的效率。文章使用Python语言结合目前流行... 如今上网查询和购物已经成为人们的生活必需。由于在很多系统上查看商品或资源需要点击跳转多个页面,随着浏览时间的增加,经常会出现眼花缭乱的感觉。若只为用户呈现必要的数据,必将提高筛选资源的效率。文章使用Python语言结合目前流行的Spring MVC框架来爬取目标网站的数据,设计了数据爬取模块和数据展示模块,实现了基于主题的爬虫框架。通过爬取实验与结果测试,成功爬取到了目标网站的数据并展示到自己的页面上,实现了预期的目标。 展开更多
关键词 数据爬取 基于主题 爬虫 SPRINGMVC
下载PDF
Heritrix主题爬虫设计
20
作者 张亚凤 郑山红 《长春工业大学学报》 CAS 2016年第5期507-511,共5页
通过扩展Heritrix相应组件来抓取特定网页,实现预定的抓取策略,并加入APHash算法对URL进行散列,达到了多线程抓取网页的目的,极大地提高了抓取数据的效率。
关键词 垂直搜索引擎 主题爬虫 HERITRIX APHash算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部