期刊文献+
共找到134篇文章
< 1 2 7 >
每页显示 20 50 100
编制价格指数的爬虫数据抽样方法研究
1
作者 雷兵 梁凯凯 刘维 《统计与决策》 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
考虑履带机器人转向特性的全局路径规划
2
作者 魏琼 郭川 +2 位作者 张道德 李奕 刘伟恒 《湖北工业大学学报》 2024年第2期57-62,共6页
针对传统A星路径规划算法忽略车辆转向过程,导致规划路径行程时间较长的问题,提出了考虑履带车转向特性的改进A星算法。首先,扩大A星算法的搜索邻域,提高转向角的灵活度。其次,分析考虑履带车的转向特性,将转向时间加入到代价函数中,建... 针对传统A星路径规划算法忽略车辆转向过程,导致规划路径行程时间较长的问题,提出了考虑履带车转向特性的改进A星算法。首先,扩大A星算法的搜索邻域,提高转向角的灵活度。其次,分析考虑履带车的转向特性,将转向时间加入到代价函数中,建立以时间最短为目标的代价函数,缩短履带车的行程时间。最后,构建删除冗余节点和新增优化节点的规则,改善路径的平滑性使规划的路径进一步优化。通过Matlab仿真和实车实验进行研究,研究结果表明:改进算法在路径长度、转向次数和行驶时间方面都有了减少,规划的路径要优于传统A星算法和对比文献算法。改进A星算法能有效提高所规划路径的质量,提升履带机器人的自主巡航能力和智能化水平。 展开更多
关键词 履带机器人 路径规划 A星算法 转向特性
下载PDF
一种并行Crawler系统中的URL分配算法设计 被引量:1
3
作者 万源 万方 王大震 《计算机工程与应用》 CSCD 北大核心 2006年第A01期117-119,共3页
研究了分布式体系结构下的并行Crawler采集模型,分析了各组件的功能及各Cmwler在并行搜索时,为保证系统的负载均衡而应遵循的基本规则,并提出了一种基于散列(hash)的URL的调度算法。
关键词 分布式crawler 散列算法 URL分配
下载PDF
基于机器学习的Web网络爬虫算法优化研究
4
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 Web网络爬虫算法 算法优化
下载PDF
3-SRR腿履式调姿救援机器人优化设计与试验
5
作者 啜佳帅 赵延治 +2 位作者 单煜 于海波 徐东阳 《机械设计》 CSCD 北大核心 2024年第5期60-69,共10页
为实现在复杂环境下对处于不同位姿伤员的精准施救及稳定转运,文中提出了一种3-SRR腿履式调姿救援机器人机构,并进行运动学分析、机构优化设计及试验研究。首先,基于闭环矢量法对其进行运动学分析,得到救援机器人运动学反解;然后,基于... 为实现在复杂环境下对处于不同位姿伤员的精准施救及稳定转运,文中提出了一种3-SRR腿履式调姿救援机器人机构,并进行运动学分析、机构优化设计及试验研究。首先,基于闭环矢量法对其进行运动学分析,得到救援机器人运动学反解;然后,基于迭代搜索算法,得到其救援作业空间与姿态空间,并基于单一变量法分析救援机器人机构尺寸参数对救援作业空间的影响;然后,以救援作业空间最大、姿态能力最强为优化目标函数,基于差分进化算法对机构尺寸参数进行优化;最后,研制原理样机并进行调姿能力试验,试验结果证明了方案的可行性与理论分析的正确性,为灾难救援提供一种可行的解决方案。 展开更多
关键词 并联机构 腿履式 运动学分析 救援作业空间 差分进化算法
下载PDF
基于神经网络算法的水陆两栖无人艇控制系统研究
6
作者 岳光 任琳 +3 位作者 郭靖宇 潘玉田 雷欢 葛林 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第5期231-238,共8页
针对近海登陆两栖作战等不适合士兵冲锋陷阵的高危环境,提出了基于神经网络算法的水陆两栖无人艇控制系统研究,伺服运动控制为控制系统的关键核心之一。鉴于目前传统两栖无人艇运动控制系统PID算法控制精度低、误差大、需人工调节参数... 针对近海登陆两栖作战等不适合士兵冲锋陷阵的高危环境,提出了基于神经网络算法的水陆两栖无人艇控制系统研究,伺服运动控制为控制系统的关键核心之一。鉴于目前传统两栖无人艇运动控制系统PID算法控制精度低、误差大、需人工调节参数等缺陷,提出BP-PID神经网络算法,同时融合GWO算法(灰狼算法),利用其搜索能力优化网络权值和阈值,加快网络收敛,提高控制精度。首先,对水陆两栖无人艇的控制系统进行需求分析,继而完成两栖无人艇伺服运行控制系统数学和控制模型设计、神经网络算法构架等设计,将设计的算法引入两栖无人艇运动控制系统中,并且进行实验验证,得到行驶曲线。结果表明控制系统运行稳定、响应速度快、误差小,行驶轨迹精确等优点。为实现不适合士兵直达近海登陆作战高危未知环境提升作战力,保护士兵安全有很重要现实意义和实用工程价值,为未来武器装备的智能化研究发展提供借鉴。 展开更多
关键词 水陆两栖无人艇 履带式 BP-PID智能算法 控制系统 两栖作战
下载PDF
基于深度哈希算法的学生画像个性化推荐系统的设计与实现
7
作者 钟亚妹 薛慧丽 《河北省科学院学报》 CAS 2024年第1期39-45,共7页
为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性... 为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性。根据学生画像标注的学生特征,在学校课程资源特征数据集中进行搜索匹配,并根据排序后的检索结果生成推荐结果。实验结果表明,该系统能够有效地采集和预处理学生信息,并成功构建学生画像,完成学生画像的个性化推荐。 展开更多
关键词 深度哈希算法 学生画像 个性化推荐 学生行为属性 网络爬虫技术 标签维度模型
下载PDF
基于聚类算法的轨道交通履带式消防机器人的应用
8
作者 张杨 刘国成 《现代信息科技》 2023年第20期62-65,74,共5页
对履带式消防机器人的构型进行分析,简化其构型设计为四轮机器人,并建立相应的坐标系。通过对其运动模型进行规律分析,得出单侧履带上所有点的运动速度规律,完成了功能模块的设计,再根据功能模块的设置完成对机器人的硬件结构设计。将... 对履带式消防机器人的构型进行分析,简化其构型设计为四轮机器人,并建立相应的坐标系。通过对其运动模型进行规律分析,得出单侧履带上所有点的运动速度规律,完成了功能模块的设计,再根据功能模块的设置完成对机器人的硬件结构设计。将履带式消防机器人所采集视频图像中每个像素点的色彩值作为特征向量,将所有采集到的视频图像构成一个样本集合,把图像分割任务转换为数据集合的聚类任务,运用K-means聚类算法进行图像区域分类,获取所需的分离图像。 展开更多
关键词 聚类算法 轨道交通 履带式机器人 消防巡检
下载PDF
基于数据驱动的阳光高考志愿决策软件设计与实现
9
作者 李慧静 姚海霞 《现代计算机》 2023年第22期89-93,103,共6页
针对内蒙古阳光高考志愿填报的特征,开发了一款基于B/S的软件系统,旨在服务考生填报志愿,实现分数与院校专业的合理匹配,完成高考志愿的有效填报。首先,阐述了在数据驱动下的基于位次等效决策算法的高考志愿填报方案决策软件系统的整体... 针对内蒙古阳光高考志愿填报的特征,开发了一款基于B/S的软件系统,旨在服务考生填报志愿,实现分数与院校专业的合理匹配,完成高考志愿的有效填报。首先,阐述了在数据驱动下的基于位次等效决策算法的高考志愿填报方案决策软件系统的整体设计思路;其次,给出了基于Python的Django项目技术方案选型过程;最后,详细阐述了包括数据库设计、基础数据爬虫技术批量下载、报考方案特征分析、高考方案数据案例等软件开发细节,并以案例形式进行了呈现。设计思路及案例分析表明,该软件系统实现了基于数据驱动的高考志愿决策。 展开更多
关键词 高考志愿 决策算法 数据驱动 数据爬虫
下载PDF
赌博网站自动识别技术研究 被引量:1
10
作者 杨哲 陈应虎 《信息安全研究》 CSCD 2023年第5期440-445,共6页
网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行... 网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行分布式爬取以获得网站截图.针对赌博网站判定困难的问题(例如有的赌博网站仅是一幅包含赌博APP下载链接的图片),方案利用dHash算法对正样本进行清洗,训练卷积神经网络(CNN)进行网站二分类.实验结果表明方案泛化能力较强、人工参与少,可在一定程度上解决赌博网站发现、识别方面存在的问题. 展开更多
关键词 网络赌博 卷积神经网络(CNN) dHash算法 分布式爬虫 云平台 自动识别
下载PDF
基于python的分布式网络反爬虫数据有序性研究 被引量:1
11
作者 朱镕申 孙川钘 潘虹 《计算机仿真》 北大核心 2023年第5期426-429,447,共5页
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取... 爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。 展开更多
关键词 分布式网络 反爬虫数据 有序性 分类算法
下载PDF
基于增量式爬虫技术的新闻分析系统设计
12
作者 王龙霄 李健 沈丽民 《现代计算机》 2023年第9期117-120,共4页
新闻网站是获取外界信息的重要渠道,为有效收集新闻网站信息、对信息进行分析,基于Python设计了对新闻网站的爬虫分析系统。该系统包括爬虫、自然语言处理、系统可视化交互三个模块。在爬虫方面系统采用threading第三方库提供的多线程爬... 新闻网站是获取外界信息的重要渠道,为有效收集新闻网站信息、对信息进行分析,基于Python设计了对新闻网站的爬虫分析系统。该系统包括爬虫、自然语言处理、系统可视化交互三个模块。在爬虫方面系统采用threading第三方库提供的多线程爬虫,并增加了增量式爬虫的设计;在自然语言处理方面,系统以TextRank算法为原理实现对文本信息对关键词句的抽取,使用TextRank4zh第三方库实现此功能。系统采取Tornado框架实现交互功能。系统以美国有限电视新闻网为例进行新闻信息爬取与分析,实验结果表明该系统的爬取效率高,健壮性好。 展开更多
关键词 Python爬虫 Tornado框架 TextRank算法 新闻关键词抽取
下载PDF
零售交易信息服务平台运行数据异常辨识研究
13
作者 魏巍 《信息与电脑》 2023年第24期190-192,202,共4页
异常数据的存在导致零售交易信息服务平台的用户体验不佳,因此需要设计零售交易信息服务平台运行数据异常辨识方法。文章首先采用网络爬虫技术采集平台数据,并对数据进行预处理,其次利用主成分分析法对数据进行特征提取,最后通过k-mean... 异常数据的存在导致零售交易信息服务平台的用户体验不佳,因此需要设计零售交易信息服务平台运行数据异常辨识方法。文章首先采用网络爬虫技术采集平台数据,并对数据进行预处理,其次利用主成分分析法对数据进行特征提取,最后通过k-means聚类算法实现异常数据辨识。实验结果表明,该方法对数据异常辨识的精确度高、误差小、速度快。 展开更多
关键词 数据异常 网络爬虫 数据预处理 K-MEANS聚类算法 零售交易信息服务平台
下载PDF
爬行虫算法设计与程序实现 被引量:14
14
作者 杜亚军 严兵 宋亮 《计算机应用》 CSCD 北大核心 2004年第1期33-35,共3页
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 18... 爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。 展开更多
关键词 爬行虫算法 爬行虫程序 搜索引擎
下载PDF
商品评论聚焦爬虫算法设计与实现 被引量:10
15
作者 方美玉 郑小林 +2 位作者 陈德人 华艺 施艳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第S1期377-381,共5页
从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进... 从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。 展开更多
关键词 计算机软件 商品评论 开放应用编程接口 聚焦爬虫 爬虫算法
下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
16
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
17
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
下载PDF
基于爬虫技术的关键词关联推荐算法优化与实现 被引量:16
18
作者 刘爱琴 王友林 尚珊 《情报理论与实践》 CSSCI 北大核心 2018年第4期134-138,共5页
随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增... 随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增加,以及查准率的降低。为了解决这一矛盾,本研究融合网络爬虫技术和学术资源网站结构化数据的特征,将网站网页数据进行爬取、加工、整合,用结构化、可视化的图像数据辅助检索,实现了在缩小用户的筛查范围,提升用户检索的准确度的同时,以关联推荐方式提升用户在学术资源网站中信息检索的效率。 展开更多
关键词 信息检索 数据挖掘 网络爬虫 信息推荐 算法
下载PDF
基于遗传算法的主题爬虫策略改进 被引量:4
19
作者 陈一峰 赵恒凯 +1 位作者 余小清 万旺根 《计算机仿真》 CSCD 北大核心 2010年第10期87-90,123,共5页
针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关... 针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高。与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上。 展开更多
关键词 主题爬虫 排序算法 遗传算法 网页信息
下载PDF
基于遗传算法的聚焦爬虫搜索策略 被引量:5
20
作者 曾广朴 范会联 《计算机工程》 CAS CSCD 北大核心 2010年第11期167-169,共3页
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方... 为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。 展开更多
关键词 聚焦爬虫 遗传算法 小生境 主题相关度
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部