期刊文献+
共找到941篇文章
< 1 2 48 >
每页显示 20 50 100
基于机器学习的Web网络爬虫算法优化研究
1
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 web网络爬虫算法 算法优化
下载PDF
Web前端组件中的跨站脚本攻击检测算法研究
2
作者 李新荣 谢绍敏 《现代电子技术》 北大核心 2024年第14期30-34,共5页
前端组件涉及多个数据流,包括用户输入、服务器返回的数据等,恶意脚本会隐藏在这些数据流中,且跨站脚本攻击存在变异性和不确定性,导致对其检测困难。因此,提出一种Web前端组件中的跨站脚本攻击检测算法。使用基于网络爬虫的Web前端组... 前端组件涉及多个数据流,包括用户输入、服务器返回的数据等,恶意脚本会隐藏在这些数据流中,且跨站脚本攻击存在变异性和不确定性,导致对其检测困难。因此,提出一种Web前端组件中的跨站脚本攻击检测算法。使用基于网络爬虫的Web前端组件跨站脚本信息抓取模型,抓取不重复冗余的Web前端组件跨站脚本信息;再将所抓取的脚本信息作为多分类支持向量机算法的训练样本。检测之前,在权威Web漏洞提交平台Exploit-db中,提取大规模变形跨站脚本信息样本,使用训练完毕的多分类支持向量机对抓取的脚本信息进行分类和检测。实验结果表明,所提算法对100条反射型跨站脚本攻击、50条存储型跨站脚本攻击、10条DOM型跨站脚本攻击的数据分类结果准确,且分类结果的样本分布中,攻击跨站脚本会按照攻击类型有序分布。 展开更多
关键词 web前端组件 跨站脚本 攻击检测 网络爬虫 信息抓取 多分类支持向量机
下载PDF
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
3
作者 方世敏 《信息技术》 2024年第11期63-68,76,共7页
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用Tex... 信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取中文关键词:并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。 展开更多
关键词 CHAMELEON web开源情报 主题挖掘 网络爬虫
下载PDF
分布式Web Crawler的研究:结构、算法和策略 被引量:23
4
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
下载PDF
增量更新Crawler进行Web收集方法研究 被引量:2
5
作者 程菲 汪建海 罗键 《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页
本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行... 本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 展开更多
关键词 信息检索 网络爬虫 增量更新
下载PDF
聚焦式Web Crawler工具的设计与开发
6
作者 唐详 《情报杂志》 CSSCI 北大核心 2005年第4期58-60,共3页
进行了一种面向特定领域主题搜索的实践——聚焦式WebCrawler。分析了搜索引擎和聚类算法的一般工作原理,并指出其不足。在此基础上,综合两者的优点形成了聚焦式WebCrawler工具,介绍了该工具的主要技术及实现方式。
关键词 主题挖掘 搜索引擎 web crawler 自动分类 聚类算法
下载PDF
BP网络在Web Crawler中的应用
7
作者 张艳艳 《微计算机信息》 北大核心 2008年第27期95-96,119,共3页
本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络... 本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络能够有效预测网页变化的时间间隔,指导增量更新。 展开更多
关键词 webcrawler BP网络 预测模型
下载PDF
Weighted PageRank Algorithm Search Engine Ranking Model for Web Pages 被引量:1
8
作者 S.Samsudeen Shaffi I.Muthulakshmi 《Intelligent Automation & Soft Computing》 SCIE 2023年第4期183-192,共10页
As data grows in size,search engines face new challenges in extracting more relevant content for users’searches.As a result,a number of retrieval and ranking algorithms have been employed to ensure that the results a... As data grows in size,search engines face new challenges in extracting more relevant content for users’searches.As a result,a number of retrieval and ranking algorithms have been employed to ensure that the results are relevant to the user’s requirements.Unfortunately,most existing indexes and ranking algo-rithms crawl documents and web pages based on a limited set of criteria designed to meet user expectations,making it impossible to deliver exceptionally accurate results.As a result,this study investigates and analyses how search engines work,as well as the elements that contribute to higher ranks.This paper addresses the issue of bias by proposing a new ranking algorithm based on the PageRank(PR)algorithm,which is one of the most widely used page ranking algorithms We pro-pose weighted PageRank(WPR)algorithms to test the relationship between these various measures.The Weighted Page Rank(WPR)model was used in three dis-tinct trials to compare the rankings of documents and pages based on one or more user preferences criteria.Thefindings of utilizing the Weighted Page Rank model showed that using multiple criteria to rankfinal pages is better than using only one,and that some criteria had a greater impact on ranking results than others. 展开更多
关键词 Weighted pagerank algorithms search engines web pages web crawlers World Wide web
下载PDF
Design of a Web Crawler for Water Quality Monitoring Data and Data Visualization
9
作者 Ziwen Yu Jianjun Zhang +6 位作者 Wenwu Tan Ziyi Xiong Peilun Li Liangqing Meng Haijun Lin Guang Sun Peng Guo 《Journal on Big Data》 2022年第2期135-143,共9页
Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key wo... Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key work to water resources protection.How to efficiently collect and analyze water quality monitoring data is an important aspect of water resources protection.In this paper,python programming tools and regular expressions were used to design a web crawler for the acquisition of water quality monitoring data from Global Freshwater Quality Database(GEMStat)sites,and the multi-thread parallelism was added to improve the efficiency in the process of downloading and parsing.In order to analyze and process the crawled water quality data,Pandas and Pyecharts are used to visualize the water quality data to show the intrinsic correlation and spatiotemporal relationship of the data. 展开更多
关键词 Water quality monitoring data web crawler data visualization
下载PDF
基于Web应用的全流程自动化性能测试方法分析 被引量:1
10
作者 鲍珊珊 侯伟 +1 位作者 赵辉 唐铭晨 《信息技术与标准化》 2023年第10期42-47,共6页
针对常规手工利用Jmeter对Web应用开展性能测试操作繁琐、效率低下的问题,在综合Jmeter和网络爬虫技术的基础上,设计一种全流程自动化性能测试方法,该方法详细介绍了实现从测试数据的获取,测试的执行到报告的输出全流程自动化操作,并通... 针对常规手工利用Jmeter对Web应用开展性能测试操作繁琐、效率低下的问题,在综合Jmeter和网络爬虫技术的基础上,设计一种全流程自动化性能测试方法,该方法详细介绍了实现从测试数据的获取,测试的执行到报告的输出全流程自动化操作,并通过实践与手工方法进行对比分析,证明该方法可行、有效,测试效率提升明显,具备良好的应用价值和推广意义。 展开更多
关键词 web 应用 JMETER 网络爬虫 性能测试 全流程自动化
下载PDF
基于网络爬虫技术的网络招聘信息分析
11
作者 黄媛 《长江工程职业技术学院学报》 CAS 2024年第3期30-34,共5页
随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足... 随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足,分析了重点城市中该岗位的分类、学历要求、工作经验等,其结果为大专院校计算机类人才培养提供参考。 展开更多
关键词 网络爬虫 招聘信息 分析
下载PDF
基于在线评论分析法的童车产品优化设计研究
12
作者 胡康 计开禹 《设计》 2024年第4期105-109,共5页
为了提高婴童产品用户需求获取的效率及准确性,基于现有在线评论分析在实体产品设计中的应用研究,提出了基于在线评论分析的童车优化设计流程,利用在线评论挖掘等方法获取童车用户需求信息,并通过语义分析与情感分析,充分了解用户对于... 为了提高婴童产品用户需求获取的效率及准确性,基于现有在线评论分析在实体产品设计中的应用研究,提出了基于在线评论分析的童车优化设计流程,利用在线评论挖掘等方法获取童车用户需求信息,并通过语义分析与情感分析,充分了解用户对于产品的使用体验与使用需求,为产品优化提供准确的指导。准确及全面地洞察用户需求是设计迭代升级的基础,本文结合在线评论分析方法构建童车用户需求维度,为童车的优化设计研究提供了新思路。 展开更多
关键词 用户需求 需求分析 评论挖掘 网络爬虫 童车设计
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
13
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
数字空间生育议题的公众表达及性别差异:以新浪微博为例的分析
14
作者 吴帆 高旭瑶 《山东女子学院学报》 2024年第3期10-20,共11页
分析数字空间生育议题的公众表达,既能深化对人口动态变化微观逻辑的理解,也能为政策制定提供公众情感和态度方面的直接证据。研究基于5300条微博文本数据,采用LDA主题模型和SnowNLP情感分析工具,探讨三孩生育政策实施初期及两年后公众... 分析数字空间生育议题的公众表达,既能深化对人口动态变化微观逻辑的理解,也能为政策制定提供公众情感和态度方面的直接证据。研究基于5300条微博文本数据,采用LDA主题模型和SnowNLP情感分析工具,探讨三孩生育政策实施初期及两年后公众对生育议题的态度表达及变化。研究显示,支持和批评共同构成了生育政策公共讨论的主要内容,生育率—女性的共现频次最高,女性对生育的关注度明显更高,负面情绪也更多。同时,随着政策实施时间的推移,讨论从相对广泛议题逐渐聚焦于生育率问题。在数字空间里,公众对传统婚育观念的挑战、对个人幸福和自我实现的追求,反映出社会价值观、个人权利与政策导向之间的多维交织。 展开更多
关键词 数字空间 生育政策 微博 爬虫分析
下载PDF
基于文本挖掘-FAHP的适老化智能床头柜设计研究
15
作者 张爱莉 张新蕙 +1 位作者 王皖皖 胥恒 《包装工程》 CAS 北大核心 2024年第14期158-167,共10页
目的为了解决老龄化社会需求下的设计问题,提高老年群体生活的综合满意度,探索一条创新的适老化智能床头柜的设计研究方法。方法首先通过对适老化智能床头柜进行文献分析和调查研究,运用网络爬虫技术获取购物网站上关于适老化智能床头... 目的为了解决老龄化社会需求下的设计问题,提高老年群体生活的综合满意度,探索一条创新的适老化智能床头柜的设计研究方法。方法首先通过对适老化智能床头柜进行文献分析和调查研究,运用网络爬虫技术获取购物网站上关于适老化智能床头柜的用户评论,以评论关键词来生成词云图再结合KJ法进行归纳,找到耦合点,利用AHP层次分析法构建出适老化智能床头柜层次结构模型,并计算需求权重。结果依据指标权重进行设计实践,并运用模糊综合评判的方法得出最优设计方案。结论基于网络爬虫-AHP-模糊综合评判的设计流程,高效、科学、逻辑地解决了老龄化社会需求下的设计问题,为其他适老化智能产品设计提供了参照思路。 展开更多
关键词 适老化床头柜 网络爬虫 智能 AHP层次分析法 模糊综合评价法
下载PDF
基于Java的网络爬虫算法的实现
16
作者 李晖 《电脑与信息技术》 2024年第3期1-4,共4页
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
关键词 网络爬虫 搜索引擎 JSP
下载PDF
基于Python语言的计算机专业招聘信息的爬取及分析
17
作者 王彩玲 许欣黎 《现代信息科技》 2024年第16期88-92,97,共6页
文章对计算机专业的招聘信息进行了研究,通过使用Python爬虫定向抓取拉勾网中的各种招聘资料和信息数据,结合职业要求、学历要求等相关基础条件,合理分析某一具体职业的具体状况,并将所得的分析数据结果进行可视化展示。报告了计算机相... 文章对计算机专业的招聘信息进行了研究,通过使用Python爬虫定向抓取拉勾网中的各种招聘资料和信息数据,结合职业要求、学历要求等相关基础条件,合理分析某一具体职业的具体状况,并将所得的分析数据结果进行可视化展示。报告了计算机相关专业就业现状,帮助计算机专业学生对未来的就业岗位和对应岗位所需要的专业知识有一个基本的认知,帮助他们有针对性地提高自身的专业能力和综合素养,以培养既懂技术又具备工作能力的复合型计算机人才。 展开更多
关键词 PYTHON语言 网络爬虫 可视化 招聘信息处理 人才培养
下载PDF
基于震后舆情的灾情信息提取研究
18
作者 闫晓美 牛艳杰 +1 位作者 王宁 许振鹏 《山西地震》 2024年第1期1-4,16,共5页
大地震发生后,通常会出现大量关于地震灾害的信息并在网络中快速传播,为快速准确地获取地震灾情信息,开展基于震后舆情提取灾情信息的相关研究。首先构建灾情信息挖掘模型,建立灾情关键词表,通过计算词向量相似度,快速提取地震灾情等相... 大地震发生后,通常会出现大量关于地震灾害的信息并在网络中快速传播,为快速准确地获取地震灾情信息,开展基于震后舆情提取灾情信息的相关研究。首先构建灾情信息挖掘模型,建立灾情关键词表,通过计算词向量相似度,快速提取地震灾情等相关信息。同时以“山东德州原平5.5级地震”为案例,验证构建模型在地震灾情提取方面的效果及其可行性和实用性。结果表明,该研究可为震后快速应对和处置灾情提供一定的参考数据和决策依据。 展开更多
关键词 地震灾情 震后舆情 网络爬虫 文本挖掘 信息提取
下载PDF
基于主题的Web信息采集系统的设计与实现 被引量:23
19
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
20
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部