期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

万维网动态文档的爬取分析

Analysis of Crawling World Wide Web Dynamic Document

下载PDF

导出

摘要万维网(下文简写WWW)动态文档是浏览器访问万维网服务器时由应用程序临时生成的文档,是万维网资源中最有价值的部分。为了实现对动态文档中数据的爬取,研究动态文档的生成逻辑分析。在给出万维网原理和分析工具的基础上,提出对动态文档请求和动态文档源码进行分析的一般方法。实践证明,该方法可有效地指导动态文档爬虫程序的设计。 World Wide Web(Abbreviation:WWW)dynamic document is the document generated by the application temporarily when the browser accesses the WWW server.It is the most valuable part of the WWW resources.To crawl the data in the dynamic document,you need to understand and simulate how the dynamic document is generated.Based on the principle of WWW and analysis tools,a general method for analyzing dynamic document request and dynamic document source code is proposed.A lot of practice has proved that this method can effectively guide the design of dynamic document crawler.

作者徐天浩王子扬沈浩孙美凤 XU Tianhao;WANG Ziyang;SHEN Hao;SUN Meifeng(Guangling Collage of Yangzhou University,Yangzhou Jiangsu 225000;Yangzhou Baoyang Digital Technology Company,Yangzhou Jiangsu 225000)

机构地区扬州大学广陵学院扬州市宝扬数码科技公司

出处《软件》 2023年第3期1-4,9,共5页 Software

基金 2022年江苏省大学生创新创业训练计划资助项目(202213987006Y)。

关键词 WEB爬虫动态文档万维网 Web crawler dynamic document WWW

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1黎睿臻,吴永萌,支锦亦.基于网络评论数据的无线耳机舒适性研究[J].机械设计,2020,37(9):134-139. 被引量：4
2刘德喜,聂建云,万常选,刘喜平,廖述梅,廖国琼,钟敏娟,江腾蛟.基于分类的微博新情感词抽取方法和特征分析[J].计算机学报,2018,41(7):1574-1597. 被引量：18
3沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
4曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：44
5孙美凤,宋晨,王颖.基于PHP的百度贴吧数据爬取[J].软件,2020,41(11):23-26. 被引量：3
6吴嘉兴,王玉龙,孙美凤.面向科研统计的机构发表论文数据的爬取——以知网为例[J].软件,2022,43(12):31-35. 被引量：1

二级参考文献39

1赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533
2郭茜,李延来,蒲云,雒兴刚.产品规划中基于不完全语义信息的顾客需求分析研究[J].中国机械工程,2011,22(20):2485-2489. 被引量：1
3周敏.座椅舒适度的评价方法与应用[J].人类工效学,2011,17(3):64-65. 被引量：14
4孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
5李锋.住户调查中的抽样设计问题及改进建议[J].统计与决策,2014,30(12). 被引量：2
6任远远,王卫平.中文网络评论的产品特征提取及情感倾向判定[J].计算机系统应用,2014,23(11):22-27. 被引量：6
7周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61
8刘德喜.情感词扩展对微博情感分类性能影响的实验分析[J].小型微型计算机系统,2016,37(5):957-965. 被引量：7
9刘德喜,聂建云,张晶,刘晓华,万常选,廖国琼.中文微博情感词提取:N-Gram为特征的分类方法[J].中文信息学报,2016,30(4):193-205. 被引量：12
10何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：127

共引文献64

1王荣波,沈卓奇,黄孝喜,谌志群.面向中文短文本情感分析的改进特征选择算法[J].杭州电子科技大学学报（自然科学版）,2019,39(1):45-50. 被引量：4
2陈玉,李述山.微博情感对股票市场影响的计量分析[J].山东理工大学学报（社会科学版）,2019,35(5):12-15.
3董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2
4赵乐,麦范金,张兴旺.多特征融合的Voting-SRM情感分类研究[J].小型微型计算机系统,2019,40(11):2269-2273. 被引量：10
5金昌锦.多数据源招聘信息采集的爬虫系统实现[J].福建电脑,2019,35(11):13-16. 被引量：1
6高杨,白凯,马耀峰.赴藏旅游者幸福感的时空结构与特征[J].旅游科学,2019,33(5):45-61. 被引量：15
7杨毅.基于爬虫大数据的网络负载异常监测方法[J].河南科技,2019,38(34):33-35. 被引量：2
8王中伟,裘杭萍,孙毅,邓巧雨.基于时间上下文的军事信息推荐方法[J].指挥信息系统与技术,2019,10(6):55-59. 被引量：4
9曹睿娟,姜仁贵,解建仓,赵勇.基于大数据的城市内涝网络舆情监测及演化机理[J].西安理工大学学报,2020,36(2):151-158. 被引量：7
10尹春勇,章荪.面向短文本情感分类的端到端对抗变分贝叶斯方法[J].计算机应用,2020,40(9):2536-2542. 被引量：2

1赵献彬.高通量血液透析治疗糖尿病肾病尿毒症的临床有效性研究[J].中文科技期刊数据库（引文版）医药卫生,2021(9):56-56.
2汤子健,李想.Web 3.0的相关技术及落地挑战[J].通讯世界,2022,29(12):43-45.
3罗伯特·哈德曼.国王的艰难岁月[J].21世纪商业评论,2023(5):82-87.
4本刊关于论文数字用法的书写要求[J].中华疼痛学杂志,2023,19(1):5-5.
5李佳.基于学生思维发展的教学实践与思考——以“等腰三角形的性质”复习课为例[J].中学数学,2023(10):47-50.
6郭文会.基于无线传感器网络能耗监测系统在高校老校区建设的研究[J].甘肃科技,2022,38(19):62-65.
7丁晓东.从阿帕网到区块链:网络中心化与去中心化的法律规制[J].东方法学,2023(3):72-84. 被引量：10
8朱能.高中历史学科核心素养测评框架的初构与思考[J].浙江考试,2023(4):13-17.
9王侠,汪进敏,师瑜,余亚莉.“快吃”微信点餐小程序的设计与运营构想[J].中国质量万里行,2023(2):62-65.
10孙怡燕.胃复春片联合雷贝拉唑钠肠溶片治疗慢性胃炎伴反流性食管炎的治疗效果观察[J].中文科技期刊数据库（全文版）医药卫生,2021(8):349-350.

软件

2023年第3期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部