基于Python的中药材价格信息爬虫的设计被引量：3

Design of Crawler for Price Information of Chinese Medicinal Materials Based on Python

下载PDF

导出

摘要为了收集大量、真实、可靠的中药材价格信息,为中药材价格的预测研究提供强有力的数据支撑。将数据来源方向瞄向互联网,在前期筛选的基础上,最终确立以中药材天地网为目标网站。在深入分析目标网站结构的基础上,基于Python语言设计了一款中药材价格信息爬虫。详细介绍了爬虫模拟请求网页、目标信息提取、信息存储及定时启动部署等环节的实现方法。实际测试结果显示,所设计的爬虫运行稳定,能高效、完整无误的抓取目标网站的信息条目。 In order to collect a large number of real and reliable price information of Chinese herbal medicines,and provide a strong data support for the price prediction of Chinese herbal medicines.With Internet data as the source,on the basis of pre-screening,the final establishment of Chinese herbal medicine Tiandi Web site as the goal.Based on the in-depth analysis of the target website structure,a price information crawler of Chinese medicinal materials was designed based on Python language.The implementation methods of web page simulation request,target information extraction,information storage and timing start deployment are introduced in detail.The actual test results show that the designed crawler runs steadily and can capture the information items of the target website efficiently and completely.

作者张喜红 ZHANG Xi-hong(Department of Intelligent Engineering,Bozhou Vocational and Technical College,Bozhou 236800,China)

机构地区亳州职业技术学院智能工程系

出处《枣庄学院学报》 2019年第2期67-72,共6页 Journal of Zaozhuang University

基金安徽省高校优秀青年人才支持计划项目(gxyq2018215) 安徽省高校自然科学研究重大项目(KJ2016SD41)

关键词 PYTHON 中药材爬虫 Python Chinese medicinal materials spider

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1郑付海.论大数据时代高校图书馆文化的构建[J].枣庄学院学报,2015,32(6):45-50. 被引量：4
2娄晨.国产中小成本电影的大数据模式研究——以电影《匆匆那年》为例[J].枣庄学院学报,2015,32(6):25-28. 被引量：2
3崔远远,文忠桥.基于ARIMA模型对上证指数月度时间序列的分析和预测[J].枣庄学院学报,2015,32(2):102-106. 被引量：4
4穆俊.基于关联规则挖掘的社区网络数据爬虫算法[J].微电子学与计算机,2018,35(8):105-108. 被引量：6
5孙红光,藏润强,姬传德,杨凤芹,冯国忠.基于语义的聚焦爬虫算法研究[J].东北师大学报（自然科学版）,2018,50(2):51-57. 被引量：9
6卞伟玮,王永超,崔立真,郭伟,李晖,周苗,薛付忠,刘静.基于网络爬虫技术的健康医疗大数据采集整理系统[J].山东大学学报（医学版）,2017,55(6):47-55. 被引量：31
7孙易冰,赵子东,刘洪波.一种基于网络爬虫技术的价格指数计算模型[J].统计研究,2014,31(10):74-80. 被引量：30
8于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
9彭纪奔,吴林,陈贤,黄雷君.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13. 被引量：15
10魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018,17(1):41-43. 被引量：25

二级参考文献88

1杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
4徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
5维克托·迈尔-舍恩伯格,肯尼迪·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
6Alberto Cavallo. Massachusetts Institute of Technology, Sloan School of Management. Online and Official price indexes: Mesuring Argentina' s inflation.
7MarkJasonDominus著,滕家海译.高阶Perl[M].北京:机械工业出版社.2013.
8薛毅,陈丽萍.统计建模与R软件[M].北京:清华大学出版社.2006.
9徐金祥.统计指数理论、方法与应用研究[M].上海:上海人民出版社,2011.
10JefferyE.F.Friedl著,余晟译.精通正则表达式(第3版)[M].北京:电子工业出版社.2008.

共引文献226

1徐璐琳,李忠武,朱冬元.基于文本挖掘、GIS及Stacking框架的武汉市二手房评估模型[J].中国资产评估,2020,0(2):41-51.
2李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
3刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
4沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
5齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
6井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
7项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
8李明亮,刘峰,陈硕,李强.健康体检机构文本型数据结构化处理思路[J].健康体检与管理,2021(2):151-154. 被引量：1
9周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
10宋建瑞.滚压鱼盘成形机的研制与应用[J].山东陶瓷,2000,23(1):32-35.

同被引文献18

1沈飞,刘鹏,蒋雪松,邵小龙,万忠民,宋伟.基于电子鼻的花生有害霉菌种类识别及侵染程度定量检测[J].农业工程学报,2016,32(24):297-302. 被引量：21
2王碧瑶.基于Python的网络爬虫技术研究[J].数字技术与应用,2017,35(5):76-76. 被引量：16
3彭珂,骆德汉,夏必亮.基于机器嗅觉的柑橘品种无损检测与识别[J].江西农业大学学报,2017,39(5):1017-1024. 被引量：6
4涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机（中旬刊）,2017(12):52-55. 被引量：15
5于营.面向微博的网络爬虫数据采集[J].信息系统工程,2017,30(12):36-37. 被引量：7
6柳琳,徐坤俐,陈广川,赵波,车振明,张立实,唐勇.电子鼻鉴定米曲霉生长繁殖可行性研究[J].食品安全质量检测学报,2018,9(9):2169-2174. 被引量：3
7张冬月,吴浩善,李思雨,康廷国,张慧.电子鼻技术鉴别通关藤真伪及其道地性[J].中成药,2018,40(10):2228-2233. 被引量：12
8张婷婷,赵宾,杨丽明,王建华,孙群.基于电子鼻技术的小麦种子活力鉴别[J].中国农业大学学报,2018,23(9):123-130. 被引量：13
9刘杰,葛晓玢.基于网络爬虫的Web漏洞扫描研究[J].黑河学院学报,2017,8(12):211-212. 被引量：3
10张鹏琴,何家峰,骆德汉.基于监督局部线性嵌入的中药材分类鉴别研究[J].计算机应用研究,2018,35(1):101-104. 被引量：3

引证文献3

1李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
2迟殿委.基于Python的网页图片爬取[J].电脑编程技巧与维护,2019(5):129-130. 被引量：4
3张喜红,王玉香.基于Python的PEN3电子鼻nos文件关键信息自动提取工具设计[J].重庆科技学院学报（自然科学版）,2019,21(6):86-90.

二级引证文献4

1蔡振海.基于Python的淘宝商品价格爬虫程序设计与实现[J].科学咨询,2019,0(38):45-45. 被引量：2
2赵宇轩,胡怀湘.基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J].计算机与现代化,2021(4):122-126. 被引量：5
3李尚林,陈宫,雷勇.基于Java的网络爬虫系统研究与设计[J].新型工业化,2021,11(4):74-77. 被引量：3
4杨红,龚小燕,杨尊富,杨帆,马逸飞,尚亚丽.基于Python的PPT批量化爬取与邮件自动发送实现[J].电子技术（上海）,2022,51(7):34-35.

1铁路工程建设主要材料价格信息(2018年第3季度)(营改增版)[J].铁路工程技术与经济,2019,34(1):49-62.
2张升.基于AngularJS的校友会网站的设计与实现[J].办公自动化,2018,23(24):24-27. 被引量：1
3蒋玉飞,李倩,杨柳.大面积多层地下空间墙体裂缝控制仿真分析[J].计算机仿真,2018,35(10):266-269. 被引量：2
4马满福,刘宝鹏.高校混合教学管理系统的设计与实现[J].信息与电脑,2018,30(6):229-231. 被引量：1
5梅毅.大数据环境下资源目标信息提取仿真[J].计算机仿真,2018,35(3):337-340. 被引量：1
6李梁君.高校资产采购中预算价制定的合理性研究[J].行政事业资产与财务,2019(1):21-23.
7唐波.美国期货品种上市机制的反思与启示——以比特币期货上市为视角[J].东方法学,2019,0(1):113-122. 被引量：2
8齐恩勇.基于脉冲压缩的弹载雷达目标检测方法研究[J].电子设计工程,2018,26(18):136-139. 被引量：2

枣庄学院学报

2019年第2期

浏览历史

内容加载中请稍等...

基于Python的中药材价格信息爬虫的设计被引量：3

参考文献13

二级参考文献88

共引文献226

同被引文献18

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Python的中药材价格信息爬虫的设计 被引量：3

参考文献13

二级参考文献88

共引文献226

同被引文献18

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Python的中药材价格信息爬虫的设计被引量：3