期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Python爬虫技术和LDA模型的短文本获取技术分析被引量：6

下载PDF

导出

摘要从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主题提取,生成规划投资主题聚类,将数据由无序变为有序,由模糊变得准确,最终实现获得有价值信息的目标。

作者黄兴荣徐兴彬

机构地区江苏建筑职业技术学院徐州市应用软件工程技术研究中心中国石油兰州石化分公司

出处《电大理工》 2019年第3期1-3,11,共4页 Study of Science and Engineering at RTVU.

关键词短文本大数据数据爬取 LDA模型主题提取

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1周浪,张亮,冯冲,黄河燕.基于词频分布变化统计的术语抽取方法[J].计算机科学,2009,36(5):177-180. 被引量：27
2张云秋,郭柯磊.基于双向词频统计的非相关文献知识发现排序方法研究[J].情报科学,2009,27(8):1240-1244. 被引量：13
3冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量：571

二级参考文献21

1Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C]//Proceedings of COLING' 92.1992:977-981
2Pantel P,Lin D.A Statistical Corpora-based Term Extractor[C] //Lecture Notes in Artificial Intelligence.Springer,Verlag,2001:34-46
3Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word terms:the C-value/NC-value Method[J].International Journal on Digital Libraries,2000,3(2):115-130
4Kageura K,Umino B.Methods of Automatic Term Recognition:A Review[J].Terminology,1996,3(2):259-289
5刘桐菊,于浩,杨沐昀.基于TFIDF的专业领域词汇获取的研究[C]//第一届学生计算语言学研讨会论文集.2002
6张普.信息领域汉语术语的特征及其在语料中的分布规律.语言教学与研究,2001,.
7Swanson DR. Undiscovered public knowledge [J]. Library Quarterly, 1986, (56) : 103-118.
8Torvik VI,Smalheiser NR. A quantitative model for linking two disparate sets of articles in Medline [J]. Bioinformaties, 2007,23(13) : 1658-1665.
9Arrowsmith [EB/OL]. http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html, 2008-12-31.
10MEDLINE Stopwords [EB/OL]. http://kiwi.uchicago.edu/ stopwords_pubmed, 2008-12-31.

共引文献605

1易文思,罗国宇.我国职教创新创业教育研究现状、热点及展望——基于中国知网核心期刊数据库(2001—2021年)的文献计量分析[J].职业技术,2023,22(1):1-10. 被引量：2
2刘天佐,廖湘莲.我国基本公共服务均等化研究主题演进可视化分析[J].行政与法,2020(11):19-30.
3王艳,单翠萍.职业高原现象的总体研究状况及教育启示——基于知识图谱可视化分析方法的实证研究[J].新疆教育学院学报,2022,38(1):22-33. 被引量：1
4袁丽,陈玉容,龚辉翔.基于计量学可视化分析下的体育微课研究现状[J].体育世界,2019(9):4-5.
5付维维.近20年来我国教师身份认同研究的进展及趋势——基于“引文空间”可视化分析方法的实证研究[J].当代教师教育,2021,14(2):45-52. 被引量：4
6孙卓华,马晓慧.1980年以来我国劳资关系领域的发展演进——基于CiteSpace的文献计量分析[J].劳动经济评论,2021(2):191-210.
7王云珂,吕志伟,袁天琪.我国特殊体育教育研究热点区域构成现状可视化分析[J].内江科技,2022,43(9):98-100.
8何欣,那英.跨学科交叉技术专利文献的筛选方法及其应用[J].北京服装学院学报（自然科学版）,2022,42(4):74-82. 被引量：1
9李冬,曲瑛德.我国农业高校自主设置交叉学科的特征及趋势研究[J].高等农业教育,2022(5):28-37.
10贡金涛,陈利东.2007-2018年我国图书馆学硕士学位论文分析[J].山东青年,2019,0(4):14-15.

同被引文献67

1顾丹丹,傅广宛.网络问政的价值增量与实现条件:基于数据资源挖掘的视角[J].中国行政管理,2021(4):76-82. 被引量：5
2孟陆,刘凤军,陈斯允,段珅.我可以唤起你吗——不同类型直播网红信息源特性对消费者购买意愿的影响机制研究[J].南开管理评论,2020,0(1):131-143. 被引量：280
3王建国,蔡凯臻.数字技术方法在现代城市设计中的应用[J].南方建筑,2008(2):28-32. 被引量：15
4陈天恩,冯启民,陈红,吴允涛.基于遥感影像的城市震害模拟[J].自然灾害学报,2006,15(2):121-126. 被引量：3
5易文斌,唐宏,杨晋科.面向对象的灾害信息遥感提取框架及其应用[J].自然灾害学报,2009,18(5):157-162. 被引量：10
6赵福军,蔡山,陈曦.遥感震害快速评估技术在汶川地震中的应用[J].自然灾害学报,2010,19(1):1-7. 被引量：28
7叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
8李开荣,孔照昆,陈桂香,朱俊武.基于改进隐马尔可夫模型的文本分类研究[J].微电子学与计算机,2012,29(11):161-165. 被引量：3
9刘勘,周晓峥,周洞汝.数据可视化的研究与发展[J].计算机工程,2002,28(8):1-2. 被引量：119
10任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936. 被引量：421

引证文献6

1刘玉玲,郑力新.新冠肺炎疫情数据的抓取及可视化研究[J].电子设计工程,2021,29(7):40-44. 被引量：4
2陈铭泽,张洋,杨玉冰,方智果.基于Grasshopper平台的数据可视化在城市设计中的研究与实践[J].园林,2022,39(5):44-51. 被引量：3
3翟宁,韩国胜.基于BERT双通道的疫情舆论情感分类研究[J].湘潭大学学报（自然科学版）,2022,44(3):83-92.
4张文浩,黄书添,谢耀伟.“直播带货”中意见领袖对消费者线上购买意愿影响的机理研究——基于社会临场感理论视角[J].中国集体经济,2023(7):72-75. 被引量：1
5于浩,贾晓东,庞巧,周小龙.基于无人机影像的辽宁农居建筑物提取技术与应用研究[J].震灾防御技术,2023,18(1):96-106. 被引量：1
6徐金红,王东琪.基于网络问政的舆情挖掘和可视化分析[J].统计与管理,2022,37(10):29-37.

二级引证文献9

1张文龙.基于无人机倾斜摄影的建筑物精细化三维建模[J].建筑与预算,2023(11):74-76. 被引量：1
2李传科,肖自乾.基于Python的网页数据分析及可视化应用[J].信息记录材料,2021,22(9):203-205. 被引量：4
3阮灿华,梁炜彬,林晓宇.新冠肺炎疫情大数据可视化平台的设计与实现[J].鄂州大学学报,2021,28(5):102-105. 被引量：4
4李相霏,韩珂.基于Flask框架的疫情数据可视化分析[J].计算机时代,2021(12):60-63. 被引量：12
5熊传玉,徐尤华.在线文档数据抓取与汇总功能的实现[J].南方金属,2022(5):56-58. 被引量：3
6罗俊杰,曹磊,雷泽鑫,许涛,王苗.基于数字孪生的城市公园产汇流可视化模拟——以天津梅江公园为例[J].景观设计,2023,21(1):18-23. 被引量：1
7张晶.基于数据挖掘的网络信息可视化模型研究[J].长江信息通信,2023,36(5):171-173. 被引量：2
8陈岳飞,喻准,王理,李勇坚.虚拟数字人直播带货的风险挑战与制度因应[J].中国检验检测,2023,31(5):4-12. 被引量：5
9王殿玺,张运德,郭青春,东莹,杨亮,赵慧,赵星.利用Grasshopper编程快速计量景观空间全景绿视率的方法探讨——以济南市莱芜区红石公园环园路12处节点全景绿视率计量为例[J].山东林业科技,2024,54(1):76-84.

1翟霞.基于Lucene的面向大数据主题的垂直搜索引擎研究[J].科学技术创新,2019(31):96-97. 被引量：1
2杨增华.基于振动的风力发电机故障诊断[J].区域治理,2018,0(13):283-283.
3刘莘瑜.融媒体新闻标题制作如何巧用古诗词[J].视界观,2019,0(18):0109-0109.
4蒋叶莎.基于网络舆情分析的垃圾分类问题研究[J].中国环境管理干部学院学报,2019,29(5):59-62. 被引量：2
5孙翠,谭志敏.我国长期护理保险制度研究现状及展望——基于CiteSpace知识图谱的可视化分析[J].保定学院学报,2019,32(6):22-28. 被引量：2
6晏婧.大数据时代如何做好审计工作[J].理财（市场版）,2019,0(11):93-94. 被引量：1
7周卜思.阐述大数据在电信移动通信网络优化中的应用[J].名城绘,2019,0(12):0334-0334. 被引量：1
8王可,周亚拿.信息化建设、供应链信息分享与企业绩效——基于中国制造业企业的实证研究[J].中国管理科学,2019,27(10):34-43. 被引量：22
9朱蓓俊.看图说话：读懂非连续性文本的“法则”[J].才智,2019,0(29):134-134. 被引量：1
10国资委2019年版授权放权清单出炉[J].航空财会,2019,0(2):72-72.

电大理工

2019年第3期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部