期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
气候与情绪的关系:基于微博大数据研究
1
作者 李小文 张军 《临床心身疾病杂志》 CAS 2024年第1期105-111,共7页
目的本文旨在系统探究气候变化与人类情绪之间的相关性。方法将气候数据与情绪数据纳入逻辑回归模型,并探讨二者的相互作用。具体而言,本研究通过创新运用新浪微博数据,选取了中国五个代表性城市为研究对象,收集并分析了这些城市中与气... 目的本文旨在系统探究气候变化与人类情绪之间的相关性。方法将气候数据与情绪数据纳入逻辑回归模型,并探讨二者的相互作用。具体而言,本研究通过创新运用新浪微博数据,选取了中国五个代表性城市为研究对象,收集并分析了这些城市中与气候相关的微博文本。通过应用自然语言处理和机器学习技术,对文本数据进行了情感计算,以抽取情绪数据。结果研究发现气候变化与人类情绪之间存在复杂的非线性关系。一系列气候要素如温度、湿度、日照、风速和降水等共同定义了一个影响人类情绪的气候舒适区间。不同气候类型对情绪的影响存在差异(P<0.05或0.01),日照和湿度对情绪的影响最为显著,其次是气温和降水,而风速的影响相对较小。结论气候与情绪之间的关系较为复杂,本研究丰富了气候与情绪相关领域的理论研究,同时也为提升公众的心理健康水平提供了理论支持。 展开更多
关键词 情绪 气候 微博大数据 自然语言处理 机器学习 情感计算 逻辑回归
下载PDF
基于微博数据的西安市空间意象研究
2
作者 唐园园 连华 王菲 《重庆建筑》 2024年第3期30-33,共4页
在城市空间规划数字化转型趋势下,结合大数据对“城市意象”研究方法进行不断创新。为进一步优化西安空间结构,综合评估各街道发展潜力,强化“西安经验”,该文以西安市一年微博签到数据为例,在相关学者对城市意象因子分类的基础上,将意... 在城市空间规划数字化转型趋势下,结合大数据对“城市意象”研究方法进行不断创新。为进一步优化西安空间结构,综合评估各街道发展潜力,强化“西安经验”,该文以西安市一年微博签到数据为例,在相关学者对城市意象因子分类的基础上,将意象因子分为城市环境、文化活动与自然山水三大类。进行词频统计及空间聚类分析,挖掘城市各街道特色意象因子。同时从文化、生态、经济三方面选取8个空间意象影响因子,使用地理探测器对空间意象驱动因子作进一步分析,并结合各街道发展现状,提出相关优化策略。 展开更多
关键词 城市意象 微博数据 空间分析 地理探测器 西安
下载PDF
基于超图的微博舆情超网络关键舆情要素识别
3
作者 朱文彬 李明达 +1 位作者 樊静妍 胡枫 《运筹与管理》 CSSCI CSCD 北大核心 2024年第8期155-161,共7页
随着微博用户数日益增多,微博已然成为了网络舆情的重要产生地,同时微博舆情状态多样,涉及因素复杂,多种不同因素构成了一个复杂的系统,系统中存在个别用户、微博或评论等舆情要素对舆情演变起关键作用。因此引入超网络对微博舆情的关... 随着微博用户数日益增多,微博已然成为了网络舆情的重要产生地,同时微博舆情状态多样,涉及因素复杂,多种不同因素构成了一个复杂的系统,系统中存在个别用户、微博或评论等舆情要素对舆情演变起关键作用。因此引入超网络对微博舆情的关键舆情要素进行识别,对网络舆情的分析和监控有积极意义。本研究以基于超图的超网络为基础,构建了微博舆情超网络分析模型,应用LDA,SnowNLP,Python仿真分析等方法,识别微博舆情中的关键舆情要素,并对关键舆情要素的特征和情感进行分析与讨论。最后,应用在真实的舆情主题中,识别出六类关键舆情要素,分别是活跃人物、传播人物、热点微博、潜在热门微博、热点主题、中心主题,并分析各关键舆情要素的情感倾向。研究结果表明,建立的超网络模型,能有效识别特定舆情环境下的关键舆情要素,有利于对网络热门事件进行舆情分析和监控。 展开更多
关键词 超图 超网络 微博舆情 关键舆情要素 数据分析
下载PDF
基于微博文本数据的灾害信息公众关注分析--以河南暴雨洪涝事件为例
4
作者 赵晓丽 苏筠 《自然灾害学报》 CSCD 北大核心 2024年第3期17-27,共11页
面对未来暴雨洪涝灾害风险挑战,加强关于风险沟通、公众参与的研究,提升风险管理有效性,将有助于减轻风险。社交媒体凭借其强大的信息传播能力,在灾害管理中日益重要。基于从新浪微博“河南暴雨”关键词爬取的微博信息98078条,通过文本... 面对未来暴雨洪涝灾害风险挑战,加强关于风险沟通、公众参与的研究,提升风险管理有效性,将有助于减轻风险。社交媒体凭借其强大的信息传播能力,在灾害管理中日益重要。基于从新浪微博“河南暴雨”关键词爬取的微博信息98078条,通过文本提取、统计和共现网络分析公众关注度的变化情况,探究公众对不同灾害信息关注的差异以及关注倾向。研究结果表明:河南暴雨洪涝灾害事件演化过程分为潜伏期、爆发期、持续期和淡化期4个阶段,公众关注度的大小在灾害初期受致灾因子强度的影响,致灾因子达到一定强度并造成严重灾情时,会引起公众广泛而持续的关注。暴雨洪涝自然灾害事件的微博文本主要呈现致灾因子、灾害影响和响应3个主题,本事件根据信息内容可细分为26个类别,公众对不同时期、不同类型的灾害信息的关注热度不同,潜伏期公众最为关注山洪等致灾因子的预警信息,但关注度较低。在爆发期、持续期和淡化期,内涝成为公众最为关注的致灾因子,人员伤亡和交通受阻为公众最为关注的灾害影响,灾民网上求救、捐款捐物和现场救援为公众最为关注的响应行为。本次事件出现人员伤亡、交通受阻、经济损失、能源通讯、生产生活和次生灾害6个凝聚子群,其中人员伤亡、灾民网上求助、现场救援和捐款捐物作为本次暴雨洪涝灾害的核心事件,构成了最核心的“人员伤亡”主题的凝聚子群。研究成果为政府发布灾害信息提供参考和改进建议。 展开更多
关键词 河南 暴雨洪涝 微博数据 公众关注 共现网络分析
下载PDF
微博数据与地理信息数据结合的洪涝淹没概率估计方法
5
作者 崔志美 黄维 +1 位作者 黄志都 邬蓉蓉 《水力发电》 CAS 2024年第9期22-29,43,共9页
近年来极端天气使持续性强降雨频发,导致洪水灾害变得更加频繁和不规律,严重影响到人民安全及经济建设,而评估洪涝的淹没概率能加强洪涝灾害的应急管理能力。传统的遥感数据受限于重返周期及气象条件,水文模型则受限于数据输入与参数设... 近年来极端天气使持续性强降雨频发,导致洪水灾害变得更加频繁和不规律,严重影响到人民安全及经济建设,而评估洪涝的淹没概率能加强洪涝灾害的应急管理能力。传统的遥感数据受限于重返周期及气象条件,水文模型则受限于数据输入与参数设置。在上述数据与模型方法的局限性下,利用社交媒体——微博数据具有时效性强且海量的特点,以2021年“7·20”河南暴雨事件为例,提出了一种通过融合数字高程模型及其衍生数据、降雨数据、水系数据与灾中微博文本数据来估算灾中洪水淹没概率分布的方法。利用反距离衰减函数,根据水深点生成实时更新的淹没概率图,然后采用高斯函数对地理信息数据进行权重分配,得到综合叠加后的最终空间连续淹没概率图。结果显示,在雷达影像验证中,获得92.75%的准确率;在官媒、微博图片信息的验证中,获得93.33%的准确率。 展开更多
关键词 洪涝淹没 概率估计 微博数据 反距离 高斯
下载PDF
基于微博签到数据的城市空间活力探析——以苏州市为例
6
作者 马庚 吴昊 +2 位作者 陈金留 胡少华 保拉·佩莱格里尼 《现代城市研究》 北大核心 2024年第2期36-41,共6页
随着信息技术的发展,在城市生活中存在着各式各样的数据,其中以微博签到数据为代表的社交媒体数据为规划师探寻人群活动与城市建成环境的动态关系提供了可能。文章以苏州市微博签到数据为载体,探寻了新兴大数据在解读城市结构与活力度... 随着信息技术的发展,在城市生活中存在着各式各样的数据,其中以微博签到数据为代表的社交媒体数据为规划师探寻人群活动与城市建成环境的动态关系提供了可能。文章以苏州市微博签到数据为载体,探寻了新兴大数据在解读城市结构与活力度方面的应用方法。研究还就理解城市居民社会活动与城市空间的动态相互作用进行了探索,结果表明,城市空间的土地利用与组织方式决定了城市居民活动的聚集程度以及时间长短。以上研究尝试在新兴数据载体下重新理解城市结构与社会活动之间的关系,为今后的相关研究及规划实践提供了一次新的理论探索。 展开更多
关键词 城市空间结构 微博签到 社交媒体数据 活力度 苏州
下载PDF
基于新浪微博的2022年吉林松原M_(S)4.3地震舆情信息数据分析
7
作者 胡越 王卓 方瑶 《地震地磁观测与研究》 2024年第2期171-176,共6页
基于新浪微博数据,运用网络爬虫技术,获取2022年3月16日吉林松原M_(S)4.3地震舆情信息数据并进行分析,发现舆情传播生命周期通常为震后48小时,震后舆情传播信息广度通常呈双峰分布,官方与自媒体的信息发布更易推动舆情事件热度多峰的形... 基于新浪微博数据,运用网络爬虫技术,获取2022年3月16日吉林松原M_(S)4.3地震舆情信息数据并进行分析,发现舆情传播生命周期通常为震后48小时,震后舆情传播信息广度通常呈双峰分布,官方与自媒体的信息发布更易推动舆情事件热度多峰的形成,政府与自媒体的介入可有效稳定网友情绪并提升网友情绪评分。 展开更多
关键词 松原M_(S)4.3地震 网络舆情 新浪微博 数据分析
下载PDF
纵向约束视角下微博反腐的互动逻辑——结合大数据与深度案例的探索
8
作者 吴玉洁 肖汉宇 《广州大学学报(社会科学版)》 CSSCI 2024年第4期65-82,共18页
微博反腐是中国制度反腐的重要补充。近年来,随着被微博曝光的腐败问题复杂性增加,信息失真更容易发生,以致民众的负面情绪更容易爆发。这对政府的腐败治理提出了新的挑战与要求,但是学界对微博反腐的新特征仍然认识不足。以纵向约束理... 微博反腐是中国制度反腐的重要补充。近年来,随着被微博曝光的腐败问题复杂性增加,信息失真更容易发生,以致民众的负面情绪更容易爆发。这对政府的腐败治理提出了新的挑战与要求,但是学界对微博反腐的新特征仍然认识不足。以纵向约束理论为视角,并利用大数据分析方法来深度剖析“北极鲶鱼”案例,可以揭示微博反腐的新特征。在微博反腐的初期,地方政府的及时回应能够有效降低议题热度;但是进入中期,地方政府的模糊回应会激发民众的不满情绪与非理性评论,而中央媒体则积极引导民众互动;进入尾期,中央媒体与民众互动加强,可以促进地方政府回应。在一体推进不敢腐、不能腐、不想腐的大背景下,各级政府应根据微博反腐的新特征,积极处理微博反腐的负面舆情,推动国家与网络社会之间的良性互动。 展开更多
关键词 微博反腐 政府回应 社会问责 大数据
下载PDF
基于大数据的微博舆情分析系统的设计与实现
9
作者 霍英 丘志敏 +1 位作者 李小帆 李彦廷 《软件工程》 2023年第6期55-58,54,共5页
为了对社会突发事件引发的舆情及时开展分析、引导及治理,在大数据环境下,采用SSM(Spring+SpringMVC+MyBatis)架构设计并实现了一个集微博舆情信息采集、去重、分析、处理及可视化的综合平台,同时对微博舆情分析的数据处理进行了介绍,... 为了对社会突发事件引发的舆情及时开展分析、引导及治理,在大数据环境下,采用SSM(Spring+SpringMVC+MyBatis)架构设计并实现了一个集微博舆情信息采集、去重、分析、处理及可视化的综合平台,同时对微博舆情分析的数据处理进行了介绍,并对文本情感分析、计算文本相似度给出了具体算法。系统通过数据采集层、数据处理层和数据展示层3个子层实现对微博舆情信息的趋势性预警及有效监管。目前,该平台完成了相关微博舆情热点话题的追踪及趋势预警,在实际应用中,观察到在单机日采集量约100万条时,对舆情数据分析的有效率可以达到90%以上。 展开更多
关键词 网络舆情 大数据 微博
下载PDF
基于微博数据的京津冀地区非遗文化公众感知特征研究 被引量:1
10
作者 黄文龙 张景秋 《北京联合大学学报》 CAS 2023年第3期49-56,共8页
利用2014年和2019年的微博数据,通过词频分析、情感分析和语义网络分析,探析京津冀地区公众对于非物质文化遗产的感知特征,结果表明:1)公众对非遗文化感知在2014—2019年呈现增强趋势,感知的深度和广度不断扩展,呈现由北京和天津双中心... 利用2014年和2019年的微博数据,通过词频分析、情感分析和语义网络分析,探析京津冀地区公众对于非物质文化遗产的感知特征,结果表明:1)公众对非遗文化感知在2014—2019年呈现增强趋势,感知的深度和广度不断扩展,呈现由北京和天津双中心向京津冀全域扩散、由剧场这类单一类型场所向多种文化场所扩散的趋势,非遗文化类别从传统戏剧和曲艺为主向传统舞蹈、传统技艺、民俗、传统美术等多种非遗文化类别扩展;2)公众情感的正负趋向分析可以为非遗文化活动的精细化管理提供以人为本的视角,公众情感态度总体是积极正向的,正负情绪趋向主要受非遗项目认知、周边配套设施便利程度、现场体验等方面的影响;3)丰富多样的非遗项目既丰富了非遗文化活动,也在一定程度上促进了京津冀各地之间,特别是北京与津冀之间的交流与空间联系,与地理学上的距离衰减规律不一致,体现了文化联系视角下的京津冀区域关联的差异特点,而非遗文化活动与文保单位或文化遗产地的关联,表明对物质和非物质文化遗产的整体性保护意识在增强。 展开更多
关键词 非物质文化遗产 公众感知 微博数据 京津冀协同发展 空间联系
下载PDF
气候因子的情绪效应
11
作者 李小文 胡文婷 何元庆 《医学与哲学》 北大核心 2023年第17期56-60,共5页
研究耦合了逐日气候数据和情绪数据,使用关键词分析技术和多项式逻辑回归模型考察气候与情绪之间的关联。情绪数据创新性地使用微博大数据替代传统的问卷数据,以全国五个典型城市为样本,爬取这五座城市在新浪微博上关于气候内容的文本,... 研究耦合了逐日气候数据和情绪数据,使用关键词分析技术和多项式逻辑回归模型考察气候与情绪之间的关联。情绪数据创新性地使用微博大数据替代传统的问卷数据,以全国五个典型城市为样本,爬取这五座城市在新浪微博上关于气候内容的文本,通过自然语言处理和机器学习得到情绪数据。研究发现:气候与情绪之间存在着复杂的曲线关系;不同气候因子对情绪的影响力是有差异的,综合考虑关键词TF-IDF权重、显著性指标和偏回归系数权重等,得出气候因子的影响力中日照和湿度对情绪的影响力最大,气温和降水其次,风速最小。 展开更多
关键词 微博大数据 气候因子 情绪识别 情绪效应
下载PDF
社交媒体中应急救援信息分类的影响特征研究
12
作者 沈洪洲 居玥 《智能计算机与应用》 2023年第7期19-26,共8页
突发事件应急管理中社交媒体数据质量参差不齐、难以直接为应急救援机构或志愿者的现场救援活动提供帮助,探究有助于从突发事件的社交媒体数据中快速挖掘出应急救援信息的关键特征,从而提升社交媒体数据的严谨性,推动社交媒体数据纳入... 突发事件应急管理中社交媒体数据质量参差不齐、难以直接为应急救援机构或志愿者的现场救援活动提供帮助,探究有助于从突发事件的社交媒体数据中快速挖掘出应急救援信息的关键特征,从而提升社交媒体数据的严谨性,推动社交媒体数据纳入正式的应急决策过程具有重要意义。以“微博”平台为例,通过对“微博”平台的分析和相关研究文献的总结,确定了8个潜在影响微博内容能否支撑应急救援行动的特征。基于“#河南暴雨互助#”话题下的微博内容、传播和用户维度抽取8个特征,以决策树模型为基准模型,通过CART算法评估各个特征对区分应急救援信息的贡献度。结果表明,信息内容地址信息特征、信息内容语言特征、信息主体特征是社交媒体中的应急救援信息分类的关键特征。 展开更多
关键词 微博 应急救援信息 基本特征 数据挖掘 决策树
下载PDF
基于微博数据的应用研究综述 被引量:18
13
作者 刘晓娟 尤斌 张爱芸 《情报杂志》 CSSCI 北大核心 2013年第9期39-45,共7页
微博数据已经成为学术界重要的数据来源,近年来国内外学者开始利用大量开放的微博数据进行社会科学、企业营销、医疗卫生、政府建设等多方面的研究。从数据来源及获取方式、数据选择及其处理办法和研究结果的应用三个方面对国内外研究... 微博数据已经成为学术界重要的数据来源,近年来国内外学者开始利用大量开放的微博数据进行社会科学、企业营销、医疗卫生、政府建设等多方面的研究。从数据来源及获取方式、数据选择及其处理办法和研究结果的应用三个方面对国内外研究情况进行了总结,并阐述了目前研究存在的局限性。 展开更多
关键词 微博 大数据 TWITTER 新浪微博 可视化数据集
下载PDF
基于Python的微博用户关系挖掘研究 被引量:15
14
作者 林晓丽 胡可可 胡青 《情报杂志》 CSSCI 北大核心 2014年第6期144-148,共5页
以新浪微博平台为研究对象,利用Python语言和Web自动化工具通过平台提供的应用接口实现自动认证和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可视化。此外,采用改进的K-means算... 以新浪微博平台为研究对象,利用Python语言和Web自动化工具通过平台提供的应用接口实现自动认证和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可视化。此外,采用改进的K-means算法进行主题聚类,实验结果表明,改进后的算法更加准确有效。最后,根据用户信息生成兴趣相关性矩阵,采用改进后的K-means算法分析微博用户关注兴趣的相似性。 展开更多
关键词 新浪微博 用户关系 数据挖掘 聚类分析
下载PDF
基于Python的新浪微博数据爬虫 被引量:62
15
作者 周中华 张惠然 谢江 《计算机应用》 CSCD 北大核心 2014年第11期3131-3134,共4页
目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、... 目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。 展开更多
关键词 新浪微博 爬虫 PYTHON 并行 大数据
下载PDF
基于微博大数据的中国人个体主义/集体主义的心理地图 被引量:6
16
作者 任孝鹏 向媛媛 +1 位作者 周阳 朱廷劭 《内蒙古师范大学学报(哲学社会科学版)》 2017年第6期59-64,共6页
尽管中国人存在个体主义/集体主义的地区差异,但是对哪些省的个体主义更高,哪些省的集体主义更高并没有达成共识。本研究以100万微博活跃用户的大数据为基础,利用个体主义/集体主义相关的关键词进行分析,比较个体主义和集体主义在省层... 尽管中国人存在个体主义/集体主义的地区差异,但是对哪些省的个体主义更高,哪些省的集体主义更高并没有达成共识。本研究以100万微博活跃用户的大数据为基础,利用个体主义/集体主义相关的关键词进行分析,比较个体主义和集体主义在省层面的地区差异,结果发现海外用户的个体主义高于国内用户,而集体主义低于国内用户,证明了大数据方法的有效性;我们在基础上构建了中国人个体主义/集体主义的心理地图,并对造成其地区差异的影响因素进行了探讨。 展开更多
关键词 个体主义 集体主义 微博 大数据
下载PDF
基于新浪微博大数据的旅游流时空特征研究——以兰州市为例 被引量:50
17
作者 王录仓 严翠霞 李巍 《旅游学刊》 CSSCI 北大核心 2017年第5期94-105,共12页
伴随着"互联网+"的普及、智能移动设备的广泛使用,以微博为代表的社交网络位置服务信息逐渐增多,为研究旅游流时空特征提供了新的数据来源和视角。文章利用新浪微博LBS签到数据和核密度估计分析方法,从时空维度对兰州市旅游... 伴随着"互联网+"的普及、智能移动设备的广泛使用,以微博为代表的社交网络位置服务信息逐渐增多,为研究旅游流时空特征提供了新的数据来源和视角。文章利用新浪微博LBS签到数据和核密度估计分析方法,从时空维度对兰州市旅游流特征进行了研究。结果表明:旅游流在时间维度上存在明显的节律性,无论是年变化,还是日变化,均表现出明显的旅游流初现期-高峰期-回落期-休眠期变化特征,季相变化明显,夏半年和冬半年存在较大差异,"双峰"特征显著;日变化呈现偏态"金字塔"形结构特征;在空间维度上,具有典型的"核心(城区)-边缘(周边区域)"结构特征,切合旅游景点和旅游服务接待设施空间分布格局。女性游客签到量大于男性游客,流量变化小于男性;女性游客主要集中在主城区活动,男性游客则偏好户外活动丰富的郊野森林公园。省、内外旅游流在时间维度上存在着明显的"超前-滞后"效应,在空间选择上存在着一定的错位现象。从旅游流活动轨迹来看,表现出明显的"轴线-散点"态势:中山桥—白塔山公园—城隍庙—黄河母亲像—水车博览园为主的"黄河风情线"是主要的轴线,而外围地区主要的景点成为吸引游客的主要"散点",无论是主城区,还是外围地区,均没有形成闭合的旅游环线。 展开更多
关键词 新浪微博 LBS签到数据 旅游流时空特征 兰州市
下载PDF
基于网络大数据的社会心理学研究进展 被引量:24
18
作者 乐国安 赖凯声 《苏州大学学报(教育科学版)》 2016年第1期1-11,共11页
互联网和计算机科学技术的快速发展,使得基于网络大数据的心理行为研究越来越受到研究者的关注。这为研究人类的心理与行为规律提供了新的视角。心理学作为社会科学的重要组成部分,在计算社会科学的大浪潮中也展示出了巨大的发展潜力,... 互联网和计算机科学技术的快速发展,使得基于网络大数据的心理行为研究越来越受到研究者的关注。这为研究人类的心理与行为规律提供了新的视角。心理学作为社会科学的重要组成部分,在计算社会科学的大浪潮中也展示出了巨大的发展潜力,在情绪心理学、人格心理学、行为金融学、健康心理学、政治心理学等诸多领域催生了一批具有重要理论和现实意义的研究成果。我国的社会心理学研究者,已围绕微博情绪问题,并结合股市预测、社会风险感知、精英与大众关系、地区民族主义等诸多具有重要社会现实意义的研究问题,开展了一系列探索性研究。关于网络大数据的社会心理学研究,未来的研究者应该理性地看待这一新兴研究范式,并且充分发挥该范式的优势,从而更好地为解决社会科学的理论和现实社会问题服务。 展开更多
关键词 大数据 心理信息学 微博 情绪
下载PDF
基于Java的新浪微博爬虫研究与实现 被引量:8
19
作者 陈珂 蓝鼎栋 +2 位作者 柯文德 黎树俊 邓文天 《计算机技术与发展》 2017年第9期191-196,共6页
为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源... 为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间。主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能。为验证该系统的有效性和可行性,与其他传统方法进行了分析对比。实验验结果表明,所提出的系统爬取效率更高,实现代码更简便。 展开更多
关键词 新浪微博 网络爬虫 JAVA 数据挖掘
下载PDF
基于用户权威度与热度分配聚类的微博热点发现 被引量:1
20
作者 曹春萍 黄伟 《计算机工程与设计》 北大核心 2020年第3期664-669,共6页
针对微博热点算法未合理进行微博文本和微博用户相结合的问题,提出基于用户权威度与热度分配聚类的微博热点挖掘算法。对微博文本进行分词,得到特征词并使用改进TF-IDF为特征词分配权重,通过权重大小进行降序排序,对微博文本进行聚类分... 针对微博热点算法未合理进行微博文本和微博用户相结合的问题,提出基于用户权威度与热度分配聚类的微博热点挖掘算法。对微博文本进行分词,得到特征词并使用改进TF-IDF为特征词分配权重,通过权重大小进行降序排序,对微博文本进行聚类分析得到主题类簇,使用ULRank算法计算用户权威度,综合特征词权重、用户权威度和引用关系为特征词分配热度,得到特征词的热度排序结果,获取特征词对应聚类类簇的大概主题即热点话题。实验结果表明,该方法的吞吐量、运行效率、准确率及F值表现较好,能够较全面地反映当前的热点话题。 展开更多
关键词 微博数据 特征权重 文本聚类 用户权威度 热度分配
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部