期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法
1
作者 刘丹 《微型电脑应用》 2024年第4期195-197,201,共4页
为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表... 为了准确识别社交媒体评论文本情感,助力公众负面情绪引导,提出了基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法。通过社交媒体大数据分类,并通过具有字典功能的Token将评论文本转换成数字列表。结合词嵌入技术得到向量列表,完成社交媒体大数据向量转换的预处理。将预处理获取的向量列表输入CNN网络,得到评论文本情感元最终局部特征值。将该值传至LSTM,通过遗忘门、输入门、输出门调节,获取评论文本情感元特征表征结果,经Softmax分类器分类后,实现情感元自动识别。实验结果表明,该方法能有效完成实验数据预处理,用文字和标签的形式标记正面、负面情感元,并准确识别情感元,间接反映社会问题,应用性较强。 展开更多
关键词 社交媒体数据 评论文本 情感元 向量列表 CNN-LSTM 自动识别
下载PDF
基于不平衡社交媒体文本的抑郁症检测方法
2
作者 郭耀木 刘鹏 +3 位作者 孙源乐 白其炜 张少华 刘建 《计算机技术与发展》 2024年第4期153-161,共9页
针对目前基于社交媒体数据的抑郁症检测模型难以适应不平衡数据和评估指标不全面的问题,提出一种基于文档自适应增强Bagging-τSS3(Document Adaptive Enhanced Bagging-τSS3,DAEB-τSS3)模型的社交媒体文本数据抑郁检测方法和一种新... 针对目前基于社交媒体数据的抑郁症检测模型难以适应不平衡数据和评估指标不全面的问题,提出一种基于文档自适应增强Bagging-τSS3(Document Adaptive Enhanced Bagging-τSS3,DAEB-τSS3)模型的社交媒体文本数据抑郁检测方法和一种新的机器学习评价指标GF(α,β)-Score。在τ-SS3模型基础上引入置信度加权处理,增强少数类数据影响;同时,采用文档自适应增强Bagging方法进行集成学习,改进Bagging的随机采样为分层采样并对少数类数据文档进行自适应增强以提升模型适应不平衡数据的能力;最后在模型评价阶段,使用GF-Score进行自动参数选择,丢弃表现不佳的基学习器,提升模型的可信度和稳定性。在E-Risk2017抑郁症检测数据集上的实验结果表明,DAEB-τSS3有更强的适应不平衡数据集的能力,相较于τSS3、双向长短时记忆网络和ERNIE 3.0等模型有显著性能提升,GF-Score、F1-Score和G-Mean Score平均提升13%,0.7%和26.9%,可以更加有效地实现基于不平衡社交媒体文本的抑郁症检测。 展开更多
关键词 不平衡数据集 抑郁检测 集成学习 文本分类 社交媒体文本数据
下载PDF
社交媒体文本数据的抑郁症检测研究综述 被引量:3
3
作者 徐东东 蔡肖红 +1 位作者 刘静 曹慧 《计算机工程与应用》 CSCD 北大核心 2023年第4期54-63,共10页
近年来,机器学习被逐渐运用到基于社交媒体文本数据的抑郁症检测中并凸显重要应用价值。为梳理其应用现状和发展方向,对用于抑郁症检测的社交媒体文本数据集、数据预处理和机器学习方法进行整理分类。在数据特征表示方面,对比分析了基... 近年来,机器学习被逐渐运用到基于社交媒体文本数据的抑郁症检测中并凸显重要应用价值。为梳理其应用现状和发展方向,对用于抑郁症检测的社交媒体文本数据集、数据预处理和机器学习方法进行整理分类。在数据特征表示方面,对比分析了基础特征表示、静态词嵌入和语境词嵌入。全面分析了利用不同基础特征和不同算法类型的传统机器学习以及深度学习进行抑郁症检测的性能和特点。总结并建议未来在中文数据集的创建、模型的可解释性、基于隐喻的检测和轻量级预训练模型方面做进一步的探索。 展开更多
关键词 社交媒体 文本数据 抑郁症 机器学习
下载PDF
基于社交媒体数据的北京市历史名园景观感知与评价研究
4
作者 米夏原 吴作民 +3 位作者 邹宁 于淼 丁康 李运远 《城市建筑》 2023年第23期1-8,共8页
城市建成区内的历史园林是城市文化和生态遗产的重要组成部分,也是重要的公众游憩绿地。在保护历史园林的同时,深入挖掘其内蕴的历史文化价值并合理高效地利用文化遗产资源,可推动历史名园的可持续发展。基于北京市9个历史名园的社交媒... 城市建成区内的历史园林是城市文化和生态遗产的重要组成部分,也是重要的公众游憩绿地。在保护历史园林的同时,深入挖掘其内蕴的历史文化价值并合理高效地利用文化遗产资源,可推动历史名园的可持续发展。基于北京市9个历史名园的社交媒体数据,通过词频统计,分析公众对历史名园的关注情况和历史文化感知情况,并对公园内山石、水体、植物、建筑及其他景观要素进行进一步细分,构建历史公园景观要素指标体系,运用重要性-满意度分析(IPA)法探究游客景观要素感知差异。研究结果有助于深入理解公众对历史名园景观的感知现状,并在后续的更新和管理实践中进行适当调整,调动历史名园进行文化遗产保护传承的社会积极性。 展开更多
关键词 历史名园 景观感知 社交媒体数据 IPA法 网络文本分析
下载PDF
微博数据挖掘研究综述 被引量:121
5
作者 丁兆云 贾焰 周斌 《计算机研究与发展》 EI CSCD 北大核心 2014年第4期691-706,共16页
随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,已发展成一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介以及... 随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,已发展成一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介以及社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响.微博是人类在虚拟网络世界生活的抽象概括和延伸,与一般信息网络不同,微博本身具有大规模、噪音数据多样性、快速传播演化性、非线性、社会媒体性以及多关系等特征,因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别,在相关技术的研究上也带来了更大的挑战.针对微博的新特性,研究了微博近几年的相关研究现状,同时分析了Twitter数据集特征,且总结了未来研究面临的挑战. 展开更多
关键词 微博 数据挖掘 文本挖掘 社会网络 社会媒体
下载PDF
广州市公园对比评价研究——基于社交媒体数据的文本分析 被引量:36
6
作者 王志芳 赵稼楠 +1 位作者 彭瑶瑶 岳文静 《风景园林》 2019年第8期89-94,共6页
传统公园评价的研究大多集中在单个公园使用满意度方面,存在问卷样本量小、采集时间较集中等缺陷。大数据相关研究的快速发展为公园系统评价提供了新的契机。基于对社交媒体数据的文本分析,研究对比广州市50个公园的评价结果,同时探究... 传统公园评价的研究大多集中在单个公园使用满意度方面,存在问卷样本量小、采集时间较集中等缺陷。大数据相关研究的快速发展为公园系统评价提供了新的契机。基于对社交媒体数据的文本分析,研究对比广州市50个公园的评价结果,同时探究公园评价与人口统计学特征、地理区位、评价时间以及公园属性之间的关系。研究发现,1)公园正面评价主要集中在免费设施、环境和特色等方面,而负面评价多集中于公园卫生、交通成本、停车等管理服务方面,广州公园的管理服务水平亟待提升。2)女性较男性更关注公园能否满足其对社交场所的需求,本地游客较外地游客更关注公园本身的服务质量而非公园的外部属性。3)基干公园应更侧重其可达性和基本的服务功能,承担大众日常活动;特色公园应更注重满足特定人群的需求及特色打造;自然公园应更关注公园生态质量并能够承担需要较大场地的活动。4)2010—2018年,人们越来越关注公园特色的打造,在公园中的活动类型也越来越多样,现代公园建设更应着力于文化服务质量的提升。研究突破传统公园研究方法的局限,将大数据的手段运用到多个公园的整体评价当中,有助于建立更普适、更有针对性的公园评价指标体系,具有较高的实践价值。 展开更多
关键词 风景园林 广州市公园 社交媒体 大数据 文本分析
下载PDF
面向医疗社交媒体的用户评论情感分析研究 被引量:3
7
作者 孙二冬 王刚 《郑州航空工业管理学院学报》 2016年第6期63-70,共8页
针对已有的文本情感分析方法并没有关注到医疗社交媒体中用户评论数据呈现非均衡分布的问题,将非均衡数据分类方法应用于医疗社交媒体用户评论情感分析研究中,该方法主要包括基于取样的方法和基于集成学习的方法,分别从数据层面和算法... 针对已有的文本情感分析方法并没有关注到医疗社交媒体中用户评论数据呈现非均衡分布的问题,将非均衡数据分类方法应用于医疗社交媒体用户评论情感分析研究中,该方法主要包括基于取样的方法和基于集成学习的方法,分别从数据层面和算法层面来解决医疗社交媒体中数据非均衡分布问题。与其他的方法相比,Random Subspace方法取得了最好的分类效果。实验结果验证了非均衡数据分类方法在医疗社交媒体用户评论情感分析中应用的有效性。 展开更多
关键词 医疗社交媒体 非均衡数据分类 文本情感分析 集成学习
下载PDF
基于社交媒体文本的灾情信息识别方法比较研究 被引量:3
8
作者 王月明 胡卓玮 陈锡 《自然灾害学报》 CSCD 北大核心 2022年第1期179-187,共9页
挖掘社交媒体发布的信息,逐渐成为了一种获取所需数据的重要途径,数据挖掘采用的一种重要方法就是机器学习。基于此,本研究以4起自然灾害事件的相关微博文本数据集为实验语料开展实验,比较基于朴素贝叶斯、随机森林和多元逻辑回归算法... 挖掘社交媒体发布的信息,逐渐成为了一种获取所需数据的重要途径,数据挖掘采用的一种重要方法就是机器学习。基于此,本研究以4起自然灾害事件的相关微博文本数据集为实验语料开展实验,比较基于朴素贝叶斯、随机森林和多元逻辑回归算法建立的3种模型的主题识别效果。结果表明,多元逻辑回归模型对相关微博灾情文本数据的主题识别效果相对较好,各精度评价指标值高达91%;从各主题的识别结果来看,主题类别为情感支持和提醒建议的文本被正确识别的3种评价指标值均达到了90%以上。还分析了导致模型错分主题的原因,包括内因(参数设置、数据集切分比例等)和外因(样本量、人工标注等)。将该多元逻辑回归模型应用于社交媒体灾情文本主题初步识别,可以为后续工作提供优化,进而为相关部门采取应急措施提供参考。 展开更多
关键词 社交媒体 数据挖掘 灾情文本 主题识别 机器学习 精度评价
下载PDF
基于微博数据的地震灾情信息识别与应用 被引量:6
9
作者 孔珍 张叶廷 杜志强 《地理信息世界》 2020年第6期98-104,共7页
灾后的应急救灾初期急需受灾范围和受灾程度等灾情信息,为应急救援行动提供数据支撑。基于微博数据设计了地震灾情知识库,确定了灾情类别和灾情等级关键词;详细介绍了地震灾情知识库的构建过程及原理,首先采用基于种子词的方法对文本进... 灾后的应急救灾初期急需受灾范围和受灾程度等灾情信息,为应急救援行动提供数据支撑。基于微博数据设计了地震灾情知识库,确定了灾情类别和灾情等级关键词;详细介绍了地震灾情知识库的构建过程及原理,首先采用基于种子词的方法对文本进行分类,然后利用条件随机场模型对文本中的中文地名进行识别,在通过多类地名使用规则确定地名信息后,使用灾情聚合计算方法得到地震的受灾区域和各区域对应的灾情指数,实现灾区行政地名的识别和灾情程度的比较,并以四川长宁地震为例进行了验证,结果表明,通过构建的地震灾情知识库和灾情聚合方法能够有效识别和整合互联网涉灾文本数据中的有效信息,辅助救援行动方案的制定。 展开更多
关键词 社交媒体涉灾数据 文本分类 中文地名识别 灾情信息聚合
下载PDF
基于隐喻地图的社交媒体用户应急物资需求可视化分析 被引量:3
10
作者 崔珂成 马晓悦 薛鹏珍 《现代情报》 CSSCI 2021年第7期27-37,共11页
[目的/意义]通过引入隐喻地图来改善之前可视化工具在统一表征应急物资需求主题结构和演化关系方面的缺陷,减少分离式表征对用户造成的认知负担。[方法/过程]设计用于表征社交媒体中应急物资需求主题的隐喻地图,并以此为基础提供了一系... [目的/意义]通过引入隐喻地图来改善之前可视化工具在统一表征应急物资需求主题结构和演化关系方面的缺陷,减少分离式表征对用户造成的认知负担。[方法/过程]设计用于表征社交媒体中应急物资需求主题的隐喻地图,并以此为基础提供了一系列交互式功能便于对信息的探索性分析和整体认知。[结果/结论]基于隐喻地图的视觉表征可以强化对于需求主题结构和演化状态的整体表征,减轻用户认知的心智负担。本研究提出了一种基于隐喻地图的应急需求主题可视化方法,为应急资源协调调度等决策提供了参考。 展开更多
关键词 主题分析 应急信息管理 应急物资需求 文本可视化 数据可视化 隐喻地图 社交媒体 用户
下载PDF
基于Twitter数据的地点分类方法研究
11
作者 邱小宇 林杰 《科技通报》 2020年第4期67-71,共5页
城市化进程中,新的地点不断出现且地点类型不断更新,导致大量未知地点产生,为城市形态的理解和掌控造成障碍。本文综合多种空间分析及文本挖掘技术,创新性地融合Twitter数据中的时间记录与Tweets(用户在Twitter中发表的文本内容)用于地... 城市化进程中,新的地点不断出现且地点类型不断更新,导致大量未知地点产生,为城市形态的理解和掌控造成障碍。本文综合多种空间分析及文本挖掘技术,创新性地融合Twitter数据中的时间记录与Tweets(用户在Twitter中发表的文本内容)用于地点分类。设计抽取精细的人群活动的时空-内容信息的方法,并通过监督学习方法,利用少量标记样本,自动识别未知地点的类型。最终识别出教育、娱乐、商店、社会服务、交通五种类型的地点,整体精度达67.6%,表明方法的可行性,为社交数据在地点分类研究中的有效利用提供了新的思路。 展开更多
关键词 地点分类 社交网络数据 Twitter数据 空间分析 文本挖掘
下载PDF
基于社交媒体数据的北京游客情感体验及时空特征研究
12
作者 杨佟 孟斌 《绿色科技》 2022年第19期185-189,共5页
社交媒体数据的数量和类型日渐丰富,通过机器学习等分析技术可以对人们的行为和情感特征进行挖掘和分析。以北京游客为研究对象,基于新浪微博数据,经过数据预处理,利用文本分析和空间分析方法研究了游客情感的时空变化特征。结果表明:... 社交媒体数据的数量和类型日渐丰富,通过机器学习等分析技术可以对人们的行为和情感特征进行挖掘和分析。以北京游客为研究对象,基于新浪微博数据,经过数据预处理,利用文本分析和空间分析方法研究了游客情感的时空变化特征。结果表明:游客在京旅游的积极情感占比高于消极情感;在空间上,情感热点主要分布在主城区,情感冷点主要分布在郊区。游客的积极情感多表现为赞美、良好体验、文化丰富等;消极情感主要与人流量大、景区服务质量欠佳、较差的天气状况等因素有关。该结果以期丰富情感地理学的内容和方法,并为提升旅游业服务质量和城市基础设施建设提供理论依据。 展开更多
关键词 文本内容分析 游客情感 社交媒体数据 时空特征 北京市
下载PDF
大语言模型增强下的社媒平台热榜主题分析
13
作者 郑文镇 唐锡晋 《系统科学与数学》 CSCD 北大核心 2024年第6期1630-1648,共19页
社交媒体平台的热门榜单作为热点信息的汇聚和展示,对于我们理解当前热点话题具有很大的启示.但由于热榜文本存在词汇稀疏和文本较短的问题,传统LDA和基于神经网络的主题挖掘模型面临着主题聚合表现不佳的表现.对此,文章提出了一个基于... 社交媒体平台的热门榜单作为热点信息的汇聚和展示,对于我们理解当前热点话题具有很大的启示.但由于热榜文本存在词汇稀疏和文本较短的问题,传统LDA和基于神经网络的主题挖掘模型面临着主题聚合表现不佳的表现.对此,文章提出了一个基于大型语言模型增强的主题建模框架——STAB.该框架结合大语言模型对文本数据的生成式增强能力,以及文档嵌入在主题建模中的优异表现,能够在短文本数据集上挖掘出有意义的主题.在多个数据集上的实验结果表明,在通用客观评价指标和下游任务应用方面,该框架均优于已有的主题建模方法. 展开更多
关键词 社交媒体分析 主题模型 短文本主题建模 大语言模型 数据增强 舆情分析
原文传递
基于分步降维框架的股吧短文本数据关键信息抽取与个股收益预测 被引量:1
14
作者 卢珊 王惠文 赵吉昌 《计量经济学报》 CSSCI CSCD 2023年第3期707-721,共15页
社交媒体是股市投资者获取金融信息的重要来源,其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意,口语化严重,长度较短且语义密度低,使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al.(2021)... 社交媒体是股市投资者获取金融信息的重要来源,其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意,口语化严重,长度较短且语义密度低,使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al.(2021)提出的分步降维框架试图通过充分利用文本本身的语义特征以提升关键信息抽取的精准性.本文将这一框架扩展至社交媒体情景,以系统探索东方财富网股吧短文本是否为个股价格走势提供有效的前导信息.具体而言,首先使用主成分分析方法提取文本中的公共因子,继而对残差矩阵依次实施变量扫描进一步过滤信息,再采用Lasso回归构建预测模型,从而在实现降维的基础上,更大程度地挖掘文本中蕴含的面向个股的独特价值语义.结果表明该框架能够较好地从股吧短文本中抽取预测个股收益的信息.此外,其识别出的具备预测能力的词汇集合也体现了社交媒体短文本不同于其他金融文本的特点,且与传统的金融情感词典差异较大.因此,该分步降维框架为分析社交媒体短文本数据提供了新思路. 展开更多
关键词 社交媒体 短文本数据 主成分分析 变量筛选 股价预测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部