期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
中文社交媒体中学术论文的使用行为研究--以知乎为例 被引量:7
1
作者 刘晓娟 孙镘莉 《图书情报知识》 CSSCI 北大核心 2022年第1期84-94,共11页
[目的/意义]以知乎为例研究中文社交媒体中用户对学术论文的使用行为规律,为扩充Altmetrics数据源提供参考。[研究设计/方法]从知乎的问答和专栏文章采集论文使用行为信息,将论文使用行为分为使用场景、使用形式和使用语境三方面,构建... [目的/意义]以知乎为例研究中文社交媒体中用户对学术论文的使用行为规律,为扩充Altmetrics数据源提供参考。[研究设计/方法]从知乎的问答和专栏文章采集论文使用行为信息,将论文使用行为分为使用场景、使用形式和使用语境三方面,构建编码体系,通过内容分析、统计分析等方法揭示用户行为特点。[结论/发现]中文社交媒体上用户对学术论文的使用行为具有多样性、复杂性和一定的规律性,这些行为可以反映论文的价值所在,增加论文的关注度;作为典型的中文社交媒体,知乎可以成为评价论文社会影响力的新Altmetrics数据源。[创新/价值]探索中文社交媒体知乎中的论文使用行为,提出知乎可在一定程度上改善主流Altmetrics指标缺乏中文数据源的问题。 展开更多
关键词 中文社交媒体 用户行为 替代计量指标 科研评价 内容分析法
下载PDF
社交媒体数据中水灾事件求助信息提取模型 被引量:1
2
作者 孙焕良 王思懿 +1 位作者 刘俊岭 许景科 《计算机应用》 CSCD 北大核心 2024年第8期2437-2445,共9页
由于社交媒体平台上所发布的非结构化信息存在数据不一致、重要程度不同等问题,使自动准确抽取所需信息并标注受灾级别成为一个有挑战性的工作。因此,结合形式概念分析(FCA)、词共现关系和上下文语义信息构建了水灾事件知识体系。利用... 由于社交媒体平台上所发布的非结构化信息存在数据不一致、重要程度不同等问题,使自动准确抽取所需信息并标注受灾级别成为一个有挑战性的工作。因此,结合形式概念分析(FCA)、词共现关系和上下文语义信息构建了水灾事件知识体系。利用所构建的知识体系,基于TencentPretrain框架对大规模语言预训练模型(LLM)进行指令微调,构建了ChatFlowFlood信息抽取模型,可以在少量人工标记情况下,准确自动抽取被困情况、紧缺物资等信息;在信息抽取模型的基础上,通过模糊层次分析法(FAHP)和CRITIC法(CRiteria Importance Through Intercriteria Correlation)主客观结合评定求助信息的救援优先级,帮助决策者理解灾情紧急程度。实验结果表明,在中文社交媒体数据上,与ChatFlow-7B模型相比,ChatFlowFlood模型的FBERT指标提升了73.09%。 展开更多
关键词 中文社交媒体 命名实体识别 大规模语言模型 指令微调 水灾事件
下载PDF
基于Tri-training的社交媒体药物不良反应实体抽取
3
作者 何忠玻 严馨 +2 位作者 徐广义 张金鹏 邓忠莹 《计算机工程与应用》 CSCD 北大核心 2024年第3期177-186,共10页
社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题... 社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题,采用Tri-training半监督的方法进行社交媒体药物不良反应实体抽取,通过三个学习器Transformer+CRF、BiLSTM+CRF和IDCNN+CRF对未标注数据进行标注,再利用一致性评价函数迭代地扩展训练集,最后通过加权投票整合模型输出标签。针对社交媒体的文本不正式性(口语化严重、错别字等)问题,通过融合字与词两个粒度的向量作为整个模型嵌入层的输入,来提取更丰富的语义信息。实验结果表明,提出的模型在“好大夫在线”网站获取的数据集上取得了良好表现。 展开更多
关键词 中文社交媒体 药物不良反应 实体抽取 半监督学习 TRI-TRAINING
下载PDF
社交媒体的情感挖掘在服务减灾中的应用 被引量:4
4
作者 李振宇 《北京测绘》 2019年第6期652-656,共5页
社交媒体因其广泛的公众参与性和多源信息的快速传播性已成为灾情信息获取的重要途径,在近年来的灾害应急救援中发挥着重要的作用。我国是一个风灾频发的国家,有效的管理和利用社交媒体数据辅助减灾救援有着重要的理论和现实意义。然而... 社交媒体因其广泛的公众参与性和多源信息的快速传播性已成为灾情信息获取的重要途径,在近年来的灾害应急救援中发挥着重要的作用。我国是一个风灾频发的国家,有效的管理和利用社交媒体数据辅助减灾救援有着重要的理论和现实意义。然而目前,国内面向微博文本理解和情感分析在减轻灾害方面的研究还十分稀缺。针对目前研究的不足,本文以中文社交媒体为研究对象,通过机器学习的方法挖掘风灾期间的公众情感变化,并结合GIS空间分析技术对灾情的发展与影响进行刻画,最后以2017年台风“天鸽”登陆珠海市为案例证明方法的可行性。 展开更多
关键词 台风灾害 中文社交媒体 公众情感分析 减灾应用
下载PDF
面向中文微博的情绪-原因对抽取数据集构建及分析研究
5
作者 陈仲豪 朱军楠 +2 位作者 周玉 向露 宗成庆 《中文信息学报》 CSCD 北大核心 2024年第10期135-143,共9页
情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性... 情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性:(1)在社交媒体领域,情绪表达更加多样化、非规范化;(2)以往的研究忽略了情绪造成的主观意图,其对于决策分析有很重要的价值。针对以上问题,该文首先构建了一个面向中文微博的情绪原因抽取数据集,并对其中5009条数据进行了人工标注。该数据集具备以下特点:(1)收录了隐喻、反讽等形式的情绪表达,标注了细粒度的情绪类别;(2)定义了三种类型的意图,并标注了意图子句;(3)当前规模最大的中文情绪-原因对抽取数据集。结合数据集特点,该文提出一种融合情绪类别和意图信息的情绪-原因对抽取方法,并将该方法与多个ECPE主流方法进行了比较分析。实验结果表明,该文方法可以更有效提升社交媒体领域情绪-原因对抽取的效果。 展开更多
关键词 情绪-原因对抽取 中文社交媒体 微博数据集
下载PDF
基于深度神经网络的命名实体识别方法研究 被引量:16
6
作者 GUL Khan Safi Qamas 尹继泽 +1 位作者 潘丽敏 罗森林 《信息网络安全》 CSCD 2017年第10期29-35,共7页
针对中文社交媒体命名实体识别的特征提取不充分问题,文章提出一种基于深度神经网络、结合长短时记忆和注意力模型的命名实体识别方法。一条社交媒体文本信息等价于一个字符序列,因此,首先将其中每个字符转化为对应的字向量;其次,利用... 针对中文社交媒体命名实体识别的特征提取不充分问题,文章提出一种基于深度神经网络、结合长短时记忆和注意力模型的命名实体识别方法。一条社交媒体文本信息等价于一个字符序列,因此,首先将其中每个字符转化为对应的字向量;其次,利用长短时记忆处理转化后的字向量序列来提取文本全局特征;然后,利用注意力模型处理前一步输出的文本全局特征向量序列,进一步提取文本局部特征;最后,利用线性链式条件随机场根据文本全局和局部特征向量序列进行命名实体标注,获得命名实体识别结果并输出。实验结果表明,文中方法与基线算法及当前优良算法相比,其F-测度值高于其他对比方法。 展开更多
关键词 命名实体识别 中文社交媒体 深度神经网络 注意力机制
下载PDF
融入自注意力机制的社交媒体命名实体识别 被引量:45
7
作者 李明扬 孔芳 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第6期461-467,共7页
相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使... 相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。 展开更多
关键词 命名实体识别 中文社交媒体 自注意力机制
原文传递
基于Spark的舆情情感大数据分析集成方法 被引量:12
8
作者 戴宏亮 钟国金 +1 位作者 游志铭 戴宏明 《计算机科学》 CSCD 北大核心 2021年第9期118-124,共7页
随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情。针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark... 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情。针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS)。该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器。分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低。 展开更多
关键词 情感分析 舆情 中文社交媒体 SPARK STACKING
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部