-
题名基于微博分类的用户兴趣识别
被引量:12
- 1
-
-
作者
宋巍
张宇
谢毓彬
刘挺
李生
都云程
-
机构
哈尔滨工业大学社会计算与信息检索研究中心
北京信息科技大学
-
出处
《智能计算机与应用》
2013年第4期80-83,共4页
-
基金
国家自然科学基金面上项目(61073129)
国家自然科学青年科学基金(61202277)
国家科技支撑计划重点项目(2011BAH11B03)
-
文摘
社会媒体成为用户分享与获取信息的重要平台。发现感兴趣的微博账户与信息是社交媒体平台最重要的活动,其关键问题在于用户兴趣模型的构建。提出基于微博分类的用户兴趣识别方法。首先人工构建目标分类体系,基于典型微博账户采集微博训练语料训练微博分类器,而后通过对用户微博进行分类识别出用户感兴趣的类别。实验表明基于典型主题类别微博,结合词语与主题的特征可有效进行微博分类达到86%的F值,输出的类别可准确表示用户兴趣。
-
关键词
社会媒体
微博分类
主题模型
用户建模
个性化
-
Keywords
Social Media
Microblog Classification
Topic Model
User Modeling
Personalization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于特征加权语言模型的微博分类新方法
- 2
-
-
作者
崔为娜
-
机构
长春职业技术学院信息技术分院
-
出处
《计算机科学》
CSCD
北大核心
2016年第S2期469-471,共3页
-
基金
吉林省自然科学基金资助课题(M6138272)资助
-
文摘
微博作为社交媒体的后起之秀,已经得到快速的发展。微博快速的发展在带给人们便利的同时,也使人们置身于信息的海洋。针对微博中日益呈现出的信息过载问题,微博分类已经成为一个重要的研究课题。针对微博分类,提出一种基于特征加权语言模型的微博分类新方法。在新浪微博上抽取的真实标注数据集上进行的对比实验结果表明,所提方法是一个有效的微博分类方法。
-
关键词
微博
微博分类
语言模型
-
Keywords
Microblog
Microblog classification
Language model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卷积神经网络的中文微博情感分类
被引量:10
- 3
-
-
作者
冯多
林政
付鹏
王伟平
-
机构
中国科学院大学
中国科学院信息工程研究所
-
出处
《计算机应用与软件》
2017年第4期157-164,177,共9页
-
基金
国家自然科学基金项目(61502478)
国家核高基项目(2013ZX01039-002-001-001)
国家高技术研究发展计划项目(2013AA013204)
-
文摘
微博是互联网舆论演化的重要平台,对微博进行情感分析,有助于及时掌握社会热点和舆论动态。由于微博数据内容简短、特征稀疏、富含新词等特征,微博情感分类依然是一个较难的任务。传统的文本情感分类方法主要基于情感词典或者机器学习等,但这些方法存在数据稀疏的问题,而且忽略了词的语义、语序等信息。为了解决上述问题,提出一种基于卷积神经网络的中文微博情感分类模型CNNSC,实验表明相比目前的主流方法,CNNSC的准确率提高了3.4%。
-
关键词
情感分类
卷积神经网络
微博分类
-
Keywords
Emotion classification
Convolutional neural network
Micro-blog classification
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名微博自动分类系统设计
被引量:5
- 4
-
-
作者
张士豪
顾益军
张俊豪
-
机构
中国人民公安大学网络安全保卫学院
-
出处
《信息网络安全》
2016年第1期81-87,共7页
-
基金
公安部重点研究计划[2011ZDYJGADX016]
-
文摘
文章提出了一种热门微博分类的新思路,通过对热门微博的转发用户进行聚类分析,并根据不同的用户聚集状态来区分不同种类的热门微博。在用户聚类中采用了基于K-means聚类算法的改进算法X-means,并根据微博用户数据特点对X-means算法进行了进一步改进,将属性差异和用户节点差异考虑在聚类过程当中。其中,在对X-means算法改进过程中,对于用户属性的加权采用了基于对数函数的加权方式,确保聚类结果更加科学、准确;在对用户自身权重的加权中,通过建立重点人员信息库的方式,实现了对特殊用户节点的加权,并利用HITS算法对重点人员信息库实现动态更新。在完成用户聚类之后,将得到的重要用户的信息分领域录入重点人员信息库,实现聚类过程与信息库的反馈机制。另外,实验将相同数据分别代入改进前后的K-means算法与X-means算法中,并通过轮廓系数评价聚类结果,证明了改进后的X-means算法在微博用户聚类中更有优势。
-
关键词
微博分类
用户聚类
轮廓系数
-
Keywords
microblogging classifi cation
user clustering
outline coeffi cient
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词性标注序列特征提取的微博情感分类
被引量:7
- 5
-
-
作者
卢伟胜
郭躬德
陈黎飞
-
机构
福建师范大学数学与计算机科学学院
-
出处
《计算机应用》
CSCD
北大核心
2014年第10期2869-2873,共5页
-
基金
国家自然科学基金资助项目(61175123)
-
文摘
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。
-
关键词
特征提取
词性
标注序列
微博情感分类
极性分类
-
Keywords
feature extraction
Part-Of-Speech (POS)
tagging sequence
microblog emotion classification
polarity classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于时间片的微博用户分类方法
被引量:2
- 6
-
-
作者
葛红美
何炎祥
陈强
徐超
-
机构
武汉大学计算机学院
徐州工业职业技术学院信息管理技术学院
武汉大学软件工程国家重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第11期2441-2445,共5页
-
基金
国家自然科学基金项目(61070083)资助
-
文摘
针对微博用户分类问题提出时间片微元的概念,建立了时间片微元模型;对每个时间片内的微博所涉及到的用户进行研究得到时间片微元内部的用户兴趣度向量,最终整合所有时间片内的用户兴趣度向量,再对整个时间段内用户的兴趣度向量进行两次朴素贝叶斯分类,得到整个时间段内的用户分类.同时,对微博内容研究上规避了传统的单一的依靠系统标签形成用户网络的方式,结合了自然语言处理技术,提取用户兴趣方向,形成用户兴趣向量,然后对用户兴趣向量分析,采用改进的朴素贝叶斯分类算法进行用户分类.最后是对所提出的方法按详细步骤进行实验,研究结果表明,基于时间片的微博用户分类方法能有效对大规模的微博语料中所涉及到的用户进行较准确分类,为研究微博用户分类问题具有一定推动作用.
-
关键词
微博用户分类
时间片微元
用户兴趣向量
朴素贝叶斯分类
-
Keywords
micro-blog
infinitesimal-time
user-interest vector
Naive Bayes algorithm
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于中文微博的情绪分类与预测算法
被引量:16
- 7
-
-
作者
郝苗苗
徐秀娟
于红
赵小薇
许真珍
-
机构
大连理工大学软件学院
辽宁省泛在网络与服务软件重点实验室(大连理工大学)
-
出处
《计算机应用》
CSCD
北大核心
2018年第A02期89-96,共8页
-
基金
国家自然科学基金资助项目(61502069
61672128
+3 种基金
61702076)
中央高校基本科研业务费资助项目(DUT18JC39
DUT17JC45)
符号计算与知识工程教育部重点实验室开放基金资助项目(93K172012K13)
-
文摘
为解决中文网络短文本情感多分类及预测问题,提出基于微博数据的针对微博上某一领域的人表达的情感进行多分类以及预测的算法。通过对微博数据特点的研究分析提出了一种基于词典的权重规则算法,构建了微博情绪分析词典,识别微博所表达的5种情感极性:过度积极、轻微积极、中性、轻微消极、过度消极;提出了一种基于监督学习的分类方法对微博的情感极性进行分类预测,提取文本特征构建特征向量等对5种监督学习分类方法进行分析与讨论,实验分析结果准确率达到79. 9%。实验分析表明,与基于词典的权重规则算法相比,在微博细致情绪多分类类别识别中,基于监督学习的情绪分类预测方法能够有效提高短文本分类预测的准确率。
-
关键词
微博文本分类
情绪分类预测
词典分析
监督学习
情感极性
-
Keywords
microblog text classification
emotional classification prediction
dictionary analysis
machine learning
emotional polarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进卡方统计的微博特征提取方法
被引量:14
- 8
-
-
作者
徐明
高翔
许志刚
刘磊
-
机构
北京工业大学现代教育技术中心
北京工业大学数理学院
-
出处
《计算机工程与应用》
CSCD
2014年第19期113-117,142,共6页
-
基金
国家自然科学基金(No.61105040
No.61203284
+3 种基金
No.61272361)
北京市自然科学基金(No.4133085)
北京市教委青年拔尖人才培育计划
北京工业大学数学统计学基础科学研究基金(No.006000542213501)
-
文摘
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。
-
关键词
微博分类
卡方统计量
特征选择
权值计算
-
Keywords
microblogging classification
CHI-square statistics
feature selection
weight calculation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词汇的微博情感分类分析新方法
- 9
-
-
作者
王晰墨
-
机构
沈阳化工大学
-
出处
《电子技术与软件工程》
2020年第11期158-159,共2页
-
文摘
本文从情感分析技术的研究意义出发,研究了常规微博情感分析方法,并对神经网络技术进行相关介绍,提出了微博情感分析创新性新方法。
-
关键词
情感词汇
微博情感分类
神经网络技术
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卷积神经网络和用户信息的微博话题追踪模型
被引量:6
- 10
-
-
作者
付鹏
林政
袁凤程
林海伦
王伟平
孟丹
-
机构
中国科学院信息工程研究所信息内容安全技术国家工程实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2017年第1期73-80,共8页
-
基金
国家高技术研究发展计划(863计划)项目(No.2013AA013204)
国家自然科学基金项目(No.61602467
+1 种基金
61502478)
国家核高基项目(No.2013ZX01039-002-001-001)资助~~
-
文摘
为了解决微博文本特征抽取及特征稀疏问题,提出基于卷积神经网络的微博话题追踪模型(CNN-TTM).基于微博用户信息,又提出融合微博用户信息及卷积神经网络的微博话题追踪模型(CNN-User TTM),利用微博用户信息提高话题追踪准确率.实验表明,在新浪微博数据集上,CNN-TTM和CNN-User TTM分别获得较高的微博话题追踪准确率.
-
关键词
话题追踪
卷积神经网络
词向量
微博分类
用户画像
-
Keywords
Topic Tracking, Convolutional Neural Network, Word Vector, Microblog Classification,User Profile
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于二元搭配词的微博情感特征选择
被引量:6
- 11
-
-
作者
周剑峰
阳爱民
周咏梅
王璇璇
-
机构
广东外语外贸大学图书馆
广东外语外贸大学思科信息学院
广东外语外贸大学西方语言文化学院
-
出处
《计算机工程》
CAS
CSCD
2014年第6期162-165,共4页
-
基金
国家社科基金资助项目(12BYY045)
教育部人文社会科学研究青年基金资助项目(10YJCZH247)
+4 种基金
教育部人文社会科学基金资助一般项目(09YJCZH019)
教育部新世纪优秀人才支持计划基金资助项目(NCET-12-0939)
广东省科技计划基金资助项目(2010B031000014)
广东外语外贸大学校级基金资助项目(12Q22)
广东外语外贸大学研究生科研创新基金资助项目
-
文摘
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。
-
关键词
搭配词库
微博情感特征
微博情感分类
机器学习
C4
5算法
-
Keywords
collocation dictionary
micro-blog sentimental feature
micro-blog sentimental classification
machine learning
C4.5 algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名PMI与Hownet结合的中文微博情感分析
被引量:3
- 12
-
-
作者
郝苗
陈临强
-
机构
杭州电子科技大学计算机学院
-
出处
《电子科技》
2021年第7期50-55,78,共7页
-
基金
国家级大学生创新创业训练项目(201610336013)。
-
文摘
为解决中文微博情感的分类问题,文中提出了基于微博数据将PMI与Hownet相结合的情感分类方法。通过对微博数据短小、新颖特征的研究,提出词典合并方法。将现有词典按照Hownet词语相似度合并,利用PMI对网络词语进行情感分类。添加网络情感词构造适应微博文本特征的情感词典,并在新词典的基础上结合监督学习方法训练情感分类模型。实验结果表明,用此方法进行情感分析能够有效识别网络新词对情感分析的影响,准确率可达78.3%,在对含有网络新词的微博情感分析上,该方法相比仅使用词典或者监督学习的准确率更高。
-
关键词
情感词典
微博文本分类
监督学习
情感分析
Hownet相似度
PMI
观点挖掘
基准词
-
Keywords
sentiment dictionary
microblog text classification
supervised learning
sentiment analysis
Hownet similarity
PMI
opinion mining
benchmark words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题增强卷积神经网络的用户兴趣识别
被引量:8
- 13
-
-
作者
杜雨萌
张伟男
刘挺
-
机构
哈尔滨工业大学社会计算与信息检索研究中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第1期188-197,共10页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2014CB340503)
国家自然科学基金项目(61472107
61502120)~~
-
文摘
提出了一种基于主题增强卷积神经网络的用户兴趣识别的方法,通过构造一个双通道CNN模型,融合连续语义信息和离散主题信息,获取用户微博类别分布,在此基础上,通过极大似然估计识别用户的兴趣.实验结果表明,相较于基于Labeled LDA主题模型的方法和传统卷积神经网络的方法,提出的主题增强卷积神经网络缓解了噪声词对用户兴趣词的影响,并且通过融入主题信息提高了对于包含噪声词较多的微博的分类效果,在微博分类及用户兴趣识别上的效果获得了显著的提升.
-
关键词
主题模型
卷积神经网络
微博分类
用户兴趣识别
微博
-
Keywords
topic model
convolutional neural network(CNN)
microblog classification
user interest recognition
microblog
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于粒子群聚类的KNN微博舆情分类研究
被引量:1
- 14
-
-
作者
林伟
-
机构
福建警察学院侦查系
-
出处
《中国刑警学院学报》
2017年第5期121-124,共4页
-
基金
2017年福建省高校杰出青年科研人才培育计划资助项目
福建省教育厅基金(编号:JAT160561)
-
文摘
基于数据挖掘的微博情感分类是网络舆情监控的重要方法,其中KNN算法具有简单有效、无需估计参数等优点,适用于微博舆情分类。微博舆情分类实质上是对微博上的负面情感及时监控,KNN会因在情感分类时处理大量的计算影响算法效率。因此,采用粒子群聚类算法在情感分类前裁剪微博训练样本空间,以减少分类时的计算量。实验结果表明,基于粒子群聚类的KNN算法能够有效提高微博情感分类的性能。
-
关键词
KNN
微博情感分类
特征选择
粒子群聚类
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于移动群智数据的城市热点事件感知方法
被引量:5
- 15
-
-
作者
张佳凡
郭斌
路新江
於志文
周兴社
-
机构
西北工业大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第S1期5-9 37,37,共6页
-
基金
国家重点基础研究发展计划(973计划)(2015CB352400)
国家自然科学基金(61332005
+1 种基金
61373119
61222209)资助
-
文摘
以新浪微博为研究对象,研究了基于移动群智数据的城市热点事件感知方法,对热点事件进行发现与分类。面向不同的应用需求,可将发现的热点事件分为物理事件与虚拟事件两大类。采用的方法首先根据热词的词频变化特征对新浪微博中的热词进行有效挖掘,然后根据热词的上下文语境进行层次聚类以得到热点事件描述。此外,通过分析信息量特征、时序特征及原创微博数目特征,采用不同方法进行事件分类。实验结果表明,不同的分类方法均可达到较高的准确率。
-
关键词
微博
热点事件发现
微博事件分类
移动群智感知
-
Keywords
Microblogging,Popular event detection,Microblogging event classification,Mobile crowd sensing
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.1
[自动化与计算机技术—计算机应用技术]
-