微博用户性别分类方法研究被引量：1

Research on the Gender Classification of Micro-blog Users

下载PDF

导出

摘要以微博用户的性别分类为目的,为提高分类的准确性,尝试多种模型及模型融合的方法进行对比研究。所用数据集来源于首届"微众杯"的技术测评。首先结合中文微博文本数据的特点,基于微博用户粒度对数据进行预处理,然后分别使用Logistic Regression、Random Forest、SVM等模型进行分类,其间调整模型参数、类型及核函数分别做对比,最后将训练样本分成若干批量,通过不同模型和相同模型分别进行融合分类。实验结果表明,使用多个SVM模型融合的方法对微博用户性别分类准确率较高。 In this paper,the purpose of the study of the gender classification of micro-blog users is to improve the accuracy of classification,and to compare the methods of multiple models and model fusion.The dataset is derived from the technical evaluation of the first ＂micro-cup＂.Firstly,based on the characteristics of Chinese micro-blog text,the data is preprocessed based on the granularity of micro-blog user.Then,Logistic Regression,Random Forest,SVM and other models are used to classify them.Different model parameters,types and nuclear functions are compared among them.Finally,the training samples are divided into several mini-batches,and the fusion classification is carried out through different models and the same model.Experimental results show that the method of fusion of multiple SVM models has high accuracy in the gender classification of micro-blog users.

作者邱静李琳郑云佩

机构地区武汉理工大学计算机科学与技术学院 [

出处《辽宁工业大学学报（自然科学版）》 2018年第1期13-18,共6页 Journal of Liaoning University of Technology(Natural Science Edition)

关键词微博用户性别分类模型融合 micro-blog user gender classification model fusion

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1黄发良,熊金波,黄添强,刘西蒙.基于粗糙集的微博用户性别识别[J].计算机应用,2014,34(8):2209-2211. 被引量：2
2王晶晶,李寿山,黄磊.中文微博用户性别分类方法研究[J].中文信息学报,2014,28(6):150-155. 被引量：20
3宋巍,刘丽珍,王函石.基于兴趣偏好的微博用户性别推断研究[J].电子学报,2016,44(10):2522-2529. 被引量：6
4Zachary Miller,Brian Dickinson,Wei Hu.Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features[J].International Journal of Intelligence Science,2012,2(4):143-148. 被引量：10

二级参考文献62

1http://weibo.com.
2http://mallet.cs.umass.edu/.
3https://code.google.com/p/fudannlp/.
4Burger J,Henderson J,Kim G,et al.Discriminating Gender on Twitter[C] //Proceedings of EMNLP-11,2011,1301-1309.
5Schler J,M Koppel,S Argamon,et al.Effects of Age and Gender on Blogging[C] //Proceedings of AAAI-06,2006.
6Yan X,L Yan.Gender Classification of Weblog Authors[C] //Proceedings of AAAI-06,2006.
7Mukherjee A,B Liu.Improving Gender Classification of Blog Authors[C] //Proceedings of EMNLP-10,2010.
8Miller Z,B Dickinson,W Hu.Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features[C] //Proceedings of International Journal of Intelligence Science,2012,2(4):143-148.
9Nowson S,J Oberlander.The Identity of Bloggers:Openness and Gender in Personal Weblogs[C] //Proceeding of AAAI-06,2006.
10Peersman C,W Daelemans,L Van Vaerenbergh.Predicting Age and Gender in Online Social Networks[C] //Proceedings of SMUC-11,2011.

共引文献29

1刘雅琦,李得志,王瑞雪.中文社交媒体用户性别预测研究——以新浪微博短文本内容为例[J].知识管理论坛,2021(4):213-227.
2孙素琴,周群,郁鉴源,胡鑫尧.分子振动光谱法与中药研究的最新进展[J].光谱学与光谱分析,2000,20(2):199-202. 被引量：61
3黄发良,熊金波,黄添强,刘西蒙.基于粗糙集的微博用户性别识别[J].计算机应用,2014,34(8):2209-2211. 被引量：2
4黄磊,李寿山,王晶晶.基于认证用户信息的微博用户类型识别方法[J].计算机科学与探索,2015,9(6):719-725. 被引量：3
5邱云飞,刘世兴,魏海超,邵良杉.W-POS语言模型及其选择与匹配算法[J].计算机应用,2015,35(8):2210-2214. 被引量：3
6邱云飞,刘世兴,林明明,邵良杉.基于相关性及语义的n-grams特征加权算法[J].模式识别与人工智能,2015,28(11):992-1001. 被引量：2
7钱铁云,尤珍妮,陈丽,王飞.基于兴趣标签的缄默用户性别预测研究[J].华中科技大学学报（自然科学版）,2015,43(12):101-105. 被引量：3
8刘宝芹,牛耘.基于情绪特征的中文微博用户性别识别[J].计算机工程与科学,2016,38(9):1917-1923. 被引量：9
9宋巍,刘丽珍,王函石.基于兴趣偏好的微博用户性别推断研究[J].电子学报,2016,44(10):2522-2529. 被引量：6
10胡龙茂.中文在线评论的用户性别判定研究[J].通化师范学院学报,2016,37(12):69-72. 被引量：1

同被引文献7

1周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164. 被引量：81
2蔡淑琴,袁乾,周鹏.基于社会网络关系的微博个性化推荐模型[J].情报学报,2014,33(5):520-529. 被引量：17
3王晶晶,李寿山,黄磊.中文微博用户性别分类方法研究[J].中文信息学报,2014,28(6):150-155. 被引量：20
4王礼敏,严倩,李寿山,周国栋.基于双通道LSTM模型的用户性别分类方法研究[J].计算机科学,2018,45(2):121-124. 被引量：4
5席林娜,窦永香.基于计划行为理论的微博用户转发行为影响因素研究[J].数据分析与知识发现,2019,3(2):13-20. 被引量：14
6牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
7曹东伟,李邵梅,陈鸿昶,张建朋,张桥.融合情感特征的虚假评论检测方法[J].信息工程大学学报,2021,22(3):326-330. 被引量：3

引证文献1

1任帅,任化娟,井靖,董姝岐.融合发文时序特征的用户属性预测方法[J].信息工程大学学报,2022,23(6):724-729. 被引量：1

二级引证文献1

1魏巍,谢永恒,万月亮.基于融合模型的用户性别预测方法[J].网络安全技术与应用,2024(10):35-39.

1王礼敏,严倩,李寿山,周国栋.基于双通道LSTM模型的用户性别分类方法研究[J].计算机科学,2018,45(2):121-124. 被引量：4
2胡同花.项目法对培养高职学生自主学习能力的一次应用探究[J].福建电脑,2017,33(6):175-175. 被引量：1
3马龙平.老年人群清晨高血压患病率及相关影响因素探讨[J].世界最新医学信息文摘,2017,0(A3):115-115.
4余乐,莫路锋,易晓梅.一种路径损耗模型融合的WSN森林定位算法[J].计算机工程,2018,44(3):87-92. 被引量：1
5柯志辅.运营商移动用户离网预测模型[J].科技经济导刊,2017(29):44-44.
6夏凯,赵小龙,桑高丽.基于深度卷积神经网络的性别识别[J].福建电脑,2018,34(3):14-16.
7朱杰.基于改进的TF-IGM热词提取算法研究[J].信息技术,2018,42(3):101-103.
8莫春燕.PDCA在医院药事管理中的应用效果[J].临床医学研究与实践,2018,3(4):195-196. 被引量：3
9刘佳荣,胡琴,陈志航,胡泽铭,邓宇飞,蔡佳涛,蔡勇.虚拟现实对测评恐高症的可行性研究[J].科技创新与应用,2018,8(3):26-28. 被引量：5
10张钰,陈珺,王晓峰,刘飞,周文晶,王志国.随机森林在滚动轴承故障诊断中的应用[J].计算机工程与应用,2018,54(6):100-104. 被引量：40

辽宁工业大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

微博用户性别分类方法研究被引量：1

参考文献4

二级参考文献62

共引文献29

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

微博用户性别分类方法研究 被引量：1

参考文献4

二级参考文献62

共引文献29

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

微博用户性别分类方法研究被引量：1