基于多任务融合模型的用户属性推断被引量：2

Demographic Attributes Inference Based on Multi-task Ensemble Model

下载PDF

导出

摘要传统的用户属性推断方法主要基于机器学习及统计学习,其推断方法忽略了用户的整体表征及任务之间的相关性。本文提出一种基于多任务融合模型的用户属性推断方法,利用doc2vec独特的结构特性,加入文档向量以实现用户整体表征,避免人工提取特征的局限性。为实现用户多属性推断任务,本文提出基于关联学习的多任务融合推断框架,即在分别识别用户多个属性基础上赋予单用户多属性表征,在增强用户整体表征能力的同时,建立多个属性间的关联关系,提高单任务学习的区分度;然后采用模型融合技术,完成属性间关联学习,提高学习准确率及模型泛化能力,同时使用尽可能少的模型进行融合,提高模型运行效率。经实验比对,本文在多个数据集上的实验结果较其他算法有一定优势。 Traditional user attribute inference method is mainly based on machine learning and statistical learning methods,and its inference method ignores the user′s overall representation and the correlation between tasks.A user attribute inference method based on multitasking ensemble model is proposed,which uses doc2vec unique structural characteristics and adds document vector to achieve the overall representation of the user,thus avoiding the limitations of artificial features extraction.In order to realize the multi-attribute inference task,a multi-task ensemble framework based on association learning is proposed,which is to identify multiple attributes of a user individually and give the multi-attribute representation of a single user.It enhances the overall representation of user.The relationship between multiple attributes is established at the same time,so as to improve the distinguishing degree of single-task learning.Then,this paper uses the model ensemble technology to complete the inter-attribute learning,improves the accuracy of learning and model generalization ability,and uses as few models as possible to improve the model operation efficiency.Experimental comparison on several data sets shows some advantages over other algorithms.

作者赵宇李佳艺王莉 Zhao Yu;Li Jiayi;Wang Li(Department of Computer Science and Technology,Taiyuan University of Technology,Jinzhong,030600,China;College of Big Data,Taiyuan University of Technology,Jinzhong,030600,China)

机构地区太原理工大学计算机科学与技术学院太原理工大学大数据学院

出处《数据采集与处理》 CSCD 北大核心 2018年第2期334-342,共9页 Journal of Data Acquisition and Processing

基金国家高技术研究发展计划("八六三"计划)(2014AA015204)资助项目山西省自然科学基金(201703D421013)资助项目中科院计算技术研究所网络数据科学重点实验课题(CASNDST20140X)资助项目

关键词自然语言处理 doc2vec 多任务融合 natural language processing doc2vec multitasking ensemble

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王礼敏,严倩,李寿山,周国栋.基于双通道LSTM模型的用户性别分类方法研究[J].计算机科学,2018,45(2):121-124. 被引量：4
2戴斌,李寿山,贡正仙,周国栋.基于多类型文本的半监督性别分类方法研究[J].山西大学学报（自然科学版）,2017,40(1):14-20. 被引量：4
3赵军,王红,朱华方.一种改进的融合关联词典的微博倾向性分析方法[J].数据采集与处理,2016,31(6):1220-1227. 被引量：1
4张文艳,李存华,仲兆满,王艺,李莉.结合规则与语义的中文人称代词指代消解[J].数据采集与处理,2017,32(1):149-156. 被引量：3

二级参考文献22

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
2李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4苟博,黄贤武.支持向量机多类分类方法[J].数据采集与处理,2006,21(3):334-339. 被引量：63
5李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
6李生琦,田巧燕,汤承.基于《（知网〉》词汇语义相关度计算的消歧方法[J].情报学报,2009,28(5):706-711. 被引量：13
7葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
8夏火松,陶敏,王一,魏翔.停用词表对基于SVM的中文文本情感分类的影响[J].情报学报,2011,30(4):347-352. 被引量：6
9何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用,2011,31(8):2130-2133. 被引量：18
10王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38

共引文献8

1刘雅琦,李得志,王瑞雪.中文社交媒体用户性别预测研究——以新浪微博短文本内容为例[J].知识管理论坛,2021(4):213-227.
2李茹,郭倩.基于汉语框架语义关系的零形式识别与消解[J].山西大学学报（自然科学版）,2018,41(4):700-708. 被引量：1
3夏吾吉,华却才让.基于混合策略的藏文人称代词指代消解研究[J].计算机工程与应用,2018,54(7):66-69. 被引量：2
4张璞,陈超,陈韬,王永.两分类器融合的中文微博用户性别分类方法[J].计算机工程与设计,2019,40(1):268-272. 被引量：4
5丁子昂,乐曹伟,吴玲玲,付明磊.基于CEEMD-Pearson和深度LSTM混合模型的PM(2.5)浓度预测方法[J].计算机科学,2020,47(S01):444-449. 被引量：8
6王宇,李延晖.一种基于协同训练半监督的分类算法[J].华中师范大学学报（自然科学版）,2021,55(6):1020-1029. 被引量：5
7任帅,任化娟,井靖,董姝岐.融合发文时序特征的用户属性预测方法[J].信息工程大学学报,2022,23(6):724-729.
8杨雷,侯慧娟,郅擎宇.基于复合分析算法的智能电表数据应用[J].自动化仪表,2023,44(4):95-101. 被引量：4

同被引文献12

1刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：290
2朱菁华,王晓玲.基于扩展查询表达式的XML关键字查询[J].计算机工程,2014,40(10):25-31. 被引量：4
3胡旷达.基于神经网络的个性化信息检索模型研究[J].现代计算机（中旬刊）,2016(4):18-23. 被引量：2
4杜雨萌,张伟男,刘挺.基于主题增强卷积神经网络的用户兴趣识别[J].计算机研究与发展,2018,55(1):188-197. 被引量：8
5姜宇,张大方,刁祖龙.基于点击流的用户矩阵模型相似度个性化推荐[J].计算机工程,2018,44(1):219-225. 被引量：10
6卢露,朱福喜,高榕,朱林.基于用户-内容主题模型的兴趣点联合推荐算法[J].计算机工程与应用,2018,54(4):154-159. 被引量：18
7高泽锋,王邦,徐明华.基于主题模型分析与用户长短兴趣的活动推荐[J].小型微型计算机系统,2018,39(4):625-630. 被引量：8
8龙柏,曾宪宇,李徵,刘淇.电商商品嵌入表示分类方法[J].山东大学学报（工学版）,2018,48(3):17-24. 被引量：1
9徐守坤,周佳,李宁,石林.基于word2vec和LDA的文本主题[J].计算机工程与设计,2018,39(9):2764-2769. 被引量：7
10齐金山,梁循,李志宇,陈燕方,许媛.大规模复杂信息网络表示学习:概念、方法与挑战[J].计算机学报,2018,41(10):2394-2420. 被引量：41

引证文献2

1胡旷达,代飞.一种基于神经网络模型的多检索词用户兴趣模型[J].九江职业技术学院学报,2019(1):18-20. 被引量：1
2高广尚.面向人口属性预测的词嵌入构建方法[J].系统工程,2021,39(1):148-158.

二级引证文献1

1彭建.基于《中国图书馆分类法》的高校图书馆用户兴趣模型设计[J].信息与电脑,2022,34(12):17-19.

1“关联学习”助你成功演奏[J].小演奏家,2006(2):44-45.
2王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018,38(3):105-109. 被引量：137
3卢玉婷,古发辉.创建基于云计算的职业教学资源平台模式研究[J].国土资源高等职业教育研究,2017,0(4):12-15.
4唐星.统计学习误中悟[J].初中生学习指导（九年级冲刺版）,2018,0(1):44-46.
5郭丽春.高校舞蹈教学中植入表象训练的实践尝试[J].大观（东京文学）,2017,0(9):78-79.
6张杰,景雯,任培花.物联网中异常数据优化检测仿真研究[J].计算机仿真,2018,35(4):449-452. 被引量：3
7温廷新,孙雪.瓦斯涌出量的AFSA-ELM预测模型[J].辽宁工程技术大学学报（自然科学版）,2017,36(11):1126-1130. 被引量：1
8王琦,范常浩,白建云,李永茂,李金霞.变量选择与支持向量机相结合的SO_2排放特性建模[J].热力发电,2018,47(3):68-75. 被引量：11
9霍山松.NB-IoT功率控制策略研究[J].中国新通信,2018,20(3):51-52. 被引量：1
10王洪,牛晓灵.基于l_2正则化回声状态网络的模拟电路故障诊断[J].电子器件,2017,40(5):1283-1286. 被引量：6

数据采集与处理

2018年第2期

浏览历史

内容加载中请稍等...

基于多任务融合模型的用户属性推断被引量：2

参考文献4

二级参考文献22

共引文献8

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多任务融合模型的用户属性推断 被引量：2

参考文献4

二级参考文献22

共引文献8

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多任务融合模型的用户属性推断被引量：2