面向人口属性预测的词嵌入构建方法

Construction Method of Word Embedding for Demographic Attribute Prediction

导出

摘要本文探讨如何从用户购买数据中学习出高质量词嵌入,以让模型据此实现高效的人口属性预测任务。首先分析购买数据并对其进行编码,并在此基础上构建嵌入向量生成模型,之后用样本数据训练该模型,然后用神经网络程序实现该模型,最后通过实验验证该模型的可行性和高效性。提出的模型不仅能将具有大量模态的分类特征数据转换为低维的高质量词嵌入,而且能让模型据此实现高效的人口属性预测,此外具有较广泛的通用性。提出的方法不仅可扩展到大型数据集,而且能适用于不同领域的数据集。学习到的高质量词嵌入有助于大量下游非语言任务的开展,例如人口属性预测、情感分析、社区检测或社交网络上的概率推理等,从而为新型推荐引擎提供支持。 This paper discusses how to learn high-quality word embedding from user purchase data,so that the model can achieve efficient demographic attribute prediction tasks accordingly.First we analyze and encode the purchase data,and build an embedded vector generation model on this basis,then train the model with sample data,and then implement the model with a neural network program,and finally verify the feasibility and efficiency of the model through experiments.The proposed model can convert a large number of modal classification feature data into low-dimensional high-quality word embedding,based on which efficient demographic attribute this prediction can be achieved,thus this model has wider versatility.The proposed method is not only scalable to large data sets,but also applicable to data sets in different fields.The high-quality word embedding learned helps to carry out a large number of downstream non-verbal tasks,such as demographic attribute prediction,sentiment analysis,community detection,or probabilistic reasoning on social networks,etc.,to support the new recommendation engine.

作者高广尚 GAO Guang-shang(Business School,Guilin University of Technology,Guilin 541004,China;Research Center for Modern Enterprise Management,Guilin University of Technology,Guilin 541004,China)

机构地区桂林理工大学商学院桂林理工大学现代企业管理研究中心

出处《系统工程》北大核心 2021年第1期148-158,共11页 Systems Engineering

基金国家自然科学基金资助项目(71761008) 广西科技计划项目(桂科AD19245122) 桂林理工大学科研启动基金资助项目(GUTQDJJ2016020) 广西高校人文社会科学重点研究基地基金资助项目(19YB001)。

关键词人口统计属性预测词嵌入神经网络购买数据 Demographic Attribute Prediction Word Embedding Neural Network Purchase Data

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1潘俊,吴宗大.词汇表示学习研究进展[J].情报学报,2019,38(11):1222-1240. 被引量：9
2齐金山,梁循,李志宇,陈燕方,许媛.大规模复杂信息网络表示学习:概念、方法与挑战[J].计算机学报,2018,41(10):2394-2420. 被引量：42
3孙飞,郭嘉丰,兰艳艳,徐君,程学旗.分布式单词表示综述[J].计算机学报,2019,42(7):1605-1625. 被引量：7
4赵宇,李佳艺,王莉.基于多任务融合模型的用户属性推断[J].数据采集与处理,2018,33(2):334-342. 被引量：2
5龙柏,曾宪宇,李徵,刘淇.电商商品嵌入表示分类方法[J].山东大学学报（工学版）,2018,48(3):17-24. 被引量：1

二级参考文献19

1张志毅,张庆云.柏拉图以来词义说的新审视[J].中国语文,2000(2):126-136. 被引量：7
2刘永彬,欧阳纯萍,钟东来,李涓子,袁博志,李奇.基于非线性全局上下文的词嵌入[J].中国科学：信息科学,2015,45(12):1588-1599. 被引量：3
3刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：259
4王瑞琴,杨小明,楼俊钢.词汇语义相关性度量研究[J].情报学报,2016,35(4):389-404. 被引量：8
5李志宇,梁循,周小平,张海燕,马跃峰.一种大规模网络中基于节点结构特征映射的链接预测方法[J].计算机学报,2016,39(10):1947-1964. 被引量：9
6赵军,王红,朱华方.一种改进的融合关联词典的微博倾向性分析方法[J].数据采集与处理,2016,31(6):1220-1227. 被引量：1
7戴斌,李寿山,贡正仙,周国栋.基于多类型文本的半监督性别分类方法研究[J].山西大学学报（自然科学版）,2017,40(1):14-20. 被引量：4
8张文艳,李存华,仲兆满,王艺,李莉.结合规则与语义的中文人称代词指代消解[J].数据采集与处理,2017,32(1):149-156. 被引量：3
9李志宇,梁循,徐志明,齐金山,陈燕方.DNPS:基于阻尼采样的大规模动态社会网络结构特征表示学习[J].计算机学报,2017,40(4):805-823. 被引量：7
10周清清,章成志.在线用户评论细粒度属性抽取[J].情报学报,2017,36(5):484-493. 被引量：28

共引文献56

1彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
2郭选贤.试论心包腑实和单纯腑实所致神昏的“辨证关键”[J].河南中医,2000,20(3):8-9. 被引量：1
3段宇光,刘扬,俞士汶.《同义词词林》的嵌入表示与应用评估[J].厦门大学学报（自然科学版）,2018,57(6):867-875. 被引量：2
4胡旷达,代飞.一种基于神经网络模型的多检索词用户兴趣模型[J].九江职业技术学院学报,2019(1):18-20. 被引量：1
5黄费涛,杨振国,刘文印.事件分类:使用DeepWalk学习的基线[J].工业控制计算机,2019,32(5):122-124. 被引量：2
6王文涛,吴淋涛,黄烨,朱容波.基于密集连接卷积神经网络的链路预测模型[J].计算机应用,2019,39(6):1632-1638. 被引量：8
7张静,李文斌,张志敏.基于半监督聚类的网络嵌入方法[J].河北工业科技,2019,36(4):246-252.
8窦伟,张维玉.一种基于偏置随机游走的属性网络嵌入方法[J].齐鲁工业大学学报,2019,33(5):67-73.
9高华兵,宋聪聪,陈波,刘志.基于逾渗理论的交通路网通行效率分析[J].计算机科学,2019,46(S11):127-133. 被引量：2
10赵瑜,谭海宁,刘志方,武超.基于生成对抗模型的异质信息网络语义表征方法研究[J].中文信息学报,2019,33(11):83-94. 被引量：1

1张顺明,纪晨,王海潮.新型农村合作医疗实际住院补偿比影响因素分析[J].管理评论,2020,32(10):22-33. 被引量：7
2冯雪黎.城市独生子女家庭养老意愿及影响因素分析[J].智能计算机与应用,2020(4):271-275.
3于重重,萨良兵,马先钦,陈秀新,赵霞.基于度量学习的小样本零器件表面缺陷检测[J].仪器仪表学报,2020,41(7):214-223. 被引量：12
4刘兴建,原振文.融合贝叶斯深度学习的计算机大数据频繁项挖掘算法[J].成都工业学院学报,2020,23(4):38-42. 被引量：3
5费蓉,李莎莎,胡博,唐瑜,方金正.基于标签传播的拓扑势社区检测算法[J].计算机系统应用,2020(10):148-157. 被引量：2
6孙雨生,李亚奇,朱金宏.国内基于大数据的信息推荐研究进展:架构体系[J].计算机与数字工程,2020,48(12):2806-2814. 被引量：2
7潘军,陈倩,金绍君.一种基于迁移学习的非平稳电力运检成本预测数学方法[J].应用数学进展,2021,10(1):98-108.
8潘纪成,李旭健,熊玖朋.基于Python的单车数据可视化[J].软件,2020,41(12):192-197. 被引量：1
9魏晓川,王新刚.基于气象大数据的城市电力负荷预测[J].电测与仪表,2021,58(2):90-95. 被引量：14
10余克兴.软土地基低层房屋砌体结构地震易损性分析[J].华南地震,2020,40(4):152-158.

系统工程

2021年第1期

浏览历史

内容加载中请稍等...

面向人口属性预测的词嵌入构建方法

参考文献5

二级参考文献19

共引文献56

相关作者

相关机构

相关主题

浏览历史