基于神经网络语言模型的动态层序Softmax训练算法被引量：4

Training algorithm of dynamic hierarchical Softmax based on neural network language model

下载PDF

导出

摘要针对词向量训练过程中层序Softmax算法无法进行增量训练及海量数据训练低效的问题,提出了动态层序Softmax算法.通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练.为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率.以维基百科中文语料作为数据进行了试验,完成了训练效率和质量的分析.结果表明:相较于现有方法动态层序Softmax算法显著提高了训练效率,当增量样本大小为10 kB^1 MB时,训练增速有近30倍的提升,有效地缩短训练周期. To solve the problems of hierarchical Softmax algorithm in the training process of word vectors with inability of incremental training and inefficient training of massive data,the dynamic hierarchical Softmax algorithm was proposed.By the incremental loading of data samples,an adaptive Huffman coding tree was dynamically constructed by the node adjustment replacement method.To avoid the oscillatory decline of loss function due to the small sample size,the first-order and the second-order moment estimations of the gradient were used to dynamically adjust the parameters update direction and learning rate.The weight variation range and the convergence training network error were reduced by the gradient descent algorithm to improve the training efficiency of the word vector from massive data.The Wikipedia Chinese corpus was adopted as the data to test the training efficiency and quality.The experimental results show that the dynamic hierarchical Softmax algorithm can significantly improve the training efficiency and ensure the quality of word vector training.When the incremental samples are from 10 kB to 1 MB,the training speed is increased about 30 times,which can effectively shorten the training period.

作者杨鹤标胡惊涛刘芳 YANG Hebiao;HU Jingtao;LIU Fang(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang,Jiangsu 212013,China)

机构地区江苏大学计算机科学与通信工程学院

出处《江苏大学学报（自然科学版）》 EI CAS 北大核心 2020年第1期67-72,80,共7页 Journal of Jiangsu University：Natural Science Edition

基金国家自然科学基金资助项目(61872167) 江苏省社会发展基金资助项目(BE2017700)

关键词词向量层序Softmax 增量训练矩估计梯度迭代 word vector hierarchical Softmax algorithm incremental training moment estimation gradient iteration

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1周诗源,王英林.基于抽取规则和本体映射的语义搜索算法[J].吉林大学学报（理学版）,2018,56(2):329-334. 被引量：2
2刘广峰,黄贤英,刘小洋,范海波.基于主题注意力层次记忆网络的文档情感建模[J].四川大学学报（自然科学版）,2019,56(5):833-842. 被引量：8
3陈波.基于循环结构的卷积神经网络文本分类方法[J].重庆邮电大学学报（自然科学版）,2018,30(5):705-710. 被引量：14
4王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20

二级参考文献34

1丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
2李颖,李志蜀,邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报（自然科学版）,2008,45(5):1095-1099. 被引量：13
3陈治昂,张毅,李大学.基于Web智能的网络广告监测器研究与设计[J].重庆邮电大学学报（自然科学版）,2009,21(1):115-118. 被引量：5
4张建梁,肖开东,顾剑峰,钱松荣.基于P2P的结构化半分布式语义搜索算法[J].计算机应用与软件,2009,26(4):188-191. 被引量：2
5史致远,Volker Gruhn,朱明放.微学习环境下基于语义的MASHUP架构优化[J].江苏大学学报（自然科学版）,2010,31(3):339-342. 被引量：5
6吴建.TRIZ理论在搜索引擎创新设计中的应用研究[J].重庆邮电大学学报（自然科学版）,2012,24(6):735-739. 被引量：2
7王进,金理雄,孙开伟.基于演化超网络的中文文本分类方法[J].江苏大学学报（自然科学版）,2013,34(2):196-201. 被引量：13
8刘显敏,李建中.基于键规则的XML实体抽取方法[J].计算机研究与发展,2014,51(1):64-75. 被引量：11
9王璐,于超,王博,王国春,林金花,李辉.本体语义检索系统[J].长春工业大学学报,2013,34(6):726-730. 被引量：6
10杨政国,马建红.基于领域本体科学效应知识语义检索的研究[J].计算机系统应用,2014,23(2):209-213. 被引量：7

共引文献39

1朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
2耿立校,晋高杰,李亚函,孙卫忠,马士豪.基于改进内容过滤算法的高校图书馆文献资源个性化推荐研究[J].图书情报工作,2018,62(21):112-117. 被引量：22
3刘云,黄荣乘.最大判别特征选择算法在文本分类的优化研究[J].四川大学学报（自然科学版）,2019,56(1):65-70. 被引量：7
4罗强,黄睿岚,朱轶.基于深度学习的粮库虫害实时监测预警系统[J].江苏大学学报（自然科学版）,2019,40(2):203-208. 被引量：11
5黄裕.DSM-Forest算法对计算机多类数据学习分类性能的影响[J].信息技术,2019,43(5):148-150. 被引量：1
6张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
7王凯祥,任明.基于查询的新闻多文档自动摘要技术研究[J].中文信息学报,2019,33(4):93-100. 被引量：6
8林椹尠,袁柱,李小平.结合文本密度的语义聚焦爬虫方法[J].计算机应用与软件,2019,36(9):270-275. 被引量：1
9胡欢,云红艳,贺英,张秀华.半自动构建扶贫领域知识图谱工具的研究[J].计算机与数字工程,2019,47(8):1961-1965. 被引量：4
10刘礼文,俞弦.循环神经网络（RNN）及应用研究[J].科技视界,2019,0(32):54-55. 被引量：17

同被引文献46

1任小华,种兰祥,杨建锋.基于FT_BP神经网络的学业预警模型[J].计算机应用研究,2020,37(S01):83-85. 被引量：8
2李金铃,周颢,赵保华.基于隐马尔可夫模型的无线局域网媒体接入控制层入侵检测方法[J].西安交通大学学报,2009,43(12):26-30. 被引量：2
3高文杰.基于GS理论的高校信息化综合评价模型研究[J].天津理工大学学报,2010,26(1):85-88. 被引量：5
4Tao WANG,Huaimin WANG,Gang YIN,Charles X. LING,Xiao LI,Peng ZOU.Tag recommendation for open source software[J].Frontiers of Computer Science,2014,8(1):69-82. 被引量：3
5王法玉,闫小芹,王劲松.大数据时代下的教育管理信息化建设实践与探索[J].中国教育信息化,2016,22(1):46-48. 被引量：14
6白琮,黄玲,陈佳楠,潘翔,陈胜勇.面向大规模图像分类的深度卷积神经网络优化[J].软件学报,2018,29(4):1029-1038. 被引量：63
7周顺先,蒋励,林霜巧,龚德良,王鲁达.基于Word2vector的文本特征化表示方法[J].重庆邮电大学学报（自然科学版）,2018,30(2):272-279. 被引量：21
8张曰花,王红,马广明.基于深度学习的图像识别研究[J].现代信息科技,2019,3(11):111-112. 被引量：18
9周非,李阳,范馨月.图像分类卷积神经网络的反馈损失计算方法改进[J].小型微型计算机系统,2019,40(7):1532-1537. 被引量：14
10蔡有柱.WIFI定位技术在智慧校园建设中的应用研究[J].中国新通信,2019,21(19):121-122. 被引量：4

引证文献4

1张素智,吴玉红,常俊.基于改进AlexNet卷积神经网络的轮胎图像识别[J].计算机技术与发展,2021,31(7):182-186. 被引量：6
2李崇照,王法玉.基于循环门单元和注意力机制的学生学习积极性预测模型[J].天津理工大学学报,2022,38(2):14-19. 被引量：1
3孙凯,刘宣彤,张莉,刘华虓,王禹,郜山权.基于词向量的npm包推荐标签方法[J].吉林大学学报（理学版）,2022,60(5):1097-1102.
4顾凡.无线局域网络入侵行为的预判算法设计与仿真[J].贵阳学院学报（自然科学版）,2023,18(3):50-55. 被引量：1

二级引证文献8

1夏煜丹,刘书朋,田静,商娅娜,陈娜.基于孪生网络的小样本轮胎花纹验证算法[J].电子测量技术,2023,46(16):165-171.
2史敏红,李树文,杨志.基于卷积神经网络的智能车牌识别研究[J].电视技术,2021,45(9):89-91. 被引量：2
3徐兢成,王丽华.基于AlexNet网络的交通标志识别方法[J].无线电工程,2022,52(3):470-475. 被引量：7
4王鹏辉,王旭飞,刘怡帆,周鹏,惠继强.基于YOLOv5网络的轮胎面缺陷检测分析[J].汽车实用技术,2022,47(17):25-30. 被引量：3
5周丽媛,赵启军,高定国.基于注意力引导深度纹理特征学习的复杂背景藏药材切片图像识别[J].世界科学技术-中医药现代化,2022,24(12):4825-4832. 被引量：3
6王聪,田小兵.基于BERT与Seq2Seq模型的智能情感对话机器人系统设计[J].自动化与仪器仪表,2023(10):170-174. 被引量：1
7刘文斌,庹先国,张贵宇,罗琪,彭英杰.基于卷积神经网络的白酒上甑探汽方法[J].食品研究与开发,2024,45(5):139-144.
8王芳.基于GA-SVM算法的无线局域网络入侵信号检测方法[J].电脑与电信,2024(1):47-49.

1投稿小知识[J].医学信息（医学与计算机应用）,2016,29(36):82-82.
2王浩名,柳清瑞.退而不休：养老金调整、财政分权与经济增长——基于全国及省级面板数据的检验[J].山西财经大学学报,2020,42(1):16-27. 被引量：5
3周娇,陈虹.高龄股骨颈骨折患者行关节置换的围手术期护理[J].医学信息（医学与计算机应用）,2014(15):286-286.
4侯旭,刘兴旺,竺伟俊.模拟低碳烯烃生产工艺的智能算法[J].长春工业大学学报,2019,40(6):527-533.
5翟剑锋.基于BERT的用户画像[J].电子技术与软件工程,2019,0(24):253-255. 被引量：4
6李爱平.恒速近似最大裕度算法[J].兰州工业学院学报,2019,26(6):69-74.
7项阳,严志敏,谢冲冲.凹印车间锅炉导热油的清洗与置换方法[J].今日印刷,2019,0(12):68-71.
8孙道青,田炜,崔荣帅,田伟.LNG管线置换方法的研究与应用[J].石化技术,2019,26(10):92-93. 被引量：1
9宋鹏峰,叶庆卫,陆志华,周宇.基于拟合型弱分类器的AdaBoost算法[J].电信科学,2019,35(11):27-35. 被引量：3
10陈宇,王伟,蔡荣彦,冯金平,龚新奇.一种新的中位数排序集抽样下的对总体均值的Horvitz-Thompson估计[J].数学的实践与认识,2019,49(20):235-247.

江苏大学学报（自然科学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于神经网络语言模型的动态层序Softmax训练算法被引量：4

参考文献4

二级参考文献34

共引文献39

同被引文献46

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于神经网络语言模型的动态层序Softmax训练算法 被引量：4

参考文献4

二级参考文献34

共引文献39

同被引文献46

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于神经网络语言模型的动态层序Softmax训练算法被引量：4