基于神经网络的文本表示模型新方法被引量：18

New method of text representation model based on neural network

下载PDF

导出

摘要提出了一种改进的文本表示模型提取文本特征词向量方法。首先构建基于词典索引和所对应的词性索引的double word-embedding列表的word-embedding词向量,其次,利用在此基础上Bi-LSTM循环神经网络对生成后的词向量进一步进行特征提取,最后,通过mean-pooling层处理句子向量后且使用了softmax层进行文本分类。实验验证了Bi-LSTM和double word-embedding神经网络相结合的模型训练效果与提取情况。实验结果表明,该模型不但能较好地处理高质量的文本特征向量提取和表达序列,而且比LSTM、LSTM+context window和Bi-LSTM这3种神经网络有较明显的表达效果。 Method of text representation model was proposed to extract word-embedding from text feature. Firstly, the word-embedding of the dual word-embedding list based on dictionary index and the corresponding part of speech index was created. Then, feature vectors was obtained further from these extracted word-embeddings by using Bi-LSTM recurrent neural network. Finally, the sentence vectors were processed by mean-pooling layer and text categorization was classified by softmax layer. The training effects and extraction performance of the combination model of Bi-LSTM and double word-embedding neural network were verified. The experimental results show that this model not only performs well in dealing with the high-quality text feature vector and the expression sequence, but also significantly outperforms other three kinds of neural networks, which includes LSTM, LSTM＋context window andBi-LSTM.

作者曾谁飞张笑燕杜晓峰陆天波 ZENG Shui-fei ZHANG Xiao-yan DU Xiao-feng LU Tian-bo(School of Software Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China School of Computer, Beijing University of Posts and Telecommunications, Beijing 100876, China)

机构地区北京邮电大学软件学院北京邮电大学计算机学院

出处《通信学报》 EI CSCD 北大核心 2017年第4期86-98,共13页 Journal on Communications

关键词神经网络词向量 Bi-LSTM 文本表示 neural network word-embedding Bi-LSTM text representation

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献141

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：47
2余本功,许庆堂,张培行.基于MAC-LSTM的问题分类研究[J].计算机应用研究,2020,37(1):40-43. 被引量：15
3李艳灵,李刚.基于文本数据的数据挖掘算法研究[J].新乡师范高等专科学校学报,2003,17(2):35-37. 被引量：1
4朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：23
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
7赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
8金立印.网络口碑信息对消费者购买决策的影响：一个实验研究[J].经济管理,2007,33(22):36-42. 被引量：218
9郑伟,王锐.文本分类中特征提取方法的比较与研究[J].河北北方学院学报（自然科学版）,2007,23(6):51-54.
10赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4

引证文献18

1王衡军,司念文,宋玉龙,单义栋.结合全局向量特征的神经网络依存句法分析模型[J].通信学报,2018,39(2):53-64. 被引量：3
2赵燕,李晓辉,周云成,张越.基于朴素贝叶斯的农业文本分类方法研究[J].节水灌溉,2018(2):98-102. 被引量：8
3耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
4陈玮匀,杨文伟,陈俊江,胡永乐,覃团发.基于改进RBF神经网络训练算法的蓄电池SOC估算[J].现代电子技术,2018,41(20):146-149. 被引量：3
5杨敏.基于文本识别的图书智能管理[J].自动化技术与应用,2018,37(12):145-150. 被引量：1
6王丽娜,郭晓东,汪润.面向中文用户评论的自动化众包攻击方法[J].通信学报,2019,40(6):1-13.
7刘礼文,俞弦.循环神经网络（RNN）及应用研究[J].科技视界,2019,0(32):54-55. 被引量：14
8张华伟.基于Word2Vec的神经网络协同推荐模型[J].网络空间安全,2019,10(6):25-28. 被引量：2
9赵宏,王乐,王伟杰.基于BiLSTM-CNN串行混合模型的文本情感分析[J].计算机应用,2020,40(1):16-22. 被引量：32
10吕晋,吴进军,朱宇宏,聂军刚.基于Bi-LSTM-CRF模型的焊接专利新词发现[J].黄河科技学院学报,2020,22(5):47-52. 被引量：1

二级引证文献135

1菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
2曾红武,王佳.基于关联关系的电子病历聚类研究[J].中华医学图书情报杂志,2018,27(5):42-45. 被引量：1
3刘一然,骆力明.基于SVM的学科试题自动分类研究[J].计算机应用与软件,2019,36(1):197-203. 被引量：8
4谌志群,鞠婷,王冰.结合树形概率和双向长短期记忆的渐步性句法分析方法[J].厦门大学学报（自然科学版）,2019,58(2):243-248. 被引量：3
5蒋明威,邓明舟,李振亚.结合全局与局部池化的多幅图像识别算法[J].信息通信,2019,0(8):9-10. 被引量：1
6于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：37
7王浩铭.基于句式内容表的电网安全隐患文本分类方法[J].信息通信,2019,0(9):105-106. 被引量：1
8黄丽娟,周海.基于情感分析的文本检索系统的研究[J].科技创新与应用,2019,0(36):58-59. 被引量：1
9李变秀,张以航.图像识别技术在图书馆管理中的应用[J].成长,2019,0(12):8-9.
10杨杰,黄晨,石恒.径向基函数神经网络补偿的悬浮球悬浮高度自适应滑模控制[J].电气技术,2020,21(2):26-30. 被引量：5

1牛延莉,张化.文本自动分类研究进展[J].软件导刊,2008,7(4):24-26. 被引量：3
2冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
3胡锦承.赋予鼠标右键更大“生命力”的Out of Context[J].电脑,1999(10):39-39.
4奉国和.自动文本分类技术研究[J].情报杂志,2007,26(12):108-111. 被引量：12
5曹彦婷.基于空间压缩的外存字符串词典索引算法研究[J].重庆师范大学学报（自然科学版）,2014,31(6):107-115.
6张华.文本分类技术[J].电脑知识与技术,2009,5(8X):6784-6785.
7马辉民,李卫华,吴良元.VSM在中文文本聚类中的应用及实证分析[J].武汉理工大学学报（信息与管理工程版）,2006,28(4):56-59. 被引量：13
8田勇.DOUBLE SPACE使用技巧[J].电子与电脑,1994(9):121-121.
9王健.基于网页解析的文本分类的关键技术[J].科海故事博览：科技探索,2010(10):195-196.
10刘冬雪.文本分类及其相关技术的研究[J].科技创新导报,2010,7(16):1-1.

通信学报

2017年第4期

浏览历史

内容加载中请稍等...

基于神经网络的文本表示模型新方法被引量：18

同被引文献141

引证文献18

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

基于神经网络的文本表示模型新方法 被引量：18

同被引文献141

引证文献18

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

基于神经网络的文本表示模型新方法被引量：18