基于LSTM-A深度学习的专利文本分类研究被引量：5

Patent Text Classification based on Long Short-Term Memory Network and Attention Mechanism

下载PDF

导出

摘要针对专利文本采用层级细分类低层级文本间相似度高、文本特征难以区分的特性,提出了一种LSTM-A文本分类模型。该模型使用LSTM网络对输入序列进行编码,并引入注意力机制对不同作用的文本特征分配不同权重,最后使用incopat专利数据库的专利文本数据集进行方法的有效性验证。实验表明,该模型可以有效提升高相似度专利文本的分类准确率。 Aiming at the feature that patent documents use hierarchical fine classification and low-level text with high similarity and difficult to distinguish text features,an LSTM-A text classification model is proposed.The model uses the LSTM network to encode the input sequence,and introduces attention mechanisms to assign different weights to the text features with different effects.Finally,the patent text dataset of the incopat patent database is used to verify the validity of the method.Experiments indicate that this model can effectively improve the classification accuracy of patent documents with high similarity.

作者薛金成姜迪吴建德 XUE Jin-cheng;JIANG Di;WU Jian-de(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming Yunnan 650500,China;Institute of Intellectual Property Development,Kunming University of Science and Technology,Kunming Yunnan 650500,China;Computing Center,Kunming University of Science and Technology,Kunming Yunnan 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学知识产权发展研究院昆明理工大学计算中心

出处《通信技术》 2019年第12期2888-2892,共5页 Communications Technology

关键词专利文本文本分类长短期记忆网络注意力机制 patent text text classification LSTM attention mechanism

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1金志刚,韩玥,朱琦.一种结合深度学习和集成学习的情感分析模型[J].哈尔滨工业大学学报,2018,50(11):32-39. 被引量：11
2赵云山,段友祥.基于Attention机制的卷积神经网络文本分类模型[J].应用科学学报,2019,37(4):541-550. 被引量：13
3高明霞,李经纬.基于word2vec词模型的中文短文本分类方法[J].山东大学学报（工学版）,2019,49(2):34-41. 被引量：28
4熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报（工程技术版）,2015,15(1):43-48. 被引量：68
5周瑛,刘越,蔡俊.基于注意力机制的微博情感分析[J].情报理论与实践,2018,41(3):89-94. 被引量：42

二级参考文献26

1Bengio Y,Ducharme R, Vincent P. A neural probabilistic language model[ J]. Journal of Machine Learning Research,2003,3(7) :1 137-1 155.
2Michael U G, AapoHyvrinen. Noise-contrastive estimation of unnormalized statistical models,with applications to natural imagestatistics[ J] ? The Journal of Machine Learning Research,2012,13( 2) ;307-361.
3Tomas M,Chen K,Corrado G. Efficient estimation of word representations in vector space[ EB/OL].( 2013-08-18) [ 2013-09-07]http : / / arxiv. org/ abs/1301.3781.
4Bengio Y,LeCun Y. Scaling Learning Algorithms Towards AI [ M ]//Large-Scale Kernel Machines. Cambridge: MIT Press,2007.
5Mikolov T, Karafi M, Burget L, et al. Recurrent neural network based language model [ C]//Proceedings of Interspeech.Chiba,Japan:MIT Press,2010: 131 -138.
6Mikolov T,Ilya S,Kai C,et al. Distributed representations of words and phrases and their compositionality[EB/OL]. [2013-10-16]http:// arxiv.org/ abs/1310.4546.
7Elman J. Finding structure in time[ J]. Cognitive Science, 1990,14(7) : 179-211.
8Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by back-propagating errors[ J]. Nature, 1986,323(9) :533-536.
9Andriy M,Yee W T. A fast and simple algorithm for training neural probabilistic language models[ EB/OL] .(2009-10-12)[2012-06-10] http : / / arxiv. org/ftp/arxiv/papers/12061.
10Frederic M, Yoshua B. Hierarchical probabilistic neural network language model [ C ] //Proceedings of the International Work-shop on Artificial Intelligence and Statistics. Barbados : MIT Press, 2005 : 246-252.

共引文献155

1叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：9
2罗枭.基于深度学习的自然语言处理研究综述[J].智能计算机与应用,2020(4):133-137. 被引量：13
3李蕾,谢旸,蒋亚飞,刘咏彬.一种用于图卷积网络的社交关系方向门控算法[J].北京邮电大学学报,2020(5):77-83. 被引量：1
4陈文强,周安民,刘亮.基于多尺度融合CNN的恶意软件行为描述语句抽取模型[J].网络安全技术与应用,2019(1):28-30.
5相若晨,孙美凤.基于词向量与句法树的中文句子情感分析[J].计算机与现代化,2016(8):27-31. 被引量：2
6李冬白,田生伟,禹龙,艾斯卡尔.艾木都拉,吐尔根.依布拉音.深度学习的维吾尔语语句隐式情感分类[J].计算机工程与设计,2016,37(9):2577-2580. 被引量：5
7张兴厅,文栋,雷健波.基于词向量的消费者体检健康词表研究[J].中国卫生信息管理杂志,2017,14(5):707-711. 被引量：3
8张雷.基于word2vec和TF-IDF算法实现酒店评论的个性化推送[J].电脑与信息技术,2017,25(6):8-11. 被引量：3
9王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20
10薛炜明,侯霞,李宁.一种基于word2vec的文本分类方法[J].北京信息科技大学学报（自然科学版）,2018,33(1):71-75. 被引量：16

同被引文献36

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
4缪建明,贾广威,张运良.基于摘要文本的专利快速自动分类方法[J].情报理论与实践,2016,39(8):103-105. 被引量：13
5奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：222
6黄磊,杜昌顺.基于递归神经网络的文本分类研究[J].北京化工大学学报（自然科学版）,2017,44(1):98-104. 被引量：40
7贾杉杉,刘畅,孙连英,刘小安,彭涛.基于多特征多分类器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(8):76-84. 被引量：10
8于海燕,陆慧娟,郑文斌.情感分类中基于词性嵌入的特征权重计算方法[J].计算机工程与应用,2017,53(22):121-125. 被引量：5
9武永亮,赵书良,李长镜,魏娜娣,王子晏.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145. 被引量：91
10胡杰,李少波,于丽娅,杨观赐.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272. 被引量：22

引证文献5

1温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：24
2程盼,徐弼军.基于word2vec和logistic回归的中文专利文本分类研究[J].浙江科技学院学报,2021,33(6):454-460. 被引量：5
3韦婷婷,江涛,郑舒玲,张建桃.融合LSTM与逻辑回归的中文专利关键词抽取[J].数据分析与知识发现,2022,6(2):308-317. 被引量：6
4吴思怡,吴陈.融合self_attention的词级交互文本分类模型研究[J].计算机与数字工程,2022,50(8):1766-1770.
5刘燕.基于BERT-BiGRU的中文专利文本自动分类[J].郑州大学学报（理学版）,2023,55(2):33-40. 被引量：7

二级引证文献42

1庄良源.基于深度学习的专利自分类模型设计[J].电子技术与软件工程,2020(24):177-178.
2包翔,刘桂锋,崔靖华.多示例多标签学习在中文专利自动分类中的应用研究[J].图书情报工作,2021,65(8):107-113. 被引量：4
3黄忠祥,李明.BiGRU结合注意力机制的文本分类研究[J].北京联合大学学报,2021,35(3):47-52. 被引量：2
4王颖.学术资源挖掘方法研究综述[J].现代情报,2021,41(12):164-177. 被引量：2
5谢星雨,余本功.基于MFFMB的电商评论文本分类研究[J].数据分析与知识发现,2022,6(1):101-112. 被引量：6
6潘列,曾诚,张海丰,温超东,郝儒松,何鹏.结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法[J].计算机应用,2022,42(4):1108-1115. 被引量：5
7张海丰,曾诚,潘列,郝儒松,温超东,何鹏.结合BERT和特征投影网络的新闻主题文本分类方法[J].计算机应用,2022,42(4):1116-1124. 被引量：15
8叶星鑫,徐杨,罗梦诗.基于ALBERT-AFSFN的中文短文本情感分析[J].计算机工程与应用,2022,58(12):170-176. 被引量：4
9郑承宇,王新,王婷,邓亚萍,尹甜甜.基于ALBERT-TextCNN模型的多标签医疗文本分类方法[J].山东大学学报（理学版）,2022,57(4):21-29. 被引量：12
10裘凯凯,丁伟杰,钟南江.基于ERNIE-SA-DPCNN的文本分类研究--以涉网新型犯罪案件文本为例[J].现代信息科技,2022,6(6):69-74.

1艾楚涵,姜迪,吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报（自然科学版）,2019,40(6):524-530. 被引量：9
2祁小军,兰海翔,卢涵宇,丁蕾锭,薛安琪.贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究[J].电脑知识与技术,2019,15(9):220-222. 被引量：10
3臧艳辉,赵雪章,席运江.Spark框架下利用分布式NBC的大数据文本分类方法[J].计算机应用研究,2019,36(12):3705-3708. 被引量：6
4方春,孙福振,李彩虹,邢林林.基于深度学习和字符嵌入的细胞穿透肽预测[J].计算机仿真,2019,36(10):353-358. 被引量：2
5曹哲超,王轶骏,薛质.基于页面标签和文本特征的暗网重要站点识别[J].通信技术,2019,52(12):3021-3026. 被引量：2
6袁园.保险科技在中国的发展历程[J].新商务周刊,2019,0(16):250-251.
7朱雪仪,蔡俊鹏,陈德旺,林松青.猫群算法的锂离子电池辨识参数及仿真[J].电池,2019,49(5):392-395. 被引量：2
8方伟,曾博,徐富强,张建华.极端灾害下基于智能楼宇分布式电源的配电系统负荷恢复力评估分析[J].发电技术,2019,40(5):440-447. 被引量：9
9谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
10刘昶.我国蝉花专利信息分析[J].中国科技信息,2019,0(23):18-19.

通信技术

2019年第12期

浏览历史

内容加载中请稍等...

基于LSTM-A深度学习的专利文本分类研究被引量：5

参考文献5

二级参考文献26

共引文献155

同被引文献36

引证文献5

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于LSTM-A深度学习的专利文本分类研究 被引量：5

参考文献5

二级参考文献26

共引文献155

同被引文献36

引证文献5

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于LSTM-A深度学习的专利文本分类研究被引量：5