基于字词混合和GRU的科技文本知识抽取方法被引量：3

Knowledge Extraction Method of Scientific and Technological Text Based on Word Mixing and GRU

下载PDF

导出

摘要知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。 The knowledge extraction task is to extract triple relations(head entity-relation-tail entity) from the unstructured text data.The existing knowledge extraction methods are divided into "pipeline" method and joint extraction method.The "pipeline" method extracts named entity recognition and entity knowledge extraction with their respective modules.Although this method has better flexibility, the training speed is slow.The learning model of joint extraction is an end-to-end model implemented by neural network to realize entity recognition and relationship extraction at the same time, which can well preserve the association between entities and relationships, and convert the joint extraction of entities and relationships into a sequence labeling problem.The main contributions of this paper are as follows:(1) A knowledge extraction method for scientific and technological text based on word mixing and Gated Recurrent Unit(MBGAB) is proposed, which combines attention mechanism to extract the relationship between Chinese scientific and technological resource text.(2) Vector mapping method using mixed words can not only avoid boundary segmentation errors to the greatest extent, but also effectively integrate semantic information.(3) The end-to-end joint extraction model, the bidirectional GRU network and the self-attention mechanism are used to effectively capture the long-distance semantic information in the sentence, and the bias weight is introduced to improve the effect of model extraction.

作者欧阳苏宇邵蓥侠杜军平李昂 OUYANG Suyu;SHAO Yingxia;DU Junping;LI Ang(Beijing Key Laboratory of Intelligent Telecommunication Software and Multimedia,College of Computer Science,Beijing University of Posts and Telecommunicates,Beijing,100082,China)

机构地区北京邮电大学计算机学院

出处《广西科学》 CAS 北大核心 2022年第4期634-641,共8页 Guangxi Sciences

基金国家重点研发计划项目(2018YFB1402600) 国家自然科学基金项目(61772083,61877006,61802028,62002027)资助。

关键词知识抽取向量映射 GRU 三元组关系联合抽取方法 knowledge extraction vector map GRU triple relation joint extraction method

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Feifei Kou,Junping Du,Yijiang He,Lingfei Ye.Social network search based on semantic analysis and learning[J].CAAI Transactions on Intelligence Technology,2016,1(4):293-302. 被引量：12
2Fei-Fei Kou,Jun-Ping Du,Cong-Xian Yang,Yan-Song Shi,Wan-Qiu Cui,Mei-Yu Liang,Yue Geng.Hashtag Recommendation Based on Multi-Features of Microblogs[J].Journal of Computer Science & Technology,2018,33(4):711-726. 被引量：5
3杨佳鑫,杜军平,邵蓥侠,李昂,奚军庆.面向知识产权的科技资源画像构建方法[J].软件学报,2022,33(4):1439-1450. 被引量：4
4温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：26
5刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：260

二级参考文献95

1高翔.发挥知识产权支撑保障作用助力科技创新驱动高质量发展[J].经营与管理,2021(4):82-85. 被引量：4
2李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
3Miller G A. WordNet: A lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.
4Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge [C] //Proe of KDD. New York: ACM, 2008: 1247-1250.
5Miller E. An introduction to the resource description framework [J]. Bulletin of the American Society for Information Science and Technology, 1998, 25(1): 15-19.
6Bengio Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning, 2099, 2 (1) 1-127.
7Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.
8Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning [C]// Proc of ACL. Stroudsburg, PA: ACL, 2010:384-394.
9Manning C D, Raghavan P, Schutze H. Introduction to Information Retrieval [M]. Cambridge, UK: Cambridge University Press, 2008.
10Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their eompositionality [C] //Proe of NIPS. Cambridge, MA: MIT Press, 2013:3111-3119.

共引文献298

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
3赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.
4詹威威,程序,蔡惠民,刘汪洋,王彬,余正涛.基于综合影响力模型的改进EvolveKG方法及应用研究[J].计算机应用研究,2020,37(S01):159-162.
5阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
6郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
7甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：16
8许升健.年薪制的困惑[J].金山企业管理,2000(1):40-41.
9王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.
10徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：507

同被引文献26

1卢小春,胡维平,王修信.基于人工神经网络的汉语数字语音识别系统[J].广西科学,2004,11(4):320-322. 被引量：2
2洪梅,朱建平.中医药名词英文翻译与规范原则关系的探讨[J].中国科技术语,2013,15(2):46-51. 被引量：26
3刘金龙.中西法律文化交流视角下的翻译史研究——《从词典出发:法律术语译名统一与规范化的翻译史研究》评述[J].中国翻译,2014,35(3):64-67. 被引量：4
4刘润泽,丁洁,刘凯.中国特色术语库标准化构建的创新实践与方法论意义[J].中国翻译,2019,40(1):104-110. 被引量：13
5王华树,张政.翻译项目中的术语管理研究[J].上海翻译,2014(4):64-69. 被引量：45
6余静.论翻译研究中的术语规范与术语关联——以翻译策略研究术语为例[J].中国翻译,2016,37(1):85-90. 被引量：20
7王华树,郝冠清.现代翻译协作中的术语管理技术[J].中国科技翻译,2016,29(1):18-21. 被引量：19
8朱建平.中医药名词术语规范化的实践与思考[J].中国科技术语,2017,19(6):11-14. 被引量：12
9魏向清.从“中华思想文化术语”英译看文化术语翻译的实践理性及其有效性原则[J].外语研究,2018,35(3):66-71. 被引量：41
10王健,殷旭,吕学强,徐丽萍.基于CRFs的专利文献领域术语抽取方法[J].计算机工程与设计,2019,40(1):279-284. 被引量：11

引证文献3

1吴兰,杨攀,李斌全,王涵.大词汇量环境噪声下的多模态视听语音识别方法[J].广西科学,2023,30(1):52-60. 被引量：4
2李彩虹.基于数据驱动视角计算机知识挖掘技术分析[J].信息与电脑,2023,35(11):198-200. 被引量：1
3龙昱琼,周小玲.技术赋能下的术语翻译与术语管理——以中华学术外译项目《论中国乡村变迁》的英译为例[J].中国科技术语,2024,26(2):49-58.

二级引证文献5

1王凌云.元宇宙视域下沉浸式交互体系研究[J].科技视界,2023(17):7-10.
2高适,金宇,黄宇.基于改进卷积神经网络的汉语连续语音识别方法[J].信息与电脑,2023,35(18):114-116.
3汪玉秀,苏战波.基于轻量化神经网络的多语音识别方法研究[J].自动化与仪器仪表,2023(10):167-169. 被引量：1
4胥望军.数据驱动下的算法创新与挑战[J].IT经理世界,2024(2):94-96.
5赵丹,李蕊.噪声环境中多轨道数字音频信号降噪方法[J].现代电子技术,2024,47(13):19-22.

1葛君伟,李帅领,方义秋.基于字词混合的中文实体关系联合抽取方法[J].计算机应用研究,2021,38(9):2619-2623. 被引量：8
2房莹.文以载道感悟生命之美[J].教育,2022(29):79-80.
3杨荣,张建刚,贾晖.基于卷积神经网络和LSH的图像检索算法[J].西安邮电大学学报,2022,27(2):88-94. 被引量：4
4冯庆贺,聂广华,刘荣升,迟明路,王元利,高雅昆,张建霞.基于深度卷积聚合特征的图像检索方法[J].河南工学院学报,2022,30(3):30-34. 被引量：2
5刘晋霞,侯倩倩.热点主题特征维度的识别指标体系构建及实证研究--以我国制氢领域为例[J].情报杂志,2022,41(9):150-158. 被引量：2
6文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.

广西科学

2022年第4期

浏览历史

内容加载中请稍等...

基于字词混合和GRU的科技文本知识抽取方法被引量：3

参考文献5

二级参考文献95

共引文献298

同被引文献26

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于字词混合和GRU的科技文本知识抽取方法 被引量：3

参考文献5

二级参考文献95

共引文献298

同被引文献26

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于字词混合和GRU的科技文本知识抽取方法被引量：3