知识数据库中非结构化文本关键信息抽取模型被引量：3

Key Information Extraction Model of Unstructured Text in Knowledge Database

下载PDF

导出

摘要针对传统文本关键信息抽取模型中存在的信息抽取效果不佳、抽取耗时较长等问题,提出设计知识数据库中非结构化文本关键信息抽取模型。利用六元组优化隐马尔可夫模型,取得模型发生概率,平滑处理不完整的训练样本;对不同时刻释放观察值序列展开初始化、终结操作,获取最优状态序列,经过解码观察序列后,对比得到正序解码序列与逆序解码序列,滤除无解码歧义的状态,完成歧义消除;根据解得的最大概率状态序列,明确所要抽取的文本关键信息,完成知识数据库中非结构化文本关键信息抽取模型设计。实验结果表明:采用所提模型抽取非结构化文本关键信息的效果较好,且耗时较短。 The traditional text key information extraction model has a poor extraction effect and long extraction time.In this regard, the key information extraction model of unstructured text in a knowledge database is designed.Firstly, for obtaining the occurrence probability of the model and smooth the incomplete training samples, six tuples were applied to optimize the hidden Markov model.Secondly, the observation sequences released at different times were initialized and stopped to obtain the optimal state sequence.Then, the observation sequence was decoded to get the positive sequence and the negative sequence, thus eliminating the state of no decoding ambiguity(ambiguity elimination).Finally, the key information to be extracted was determined to complete the extraction model design of unstructured text key information in the knowledge database by solving the state sequence of maximum probability.The experimental results show that the model has an excellent extraction effect and short time-consuming.

作者郭炜杰包晓安 GUO WEI-jie;BAO Xiao-an(Zhejiang Sci-Tech University,Hangzhou Zhejiang 310018,China)

机构地区浙江理工大学

出处《计算机仿真》北大核心 2021年第9期357-360,394,共5页 Computer Simulation

基金浙江省重点研发计划项目(2020C03094)。

关键词知识数据库非结构化文本关键信息信息抽取隐马尔可夫模型最大概率状态序列 Knowledge database Unstructured Key text information Information extraction Hidden Markov model Maximum probabilistic state sequence

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176. 被引量：27
2王卫红,梁朝凯,闵勇.基于可视块的多记录型复杂网页信息提取算法[J].计算机科学,2019,46(10):63-70. 被引量：13
3柳原.关于大数据非结构化信息存储效率仿真研究[J].计算机仿真,2018,35(6):198-202. 被引量：9
4黄胜,李伟,张剑.基于深度学习的简历信息实体抽取方法[J].计算机工程与设计,2018,39(12):3873-3878. 被引量：7
5王永志,金樑,朱月琴,白明,包晓栋.基于大数据技术的地学文档关键词提取算法研发[J].地球物理学进展,2018,33(3):1274-1281. 被引量：21
6罗明,黄海量.基于词汇-语义模式的金融事件信息抽取方法[J].计算机应用,2018,38(1):84-90. 被引量：17
7张子贤,刘玉伟,刘家春.指数函数与幂函数回归计算的极大似然法及其应用[J].数学的实践与认识,2018,48(24):217-222. 被引量：4
8陈金广,王星辉,马丽丽,张馨东,巩林明.采用分段RTS的CPHD平滑算法[J].计算机工程与应用,2019,55(1):50-55. 被引量：1
9朱明哲,肖瑞,苏小凡,王广辉.混合噪声下基于Viterbi同步压缩S变换的FM信号分析[J].电子与信息学报,2018,40(12):2913-2918. 被引量：3
10屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10

二级参考文献81

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2罗利锐,刘志刚,闫怡冲.超前地质预报系统的提出及其发展方向[J].岩土力学,2011,32(S1):614-618. 被引量：30
3王椿镛.中国岩石层结构研究的回顾与展望[J].地球物理学报,1997,40(S1):82-109. 被引量：13
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
5毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
6王会珍,朱靖波,季铎,叶娜,张斌.基于反馈学习自适应的中文话题追踪[J].中文信息学报,2006,20(3):92-98. 被引量：17
7赵国泽,陈小斌,汤吉.中国地球电磁法新进展和发展趋势[J].地球物理学进展,2007,22(4):1171-1180. 被引量：123
8李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
9庄成龙,钱龙华,周国栋.基于树核函数的实体语义关系抽取方法研究[J].中文信息学报,2009,23(1):3-8. 被引量：27
10朱建宇,鄢志辉.回归分析在隧道量测数据处理中的应用[J].湖南城市学院学报（自然科学版）,2009,18(1):28-31. 被引量：3

共引文献106

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
3刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：24
4李华琴,余正涛,赖华,郭军军.基于案件描述注意力机制的刑事案件要素关系抽取[J].计算机应用研究,2020,37(S02):156-157.
5郭晓宇,彭浩.基于Web页面结构的网页数据提取技术探究[J].产业与科技论坛,2020(18):66-67. 被引量：1
6黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
7付淇.社会化短文本及其技术研究[J].景德镇学院学报,2018,33(2):113-117.
8张海涛,王丹,徐海玲,孙思阳.基于卷积神经网络的微博舆情情感分类研究[J].情报学报,2018,37(7):695-702. 被引量：37
9李丹.面向深网网页的信息抽取算法研究[J].信息记录材料,2019,20(1):46-47.
10殷学梅,周军华,朱耀琴.复杂产品协同设计中数据建模与驱动方法[J].计算机应用,2018,38(10):3017-3024. 被引量：5

同被引文献33

1王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20. 被引量：178
2曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015,38(12):127-132. 被引量：79
3庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016,53(1):165-192. 被引量：84
4李慧,马小平,施珺,李存华,仲兆满,蔡虹.复杂网络环境下基于信任传递的推荐模型研究[J].自动化学报,2018,44(2):363-376. 被引量：20
5苏兴华.非结构化生产信息的向量表示提取方法[J].中国管理信息化,2018,21(23):159-161. 被引量：2
6施伟锋,卓金宝,兰莹.一种基于属性空间相似性的模糊聚类算法[J].电子与信息学报,2019,41(11):2722-2728. 被引量：13
7屈阳,钱蓓力,张呈宇,龙岳,贾捷.一种基于区块链技术的智能运维系统的设计与实现[J].电信科学,2020,36(5):152-158. 被引量：15
8姚萍,李坤伟,张一帆.知识图谱构建技术综述[J].信息系统工程,2020,33(5):121-121. 被引量：31
9可雨憬,敬茂华,郑涵尹.区块链技术在信托行业的应用研究[J].计算机科学,2020,47(S01):591-595. 被引量：3
10巫光福,陈颖,曾宪文,何道敬,李江华.基于区块链技术的通证模型的设计与分析[J].计算机科学,2020,47(S01):603-608. 被引量：3

引证文献3

1曹捷,阙小生,李慎兴,范永学,李兴,宋文志.基于知识图谱技术的配电站房智能运检[J].吉林大学学报（信息科学版）,2023,41(3):474-483. 被引量：1
2杨丽娜,刘长胜,刘璐璐.基于区块链技术的非结构化文本关键信息智能抽取模型[J].信息技术,2024,48(2):154-159.
3李亚楠.双碳背景下配电网智能终端非结构化信息抽取方法[J].微型电脑应用,2024,40(5):183-186.

二级引证文献1

1唐伟萍,易淼,陈军.自动化视域下的智能运维技术研究——基于国产化环境[J].产业创新研究,2023(24):90-92.

1王倩南.论“都”语义指向的滑动性及歧义消除[J].哈尔滨学院学报,2021,42(9):116-120.
2田宇浩.基于网络爬虫的数字资源检测软件设计[J].信息与电脑,2021,33(17):124-126. 被引量：1
3姚红梅,杨利光.5G时代融媒体发展趋势[J].休闲,2021(24):0065-0065.
4肖楠,刘斌.多角度偏振成像仪测量偏差的数据挖掘分析[J].激光杂志,2021,42(6):46-50.
5朱小龙,谢忠.基于机器学习的地理空间数据抽取算法[J].吉林大学学报（工学版）,2021,51(3):1011-1016.
6王一钒,李博,史话,苗威,姜斌.古汉语实体关系联合抽取的标注方法[J].数据分析与知识发现,2021,5(9):63-74. 被引量：7
7黄筱佟,宫海晓,邸臻炜.基于MR技术的城市景区智慧旅游系统方案的应用研究[J].信息记录材料,2021,22(10):180-181. 被引量：4
8赵勇,徐华东,包伟华,邱云周,贾根团.基于多层感知机的过程变量趋势诊断方法研究及应用[J].流体测量与控制,2021,2(5):1-4. 被引量：8
9高青青,王小华,杨爱军,刘定新,荣命哲.SF_(6)气体中交流电晕放电电流及带电粒子的时空分布[J].高电压技术,2021,47(9):3355-3366. 被引量：3
10无.论方太创新 NSP选择性过滤技术实现净水科技自立自强[J].五金科技,2021,49(5):42-44.

计算机仿真

2021年第9期

浏览历史

内容加载中请稍等...

知识数据库中非结构化文本关键信息抽取模型被引量：3

参考文献11

二级参考文献81

共引文献106

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

知识数据库中非结构化文本关键信息抽取模型 被引量：3

参考文献11

二级参考文献81

共引文献106

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

知识数据库中非结构化文本关键信息抽取模型被引量：3