基于改进HMM的文本信息抽取模型被引量：9

Text Information Extraction Model Based on Improved HMM

下载PDF

导出

摘要提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表明,该信息抽取模型能提高信息抽取的准确率。 This paper proposes a text information extraction model based on improved Hidden Markov Model（HMM）.It gives a new assumption of observation emission.And the absolute smoothing algorithm is used to smooth the parameters of the model.The model recovers the most-likely state sequence of the observation sequence and the reverse observation sequence with the Viterbi algorithm.It compares the results with each other based on N-Gram model,and outputs a more accurate result for the state sequence.Experimental results indicate that this model has effectively improved precision.

作者梁吉光田俊华姜杰

机构地区南京师范大学教育科学学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第20期178-179,182,共3页 Computer Engineering

基金江苏省高校自然科学基础研究基金资助项目(08KJD120004) 全国教育科学规划德育专项基金资助项目(GEA090005)

关键词隐马尔可夫模型绝对平滑观察值信息抽取引文信息 Hidden Markov Model（HMM） absolute smoothing observation information extraction citation information

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1McCallum A, Nigam K, Rennie J, et al. A Machine Learning Approach to Building Domain-specific Search Enginers[C]//Proc. of IJCAI’99. Stockholm, Sweden: [s. n.], 1999.
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3张玲,黄铁军,高文.基于隐马尔可夫模型的引文信息提取[J].计算机工程,2003,29(20):33-34. 被引量：11
4刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：51
5周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
6赵晖,顾亚强,唐朝京.基于乘积HMM的双模态语音识别方法[J].计算机工程,2010,36(8):7-9. 被引量：8

二级参考文献53

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
3洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
4Kumatani K,Nakamura S,Shikano K.An Adaptive Integration Based on Product HMM for Audio-visual Speech Recognition[C]// Proceedings of IEEE ICME'01.Tokyo,Japan:[s.n.],2001:1020-1023.
5Lee J S,Park C H.Robust Audio-visual Speech Recognition Based on Late Integration[J].IEEE Transactions on Multimedia,2008,10(5):767-779.
6Dupont S,Luettin J.Audio-visual Speech Modeling for Continuous Speech Recognition[J].IEEE Transactions on Multimedia,2000,2(3):141-151.
7Zhao Hui,Tang Chaojing,Yu Tao.Fast Thresholding Segmentation for Image with High Noise[C]//Proceedings of ICIA'08.Zhangjiajie,China:[s.n.],2008:290-295.
8Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
9Bregler C,Omohundro S M.Nonlinear Manifold Learning for Visual Speech Recognition[C]//Proc.of IEEE Int'l Conf.on Computer Vision.Piscataway,NJ,USA:[s.n.],1995:494-499.
10[1]A. McCallum, K. Nigam, J. Rennie, and K. Seymore. A machine learning approach to building Domain-Specific Search Engines [A]. In Proceedings of IJCAI-99 [C]. 622-667.

共引文献114

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
5王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
6余丰,朱东华.信息抽取技术在竞争情报研究中的应用[J].情报杂志,2006,25(3):25-26. 被引量：11
7王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
8顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
9聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.
10周顺先,林亚平,王耀南.基于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报（自然科学版）,2007,34(6):74-77. 被引量：3

同被引文献124

1董云耀,钱如栏.一种改进的基于隐马尔可夫的信息检索模型[J].杭州电子科技大学学报（自然科学版）,2009,29(4):46-49. 被引量：1
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
6李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10
7乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报（信息科学版）,2005,30(12):1100-1103. 被引量：27
8乐小虬,杨崇俊.非受限文本中深层空间语义的识别方法[J].计算机工程,2006,32(4):36-38. 被引量：4
9钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
10李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32

引证文献9

1李开荣,孔照昆,陈桂香,朱俊武.基于改进隐马尔可夫模型的文本分类研究[J].微电子学与计算机,2012,29(11):161-165. 被引量：3
2乐娟,赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013,39(6):266-271. 被引量：17
3武志翔,王顺利,李占锋,邱斌,尚丽平.基于短时平均幅度和HMM的语音识别系统研究[J].化工自动化及仪表,2013,40(6):779-782. 被引量：2
4吴家皋,周凡坤,张雪英.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报（自然科学版）,2014,37(1):30-34. 被引量：10
5裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
6朱丽萍,刘蔷,苏斐,杨中国,王显灿.科技文献的实验语料句抽取方法[J].计算机工程与设计,2016,37(11):3086-3091. 被引量：2
7王玉娇,耿思,李宁.东巴古籍资源的数字化及数据管理[J].电子测量与仪器学报,2017,31(4):636-643. 被引量：6
8李英,钱建国,方响,杨翾,董航,杨兴超.基于大数据背景的集中监控辅助决策系统研究[J].浙江电力,2019,38(10):34-39. 被引量：8
9张海潮,王昊,唐慧慧,薛蔚.CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J].情报理论与实践,2019,42(2):169-176. 被引量：5

二级引证文献69

1熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
2赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
3童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
4郭福亮,周钢.基于HMM的个体微博情感分析预测方法研究[J].舰船电子工程,2014,34(2):99-102.
5李荣,冯丽萍,王鸿斌.基于改进遗传退火HMM的Web信息抽取研究[J].计算机应用与软件,2014,31(4):40-44. 被引量：3
6裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
7余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41
8孙雪闵,李晓戈,周晓辉.信息抽取中地点归一化研究[J].软件导刊,2015,14(7):26-29.
9于彤,朱玲,李敬华,高宏杰.中医文本信息抽取系统[J].中国医学创新,2015,12(21):108-110. 被引量：2
10刘宝菊,陶宏才.基于隐马尔可夫的商标词识别[J].成都信息工程学院学报,2015,30(6):541-545. 被引量：1

1顾钧,郑晓东,张连明.结合引文信息的生物医学文本聚类研究[J].计算机应用与软件,2012,29(10):5-7. 被引量：3
2黄荣.基于模板的网页主题信息抽取模型[J].科技信息,2011(4):250-251. 被引量：1
3于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：11
4洪流,张巍,肖明军,蔡庆生.一种改进的基于HMM的信息抽取模型[J].模式识别与人工智能,2004,17(3):347-351. 被引量：1
5姜春涛.自动标注中文专利的引文信息[J].现代图书情报技术,2015(10):81-87. 被引量：1
6廖涛,刘宗田,孔庆苹.Web表格信息抽取模型的设计与实现[J].计算机应用与软件,2009,26(4):72-74. 被引量：1
7楼俊君.高校网站群信息抽取系统分析与设计[J].黑龙江科技信息,2013(20):155-155.
8刘玉琴,曾建勋,王立学.学术关联关系可视化系统设计与实现[J].图书情报工作,2014,58(5):75-81. 被引量：7
9傅魁,聂规划.面向电子交易的商品供应信息抽取模型[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):96-99. 被引量：1
10于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9

计算机工程

2011年第20期

浏览历史

内容加载中请稍等...

基于改进HMM的文本信息抽取模型被引量：9

参考文献6

二级参考文献53

共引文献114

同被引文献124

引证文献9

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于改进HMM的文本信息抽取模型 被引量：9

参考文献6

二级参考文献53

共引文献114

同被引文献124

引证文献9

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于改进HMM的文本信息抽取模型被引量：9