基于条件随机域CRF模型的文本信息抽取被引量：8

Using conditional random fields model for text information extraction

下载PDF

导出

摘要为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。 In order to extract the information from the text, a method based on conditional random fields （CRF） statistical model is presented. In this method, the text is labeled to determine the features space and one of the limited memory quasi-Newton methods called L-BFGS algorithm is used to estimate the parameter of the CRF model. According to the trained CRF model, various common fields from the research paper headers are extracted. The experimental result indicated that the precision rate of using CRF model achieved more than 90%, which is much better than that of HMM model.

作者周晶吴军华陈佳陈沈焰

机构地区南京工业大学信息科学与工程学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第23期6094-6097,共4页 Computer Engineering and Design

关键词条件随机域文本信息抽取参数估计 L—BFGS迭代法特征集 conditional random fields text information extraction parameter estimation L-BFGS iterative method features space

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[C]. Proceedings of the Eighteenth Conference on Artificial Intelligence. Edmonton: AAAI Press,2002:584-589.
2Souyma Ray, Mark Craven. Representing sentence structure in hidden Markov models for information extraction[C]. Proceedings of the Seventeenth International Joint Conference on Artificial Intelligence.Washington:Morgan Kaufmann, 2001:1273- 1279.
3Scheffer T, Decomain C,Wrobel S.Active hidden Markov models for information extraction[C].Proceedings of the Fourth International Symposium on Intelligent Data Analysis. Lisbon: Springer,2001:301-109.
4Freitag D, McCallum A, Pereira F. Maximum entropy Markov models for information extraction and segmentation [C]. Proceedings of the Seventeenth International Conference on Machine Leaming. San Francisco: Morgan Kaufmann, 2000: 591- 598.
5Lafferty J, MeCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]. Proceedings of ICML,2001:282-289.
6Liu D,Nocedal J.On the limited memory BFGS method for large scale optimization [J]. Mathematical Programming, 1998,45: 503-528.
7http://www.chasen.org/-taku/software/CRF++/[EB/OL].
8McCallum A. Efficiently inducing features of conditional random fields[C]. Proceedings of Conference on Uncertainty in Articifical Intelligence,2003.

同被引文献56

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：153
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6何庆,汤庸,黄永钊.基于本体的法律知识库的研究与实现[J].计算机科学,2007,34(2):175-177. 被引量：22
7郭家清,蔡东风,王智超,刘浩公.一种基于条件随机场的人名识别方法[J].通讯和计算机（中英文版）,2007,4(2):22-25. 被引量：6
8刘锐咎红英张坤丽.现代汉语副词用法的自动识别研究.计算机科学,2008,(8):172-174.
9John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C] //Proc of ICML.2001:282-289.
10Martin J Wainwright,Tommi Jaakkola,Alan S Willsky.Tree-based reparameterization for approximate inference on loopy graphs.Advances in Neural Information Processing Systems (NIPS).2001.

引证文献8

1朱道辉,肖基毅,程阳,吴诗祥.基于长距离依赖条件随机域的文本信息抽取[J].计算机应用与软件,2011,28(5):203-205. 被引量：2
2周溢辉,昝红英,穆玲玲.基于条件随机场的语气词用法自动识别研究[J].计算机工程与设计,2011,32(11):3929-3932. 被引量：1
3史庆伟,郭朋亮.基于LDA的条件随机场主题模型研究[J].计算机工程与应用,2015,51(7):131-135. 被引量：1
4俞鸿波.基于关联性的目标动向热点分析[J].电讯技术,2016,56(5):483-489. 被引量：1
5黄念娥,黄河,王儒敬.本体与条件随机场结合的涉农商品名称抽取与类别标注[J].计算机应用,2017,37(1):233-238. 被引量：6
6梁立荣,李长伟,沈晔,周立娟,景行,童朝晖.基于层叠条件随机场模型的电子病历文本信息抽取[J].计算机应用与软件,2019,36(10):47-54. 被引量：10
7夏鹤珑,严丹丹.基于多头注意力机制的人物关系抽取方法[J].成都工业学院学报,2020,23(1):32-36. 被引量：1
8刘晓蒙,单清龙,周萌枝,张俊娜,朱骞,杨闪闪.基于涉诉信访案件风险识别的知识元自动抽取技术[J].法制博览（名家讲坛、经典杂文）,2021(19):19-21. 被引量：1

二级引证文献23

1苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
2昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动识别研究[J].计算机工程与设计,2013,34(6):2152-2157. 被引量：5
3裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：15
4马建红,郝亚娟,张亚梅.基于层叠跳跃链条件随机场模型的因果关系标注[J].郑州大学学报（理学版）,2016,48(4):54-59. 被引量：2
5薛欢欢,赵瑞雪,寇远涛,鲜国建.农业中文期刊论文信息自动识别与抽取模型构建及实现[J].情报工程,2019,5(6):46-56.
6朱策,徐宏,弥云辉,杨宇,李映娇,杨仕琼.基于自然语言处理的大客户增值服务政策咨询机器人[J].能源与环保,2020,42(3):132-135. 被引量：2
7杨玲,雷涛,高飞,粟勇,张毅.ABI方法在电子目标活动分析中的应用[J].指挥信息系统与技术,2020,11(4):40-44. 被引量：1
8赵鹏飞,赵春江,吴华瑞,王维.基于注意力机制的农业文本命名实体识别[J].农业机械学报,2021,52(1):185-192. 被引量：28
9刘忠宝,秦权,赵文娟.微博环境下新冠肺炎疫情事件对网民情绪的影响分析[J].情报杂志,2021,40(2):138-145. 被引量：18
10郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2

1宋凯,严丽平.三值光计算机监控系统的内外存交互机制[J].计算机工程与设计,2015,36(12):3418-3423. 被引量：1
2金祺.Far Cry[J].信息时空,2003(6):64-64.
3陈健.基于Crystal Report的.NET报表制作[J].考试周刊,2008,0(51):182-183.
4病毒播报[J].计算机应用文摘,2009(27):59-59.
5戈新生,张奇志,刘延柱.基于遗传算法的空间机械臂运动规划的最优控制[J].空间科学学报,2000,20(2):185-191. 被引量：53
6唐耀红,魏慧琴.基于垂直压缩格式的高效FP-STREAM算法的研究[J].计算机科学,2012,39(10):160-163.
7丁建勋,刘先奇.CRY-DIRN网上的数据加密子系统[J].计算机工程与设计,1989,10(3):40-44.
8小龙花.漫画：BAB YDONT CRY[J].计算机光盘软件与应用（COMPUTER ARTS数码艺术）,2009(2):136-136.
9巢玉强,Crytek.孤岛危机[J].设计,2013,26(12):76-79.
10于洁潇,刘开华,史伟光.基于RFID的高速公路车辆测速及定位方法[J].计算机工程,2010,36(24):1-3. 被引量：9

计算机工程与设计

2008年第23期

浏览历史

内容加载中请稍等...

基于条件随机域CRF模型的文本信息抽取被引量：8

参考文献8

同被引文献56

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于条件随机域CRF模型的文本信息抽取 被引量：8

参考文献8

同被引文献56

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于条件随机域CRF模型的文本信息抽取被引量：8