基于条件随机场的科研论文信息分层抽取被引量：3

Hierarchical information extraction from research papers based on conditional random fields

下载PDF

导出

摘要在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。 Current information extractions from research papers based on CRFs just segment text into total blocks or words, so can not fully utilize the context information to segment and extract them in the proper granularity. This paper proposed a hierarchical information extraction from research papers based on CRFs. The algorithm made use of the format information such as list separator, new line character and line header character, and combined them with the feature functions of CRFs to segment the text hierarchically into proper lines, blocks and words. Finally on different hierarchy applied the CRFs to the extraction information in special fields. Experimental results show that the proposed method possesses better performance than that based on the CRFs siniply segments text into total blocks or words.

作者张玉芳莫凌琳熊忠阳耿晓斐

机构地区重庆大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2009年第10期3690-3693,共4页 Application Research of Computers

基金重庆市科委自然科学基金计划资助项目(2007BB2372) 中国博士后科学基金资助项目(20070420711)

关键词信息抽取条件随机场分层 information extraction conditional random fields（CRFs） hierarchy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191. 被引量：38
2郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
3SEYMORE K, MCCALLUM A, ROSENFELD R. Learning hidden Markov model structure for information extraction [ C]//Proc of the AAAI Workshop on Machine Learning for Information Extraction. Orlando : AAAI Press, 1999:37-42.
4刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：51
5林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
6HAN H, GILES C, MANAVOGLU E, et al. Automatic document metadata extraction using support vector machines [ C ]//Pmc of Joint Conf on Digital Libraries. Houston : IEEE Press, 2003:37-48.
7LAFFERTY J D, McCALLUM A, PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[ C ]//Proc of ICML. San Francisco:Morgan Kaufmann Publishers Inc,2001:282-289.
8PENG F C, MeCALLUM A. Accurate information extraction from research papers using conditional random fields[ C]//Proc of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL 2004). New York : ACM Press, 2004:329-336.
9于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：11
10Data set for IE [ EB/OL]. ( 1999 ). http://www-2, cs. cmu. edu/ kseymore/ie, html.

二级参考文献39

1赵英环,郭贵锁.基于主题词迭代提取的信息检索算法[J].华南理工大学学报（自然科学版）,2004,32(z1):77-80. 被引量：3
22003 CES消费电子展专题报道(二)[J].消费电子,2003,0(4):8-11. 被引量：1
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4娄雅斌,陶凤梅,马垣.基于“本体”的异构数据源的集成方法研究[J].微计算机信息,2005,21(10X):117-118. 被引量：20
5[1]A. McCallum, K. Nigam, J. Rennie, and K. Seymore. A machine learning approach to building Domain-Specific Search Engines [A]. In Proceedings of IJCAI-99 [C]. 622-667.
6[2]Ellien Riloff. Automatically Constructing a Dictionary for Information Extraction Task [A]. Proceeding for the Eleventh National Conference on Artificial Intelligence [C]. 1993. 811-816.
7[3]E. Riloff , R. Jones. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [A]. Proceedings of the Sixteenth National Conference on Artificial Intelligence [C]. 1999. 811-816.
8[4]S. Soderland. Learning information extraction rules for semi-structured and free text [J]. Machine Learning, 1999, 1-44.
9[5]Kushmerick, N. Wrapper induction: efficiency and Expressiveness [J]. Artificial Intelligence,2000, Vol. 118, pp. 15--68.
10[6]Leek,T. R. Information Extraction Using Hidden Markov Models [D]. Master's thesis, UC san Diego,1997.

共引文献141

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6张继红,陈小全.海量交通安全数据的元数据管理研究[J].计算机研究与发展,2011,48(S1):74-77. 被引量：3
7宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
8王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
9严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
10郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18

同被引文献30

1刘君君.论社会科学学术论文的语篇结构[J].宜春学院学报,2006,28(1):126-130. 被引量：3
2金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
3周顺先,林亚平,王耀南.基于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报（自然科学版）,2007,34(6):74-77. 被引量：3
4夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
5王根,赵军.基于多重冗余标记CRFs的句子情感分析研究[J].中文信息学报,2007,21(5):51-55. 被引量：32
6王昊,邓三鸿.HMM和CRFs在信息抽取应用中的比较研究[J].现代图书情报技术,2007(12):57-63. 被引量：12
7Zhu X,Ghahramani Z,Lafferty J.Semi-supervised learning using gaussian fields and harmonic functions[C]//Proceedings of the 20th International Conference on Machine Learning.Washington,2003:912-919.
8Settles B,Craven M.An analysis of active learning strategies for sequence labeling tasks[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2008:1070-1079.
9Lafferty J,McC allum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning,2001:282-289.
10Itoh N,Sainath T N,Jiang D N,et al.N-best entropy based data selection for acoustic modeling[C]//Acoustics,Speech and Signal Processing(ICASSP),2012 IEEE International Conference on.IEEE,2012:4133-4136.

引证文献3

1毛浪,赵传钢.基于聚类的林业病虫害实体抽取研究[J].计算机应用与软件,2015,32(3):37-40. 被引量：2
2王茵,周学广,陆健.基于条件随机场的中文情感分析方法比较研究[J].计算机与数字工程,2017,45(9):1703-1707. 被引量：1
3王东波,高瑞卿,叶文豪,周鑫,朱丹浩.不同特征下的学术文本结构功能自动识别研究[J].情报学报,2018,37(10):997-1008. 被引量：21

二级引证文献24

1薛家秀,欧石燕.科学论文篇章结构建模与解析研究进展[J].图书与情报,2019,0(2):120-132. 被引量：9
2薛欢欢,赵瑞雪,寇远涛,鲜国建.农业中文期刊论文信息自动识别与抽取模型构建及实现[J].情报工程,2019,5(6):46-56.
3张维冲,王芳,赵洪,张建光.基于政府公文结构解析的科技政策主题抽取与分析[J].科学学研究,2020,38(7):1185-1196. 被引量：6
4王鑫,程齐凯,马永强,罗卓然.基于层次注意力网络的论证区间识别研究[J].情报工程,2020,6(3):52-62. 被引量：2
5刘忠宝,王宇飞,赵文娟.基于章节段落的学术文献结构功能识别方法研究[J].文献与数据学报,2020,2(3):37-47. 被引量：1
6秦成磊,章成志.基于层次注意力网络模型的学术文本结构功能识别[J].数据分析与知识发现,2020,4(11):26-42. 被引量：16
7胡志刚,章成志.悄然兴起的全文计量分析[J].图书馆论坛,2021,41(3):1-11. 被引量：13
8李咏豪.智能科学技术概述[J].科技风,2021(8):7-8. 被引量：1
9刘忠宝,王宇飞,张志剑.基于深度学习模型的摘要结构功能识别方法研究[J].情报科学,2021,39(3):107-112. 被引量：6
10马晓慧,赵文娟,刘忠宝.基于深度学习的多学科多层次学术论文结构功能识别方法比较研究[J].情报科学,2021,39(8):94-102. 被引量：6

1张文慧.6种方法帮你输入特定文本[J].电脑知识与技术（经验技巧）,2010(3):25-26.
2符笛,尹东,孙涛.一种基于分裂高斯混合模型的背景建模算法[J].计算机工程,2015,41(4):190-194. 被引量：1
3战荫伟,张昊.基于Kinect传感器的人体行为分析算法[J].传感器与微系统,2015,34(1):142-144. 被引量：12
4杨俊宏,安明瑞.电力调度自动化信息分层技术浅析[J].电子技术与软件工程,2013(23):183-183.
5何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
6程显林,王敬山,韩冬,姜建国.互联网络科技信息自动抽取系统的开发[J].大庆石油学院学报,2008,32(6):103-105.
7巧妙删除Excel中的换行符[J].吉林农业农村经济信息,2006(9):48-48.
8曹卫,薛煜阳.基于曲线拟合和对象选择的脱机手写维吾尔文本行切分算法[J].计算机与数字工程,2015,43(8):1375-1377.
9李立华,宋志明.巧删段中空格换行符[J].电脑迷,2005,0(1):75-75.
10周昌乐,赵巍.一种手写汉字文本切分的协动计算方法设计[J].计算机应用与软件,1999,16(1):30-33.

计算机应用研究

2009年第10期

浏览历史

内容加载中请稍等...

基于条件随机场的科研论文信息分层抽取被引量：3

参考文献10

二级参考文献39

共引文献141

同被引文献30

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的科研论文信息分层抽取 被引量：3

参考文献10

二级参考文献39

共引文献141

同被引文献30

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的科研论文信息分层抽取被引量：3