基于模式匹配的结构化信息抽取被引量：6

Structured Information Extraction Based on Pattern Matching

下载PDF

导出

摘要针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果. The information extraction results extracted from the semi-structured texts are coarse-grained, which results in ineffective semantic analysis. A structured information extraction method based on pattern matching is proposed. The proposed method is targeted at the web-presented semi-structured texts, and the suitable lexicon is loaded through domain recognition of the coarse-grained extraction results. Roles are mapped to the corresponding words in the word sequence according to the part of speech of the role in the patterns. Thus, the structured information can be extracted and it provides support for the accurate semantic analysis. Experiments show more accurate extraction results can be achieved by the proposed method.

作者邵堃杨春磊钱立宾方帅

机构地区合肥工业大学计算机与信息学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2014年第8期758-768,共11页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.60975033 60575035 60275022)资助

关键词半结构化文本模式匹配结构化信息粗粒度抽取结果领域识别 Semi-structured Text Pattern Matching Structured Information Coarse-Grained Extraction Result Domain Recognition

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
2李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
3Alani H, Kim S, Millard D E, et al. Automatic Ontology-Based Knowledge Extraction from Web Documents. IEEE Intelligent Sys- tems, 2003, 18(1): 14-21.
4Gottlob G, Koch C. Monadic Datalog and the Expressive Power of Languages for Web Information Extraction. Journal of the ACM, 2004, 51(1) : 74-113.
5刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
6张治,车皓阳,施鹏飞.模式匹配问题的描述框架与算法模型[J].模式识别与人工智能,2006,19(6):715-721. 被引量：7
7胡金柱,熊春秀,舒江波,周星,程文涛.一种改进的字符串模式匹配算法[J].模式识别与人工智能,2010,23(1):103-106. 被引量：9
8高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
9缪建明,张全,赵金仿.基于文章标题信息的汉语自动文本分类[J].计算机工程,2008,34(20):13-14. 被引量：2
10耿焕同,蔡庆生.一种基于SVM和领域综合特征的Email自动分类方法[J].计算机科学,2006,33(6):52-54. 被引量：1

二级参考文献101

1王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
2程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13
3史忠植.智能主体及其应用[M].北京:科学出版社,2001.7-11.
4[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128
5[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621
6[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28
7[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535
8[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153
9[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118
10[7]Soderland S.. Learning information extraction rules for semistructured and free text. Machine Learning,1999, 34(1～3):233～272

共引文献229

1刘亚慧,杨浩苹,李正华,张民.一种轻量级的汉语语义角色标注规范[J].中文信息学报,2020(4):10-20. 被引量：4
2王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
3杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
6黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
7王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
8王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
9孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
10李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6

同被引文献52

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：24
2张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
3张治,车皓阳,施鹏飞.模式匹配问题的描述框架与算法模型[J].模式识别与人工智能,2006,19(6):715-721. 被引量：7
4中国抗癌协会乳腺癌专业委员会.中国抗癌协会乳腺癌诊治指南与规范(2007版)[J].中国癌症杂志,2007,17(5):410-428. 被引量：230
5刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：58
6邱清盈,郑国民,冯培恩,武建伟.基于正则表达式的专利信息提取方法研究[J].中国机械工程,2007,18(19):2326-2329. 被引量：15
7Imran R. Mansri, Sunita Sarawagi. Integrating Unstructured Data into Relation Databases [ J ]. JCDE, 2006, 3 (7) : 29.
8Tao Peng, Lianying Sun, Hong Bao. Research of Unstructured Data Transformation Based on XML [ J ]. International Conference on Intermet Technoeugy&Applieations, 2010, 20 (22) : 1 -4.
9Ying Chen, Sophia Yat Mei Lee, Chu - Ren Huang et al. A Robust Web Personal Name Information Extraction System [J]. Expert Systems with Application, 2012, 39 (3) : 2690 - 2699.
10周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22

引证文献6

1吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
2张盈利,夏小玲.非结构化病理文本的结构化信息抽取方法[J].医学信息学杂志,2016,37(4):54-58. 被引量：3
3沈洁,彭敦陆.领域文本信息抽取中的短语相似度计算方法[J].软件导刊,2017,16(4):6-9. 被引量：1
4刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究,2018,35(6):1645-1650. 被引量：5
5杜嘉,刘思含,李文浩,徐啸迪,刘旭红.基于深度学习的煤矿领域实体关系抽取研究[J].智能计算机与应用,2019,9(1):114-118. 被引量：5
6邱凌,张安思,李少波,张仪宗,沈明明,周鹏.航空制造知识图谱构建研究综述[J].计算机应用研究,2022,39(4):968-977. 被引量：12

二级引证文献34

1吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
2鲍玉来,耿雪来,飞龙.基于卷积神经网络的旅游信息关系抽取研究[J].现代情报,2019,39(8):132-136. 被引量：4
3尚小溥,许吴环,赵红梅,张润彤,朱燊.中文超声文本结构化与知识网络构建方法研究[J].图书情报工作,2019,63(16):112-120. 被引量：3
4朱珊珊,唐慧丰.基于BiLSTM_Att的军事领域实体关系抽取研究[J].智能计算机与应用,2019,9(4):96-99. 被引量：8
5罗香玉,李嘉楠,郎丁.智慧矿山基本内涵、核心问题与关键技术[J].工矿自动化,2019,45(9):61-64. 被引量：41
6郑野,宋旭东,于林林,陈鑫影.基于标签路径覆盖率和多文本特征的正文抽取算法[J].大连交通大学学报,2019,40(5):112-116.
7汤佳杰,曹永忠,顾浩.基于文本标点密度连续和的网页正文抽取[J].计算机时代,2020,0(1):69-72. 被引量：2
8张淑霞,龚炳江.面向煤矿领域的文本关系抽取关键技术研究[J].电脑知识与技术,2020,16(22):187-189.
9屈丹丹,杨涛,胡孔法.NLP在中医医案症状信息自动化抽取中的应用研究[J].软件导刊,2021,20(2):44-48. 被引量：5
10叶琳,罗铁清.医疗数据治理综述[J].计算机时代,2021(5):10-12. 被引量：11

1潘小燕,孙承杰,刘远超,王晓龙.半结构化文本中的表格识别技术研究[J].微计算机信息,2008,24(18):198-199. 被引量：1
2杨春磊,刘念唐,林雨,邵堃.面向领域的Web文本结构化分析[J].合肥工业大学学报（自然科学版）,2013,36(3):309-314. 被引量：2
3孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技,2014,27(10):111-114. 被引量：5
4霍永,罗钊.垂直搜索引擎浅析[J].广西警官高等专科学校学报,2009,22(4):38-41. 被引量：1
5曹进军.基于PATTree的半结构化文本信息抽取范式研究[J].情报杂志,2007,26(7):55-58. 被引量：2
6戚前方,张俊卿,宋秋红.Internet信息处理技术[J].中国民航学院学报,2004,22(B06):163-167.
7刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7
8刘椿年,宋霞.基于Boosting的半结构化信息抽取[J].北京工业大学学报,2005,31(2):199-203.
9解辉,王晓英,金鑫.基于模板知识的带噪音半结构文本数据自动分词方法[J].微型机与应用,2015,34(17):89-91. 被引量：1
10陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报,2011,29(2):18-21. 被引量：1

模式识别与人工智能

2014年第8期

浏览历史

内容加载中请稍等...

基于模式匹配的结构化信息抽取被引量：6

参考文献13

二级参考文献101

共引文献229

同被引文献52

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于模式匹配的结构化信息抽取 被引量：6

参考文献13

二级参考文献101

共引文献229

同被引文献52

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于模式匹配的结构化信息抽取被引量：6