文法推断与HMM相结合的信息提取被引量：1

Combining Grammatical Inference with HMM for Information Extraction

下载PDF

导出

摘要本文提出了一种结合文法推断和HMM进行信息提取的方法。首先将待提取的原始文本转换为相应有意义的一个小的抽象符号集合,然后通过使用文法推断(GI)获取一个合适的HMM拓扑结构,最后利用所得的HMM拓扑结构,使用经典的Viterbi算法提取出用户感兴趣的信息。实验结果表明,针对半结构化文档,该方法在某些领域能够有效地提高提取的精确度。 This paper describes a method of information extraction which combines grammatical inference with HMM.Firstly, the raw text is translated into a small set of abstract symbols, and then by using grammatical inference, an optimal topology of HMM is obtained. Now we can extract the interesting information to users by using the classic Viterbi algorithm throughout the obtained topology of HMM. Results show that this method can effectively improve the precision of information extraction in some fields for semi-structured documents.

作者卢正鼎董泽锋

机构地区华中科技大学计算机科学与技术学院

出处《计算机工程与科学》 CSCD 2005年第8期1-3,共3页 Computer Engineering & Science

关键词文法推断隐马尔可夫模型信息提取半结构化 grammatical inference HMM information extraction semi-structured

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11
2H Rulot, E Vidal. An Efficient Algorithm for the Inference of Circuit-Free Automata[A]. Proc NATO Advances in Structure and Syntactic Pattern Recognition[C]. 1988. 173-184.
3R Carrasco, J Oncina. Learning Stochastic Regular Grammars by Means of a State Merging Method[A]. Grammatical Inference and Applications(ICGI'94)[C]. 1994. 139-150.
4Dayne Freitag. Using Grammatical Inference to Improve Precision in Information Extraction[A]. ICML'97 Workshop on Automata Induction, Grammatical Inference, and Language Acquisition[C]. 1997.
5Franck Thollard. Probabilistic DFA Inference Using Kullback-Leibler Divergence and Minimality[A]. Proc of the 17th Int'l Conf on Machine Learning[C]. 2000. 975-982.
6Franck Thollard. Improving Probabilistic Grammatical Inference Core Algorithms with Post-Processing Techniques[A]. Proc of the 18th Int'l Conf on Machine Learning[C]. 2001. 561-568.
7Timothy R Leek. Information Extraction Using Hidden Markov Model:[Master's Thesis][D]. University of California, 1997.

二级参考文献9

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
8金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
9郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2

共引文献10

1李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
2邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
3尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
4尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
5李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
6常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
7金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
8韩雪,张业,朱聪慧.企业经营范围文本自动分类方法探究[J].标准科学,2012(1):93-96. 被引量：1
9霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6
10郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2

同被引文献8

1李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
2邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
3尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
4尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
5李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
6常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
7金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
8郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2

引证文献1

1孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11

二级引证文献11

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
8金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
9韩雪,张业,朱聪慧.企业经营范围文本自动分类方法探究[J].标准科学,2012(1):93-96. 被引量：1
10霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6

1盛立东.关于有限状态文法推断的实用算法[J].北京邮电学院学报,1990,13(3):84-88.
2李志圣,陈永生.上下文无关文法推断中的几条启发规则及其应用[J].计算机工程与科学,2006,28(9):64-66.
3张钊,温巧燕,唐文.协议规范挖掘研究综述[J].计算机工程与应用,2013,49(9):1-9. 被引量：9
4张瑞岭.文法推断研究的历史和现状[J].软件学报,1999,10(8):850-860. 被引量：4
5杨晓琴,鞠时光,曹庆皇,王秀红.面向Deep Web数据自动抽取的模板生成方法[J].计算机应用研究,2010,27(1):200-203. 被引量：3
6邹国华.对XML存取的研究与实现[J].科技广场,2005(12):64-66.
7庄毅,徐海力.半结构化数据与关系数据的比较研究[J].计算机与现代化,2004(1):29-30. 被引量：3
8徐正国,邓月华.未知网络协议逆向分析综述[J].电信技术研究,2015,0(3):47-58.
9潘璠,吴礼发,杜有翔,洪征.协议逆向工程研究进展[J].计算机应用研究,2011,28(8):2801-2806. 被引量：21
10张瑞岭.一个上下文无关文法获取过程的设计和实现[J].软件学报,1998,9(8):601-605. 被引量：6

计算机工程与科学

2005年第8期

浏览历史

内容加载中请稍等...

文法推断与HMM相结合的信息提取被引量：1

参考文献7

二级参考文献9

共引文献10

同被引文献8

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

文法推断与HMM相结合的信息提取 被引量：1

参考文献7

二级参考文献9

共引文献10

同被引文献8

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

文法推断与HMM相结合的信息提取被引量：1