基于隐马尔可夫模型的Web信息抽取被引量：6

Web Information Extraction Based on Hidden Markov Model

下载PDF

导出

摘要针对Web信息抽取领域中存在的"项缺失"和"项无序"问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。 To solve disorder among information items and lack of information item in the field of information extraction, this paper proposes a Web information extraction algorithm based on Hidden Markov ModeI（HMM）. It parses a Web document into an extended DOM tree, and maps an information item to a state with mapping a path in extended DOM tree about an information item to a vocable. An HMM model is obtained by using induction algorithm. Experiments show that the algorithm has better extraction performance.

作者刘亚清陈荣

机构地区大连海事大学信息科学技术学院

出处《计算机工程》 CAS CSCD 北大核心 2009年第18期25-27,共3页 Computer Engineering

基金国家自然科学基金资助项目(60775028) 大连市科技局基金资助重大项目(2007A14GX042)

关键词信息抽取隐马尔可夫模型扩展DOM树 information extraction Hidden Markov ModeI（HMM） extended DOM tree

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Laender A, Ribeiro-Neto B, Silva A, et el. A Brief Survey of Web Data Extraction Tools[J]. ACM SIGMOD Record, 2002, 31(2): 84-93.
2Hammer J, McHugh J, Garcia-Molina H. Semi-structured Data: The TSIMMIS Experience[C]//Proceedings of the 1st East-European Symposium on Advances in Databases and Information Systems. St. Petersburg, Russia: [s. n], 1997.
3Crescenzi V, MeccaG, MerialdoE RoadRunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of 27th Int'l Conference on Very Large Databases. San Francisco, USA: [s, n.], 2001.
4Muslea I, Minton S, Knoblock C. Hierarchical Wrapper Induction for Semi-structured Information Sources[J]. Autonomous Agents and Multi-Agent Systems, 2001,4(1/2): 93-114.
5Soderland S. Learning Information Extraction Rules for Semistructured and Free Text[J]. Machine Learning, 1999, 34(1-3): 233-272.

同被引文献75

1李珀瀚,何震瀛,向河林.一种基于链接聚类的查询扩展算法[J].计算机研究与发展,2011,48(S3):197-204. 被引量：2
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
3Gai-TaiHuang,Hsiu-HsenYao.Chinese Question-Answering System[J].Journal of Computer Science & Technology,2004,19(4):479-488. 被引量：2
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
6王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
7李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
8文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
9卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
10史亮,王备战,姚俊峰.基于入侵意图的报警信息关联分析技术[J].计算机工程,2006,32(14):130-132. 被引量：3

引证文献6

1周晶.基于条件随机域模型的中文实体关系抽取[J].计算机工程,2010,36(24):192-194. 被引量：2
2吴庆涛,王琦璟,郑瑞娟.基于动态贝叶斯网络的入侵意图识别方法[J].计算机工程,2011,37(8):127-129. 被引量：7
3孙容容,刘椿年.全过程动画自动生成中的中文文本处理[J].计算机工程,2012,38(1):185-187.
4高丽峰,高丽萍,李梦颖.一种对移动Web访问日志中层次数据的提取方法[J].现代计算机,2015,21(8):47-53.
5张宁,朱礼军.中文问答系统问句分析研究综述[J].情报工程,2016,2(1):32-42. 被引量：12
6林游龙.基于隐马尔可夫模型的分词算法的设计与实现[J].网络安全技术与应用,2022(8):27-29. 被引量：4

二级引证文献25

1李晓毅,徐兆棣.一种增量式贝叶斯分类的算法[J].沈阳农业大学学报,2011,42(3):349-353. 被引量：1
2孙娜,张桂玲,鄂明杰.基于模糊小波神经网络的主机入侵预测[J].计算机工程,2012,38(8):89-91. 被引量：2
3魏德志,洪联系,林丽娜,王奇光.一种基于HGA和数据挖掘的AMG模型[J].计算机工程,2012,38(7):99-101. 被引量：1
4李燕,曹宝香,马兆丰,杨义先,钮心忻.关联分析算法在安全管理平台中的研究与应用[J].计算机技术与发展,2013,23(10):107-110. 被引量：3
5葛顺,夏学知.一种基于概率影响分析的智能决策模型[J].计算机工程,2016,42(6):213-217. 被引量：5
6乔霈,王素格,陈鑫,谭红叶,陈千,王元龙.基于词语关联的散文阅读理解问题答案获取方法[J].中文信息学报,2018,32(3):135-142. 被引量：4
7贺佳,杜建强,聂斌,熊旺平,罗计根.智能问答系统在医学领域的应用研究[J].医学信息,2018,31(14):16-19. 被引量：4
8孙泽健,司光亚,刘洋.面向兵棋演习的问答系统问句分类模型研究[J].计算机与数字工程,2019,47(2):308-313. 被引量：4
9黄龙,王春东.网络攻击意图识别技术研究[J].天津理工大学学报,2020,36(2):16-20. 被引量：4
10张志昌,周侗,张瑞芳,张敏钰.融合双向GRU与注意力机制的医疗实体关系识别[J].计算机工程,2020,46(6):296-302. 被引量：11

1刘必广.基于扩展DOM树的XML SCHEMA文档转换为数据库模式算法[J].武夷学院学报,2011,30(2):56-60.
2王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
3陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
4王超,徐杰锋.基于CURE算法的网页分块及正文块提取研究[J].微型机与应用,2012,31(12):11-14. 被引量：1
5孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3
6王政军,董晓梅,俞小怡,金玉玲.图书馆智能化研修间系统的设计与实现[J].现代情报,2016,36(8):79-83. 被引量：5
7王峰.信息网格虚拟社区模型的全生命周[J].电脑知识与技术,2006(7):97-97.
8宋妍,朱爽.基于NTP的网络时间服务系统的研究[J].计算机工程与应用,2003,39(36):147-149. 被引量：34
9邓箴.基于二维关联边条件随机场的Web信息抽取[J].价值工程,2010,29(34):186-186.
10丁欢.基于ZigBee的机场无线智能网络系统构建[J].机械设计与制造工程,2016,45(8):51-53.

计算机工程

2009年第18期

浏览历史

内容加载中请稍等...

基于隐马尔可夫模型的Web信息抽取被引量：6

参考文献5

同被引文献75

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫模型的Web信息抽取 被引量：6

参考文献5

同被引文献75

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫模型的Web信息抽取被引量：6