基于广义隐马尔可夫模型的网页信息抽取方法被引量：3

Web information extraction based on a generalized hidden Markov model

下载PDF

导出

摘要针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。 Since web pages are based on the web-specific layout structure feature, instead of using the transitional sequential state transition order, a new state transition order was proposed by using a vision based page segmentation algorithm （VIPS）. In addit- ion, the supposed state transition and the emission symbol conditions were improved by using the second-order Markov chain, and then a novel generalized hidden Markov model （GHMM） was proposed based on the improvement. Finally,through an example, it shows that the modified GHMM has a very high precision for web information extraction.

作者王静姚勇刘志镜

机构地区西安电子科技大学计算机学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2007年第11期49-52,共4页 Journal of Shandong University(Natural Science)

基金国家自然科学基金资助项目(60573139)

关键词基于视觉的网页分割广义隐马尔可夫模型二阶Markov链 WEB信息抽取 vision based page segmentation（VIPS） generalized hidden Markov model （GHMM） second-order Markov chain Web information extraction（IE）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：50
2王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
3赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
4CAI D, YU S, WEN J, et al. VIPS: a vision based page segmentation algorithm. Microsoft Technical Report[ R]. Beijing: Miciosoft Research Asia, 2003.
5CHEN Jinlin, Ping Zhong, Terry Cook. Detecting Web content function using generalized hidden Markov model[ C]// IEEE Proceedings of the 5^th International Conference on Machine Learning and Applications. Orlando, Florida: IEEE, 2006: 14- 16.
6FORNEY D. The viterbi algorithm[J]. Proc IEEE, 1973, 61(3) :268-278.

二级参考文献30

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
5钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
6[1]A. McCallum, K. Nigam, J. Rennie, and K. Seymore. A machine learning approach to building Domain-Specific Search Engines [A]. In Proceedings of IJCAI-99 [C]. 622-667.
7[2]Ellien Riloff. Automatically Constructing a Dictionary for Information Extraction Task [A]. Proceeding for the Eleventh National Conference on Artificial Intelligence [C]. 1993. 811-816.
8[3]E. Riloff , R. Jones. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [A]. Proceedings of the Sixteenth National Conference on Artificial Intelligence [C]. 1999. 811-816.
9[4]S. Soderland. Learning information extraction rules for semi-structured and free text [J]. Machine Learning, 1999, 1-44.
10[5]Kushmerick, N. Wrapper induction: efficiency and Expressiveness [J]. Artificial Intelligence,2000, Vol. 118, pp. 15--68.

共引文献82

1王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
2王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
3顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
4聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.
5郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
6于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
7周顺先,林亚平,王耀南,易叶青.基于聚簇隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2007,19(21):4926-4931. 被引量：2
8于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：11
9于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量：14
10周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25

同被引文献28

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吕昱,程代杰.基于隐马尔可夫模型的符号序列自组织聚类[J].计算机科学,2006,33(8):210-212. 被引量：3
5王辉,刘淑芬.一种可扩展的内部威胁预测模型[J].计算机学报,2006,29(8):1346-1355. 被引量：22
6郭浩,欧宗瑛.基于隐马尔可夫模型的指纹分类研究[J].小型微型计算机系统,2006,27(9):1718-1721. 被引量：2
7张茂元,张金隆,卢正鼎,邹春燕.基于特征相关学习的网页信息提取方法[J].华中科技大学学报（自然科学版）,2007,35(7):1-4. 被引量：2
8于江德,肖新峰,樊孝忠.基于隐马尔可夫模型的中文文本事件信息抽取[J].微电子学与计算机,2007,24(10):92-94. 被引量：17
9殷贤亮,李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报（自然科学版）,2007,35(10):39-41. 被引量：6
10蒲宇达,关毅,王强.基于数据挖掘思想的网页正文抽取方法的研究[A]第三届学生计算语言学研讨会论文集,2006.

引证文献3

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2黄铁,张奋.基于隐马尔可夫模型的内部威胁检测方法[J].计算机工程与设计,2010,31(5):965-968. 被引量：9
3李文昊,彭红超,童名文,石俊杰.基于视觉特征的网页最优分割算法[J].计算机科学,2015,42(11):284-287. 被引量：3

二级引证文献22

1顾韵华,李佩,谢刚.一种基于文本样式的Web主题信息提取方法研究[J].计算机与数字工程,2009,37(11):17-20.
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3陈涛,冯平,朱多刚.基于威胁分析的电子政务信息安全风险评估模型研究[J].情报杂志,2011,30(8):94-99. 被引量：11
4周合明,奚建清.基于模板的Web信息提取系统的设计与实现[J].计算机技术与发展,2011,21(11):105-108. 被引量：5
5来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
6李战明,宋丙菊.改进Hu矩的ATM机异常行为识别研究[J].计算机与现代化,2012(4):188-191. 被引量：1
7李军,陈君,王玲芳,倪宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究,2013,30(3):844-847. 被引量：3
8刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4
9胡海峰,周改云,刘云霞.基于过往入侵特征分析潜在网络威胁检测仿真[J].计算机仿真,2016,33(2):322-325. 被引量：16
10郭晓明,孙丹.基于朴素贝叶斯理论的内部威胁检测方法[J].计算机与现代化,2017(7):101-106. 被引量：4

1李伟男,李书琴,景旭,魏露,李新乐.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014,35(4):1264-1268. 被引量：7
2陈海洋,高晓光,梅军峰.广义隐马尔可夫模型的快速前向后向算法[J].系统工程与电子技术,2012,34(10):2175-2179. 被引量：1
3章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
4安全[J].网管员世界,2011(21):10-10.
5李文昊,彭红超,童名文,石俊杰.基于视觉特征的网页最优分割算法[J].计算机科学,2015,42(11):284-287. 被引量：3
6章铭,陆菊康.基于隐式马尔可夫链的基因发现模型和算法[J].计算机工程,2003,29(17):122-123.
7林惠珍,杨晨晖,李翠华,陈希友.基于Markov链和关联规则的Web访问预测模型[J].厦门大学学报（自然科学版）,2010,49(4):476-481. 被引量：1
8王孟頔,邰泳.基于VIPS的职位信息抽取技术研究[J].软件导刊,2015,14(9):22-24. 被引量：1
9李卫东,唐国华.基于网页分块思想的PageRank算法研究与优化[J].科技经济市场,2011(5):7-9.
10张昕,鄂海红,宋美娜,杨俊.基于视觉特征的就业信息页面抽取方法[J].软件,2014,35(9):16-20. 被引量：2

山东大学学报（理学版）

2007年第11期

浏览历史

内容加载中请稍等...

基于广义隐马尔可夫模型的网页信息抽取方法被引量：3

参考文献6

二级参考文献30

共引文献82

同被引文献28

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于广义隐马尔可夫模型的网页信息抽取方法 被引量：3

参考文献6

二级参考文献30

共引文献82

同被引文献28

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于广义隐马尔可夫模型的网页信息抽取方法被引量：3