隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5

Application Research of Hidden Markov Model on Web Information Extraction

下载PDF

导出

摘要研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。 As much information appears on the Internet, Web information extraction became an important means of massive network information processing. It is difficult to effectively extract the Web information. In order to improve and enhance the recall rate and precision rate of massive heterogeneousWeb information, this paper proposes an algorithm based on Hidden Markov Model （HMM） for Web information extraction. The algorithm is applied to pro- cessing rule knowledge for pages to create HTML Tree. And then Shannon entropy is used to locate date fields. Next, the algorithm constructs HMM by Maximum Likelihood. The experimental results show that by processing and applying mass structural information of Web papers with HMM, this method has good performance in Recall and Precision.

作者史西兵王浩鸣

机构地区西安财经学院信息学院

出处《计算机仿真》 CSCD 北大核心 2010年第5期132-135,共4页 Computer Simulation

基金陕西省自然科学基金资助项目(2007F25) 西安财经学院科研基金资助项目(07XCK04) 陕西省教育厅专项科研计划项目(09JK440)

关键词隐马尔可夫模型信息抽取极大似然机器学习 Hidden markov model Web information extraction Maximum likelihood Machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1E Riloff, R Jones. Learning dictionaries for information extraction by multi - level bootstrapping [ C ]. Proceedings of the Sixteenth National Conference on Artilicial Intelligence, Orlando: AAAI Press, 1999. 811 - 816.
2N Kushmerick. Wrapper induction:Efficiency and expressiveness [ J ]. Artificial Intelligence, 2000,118 ( 12 ) : 15 - 68.
3Kristie Seymore, Andrew McCallum, Ronal Rosenfel. Learning hidden Markov model structure for information extraction [ C ]. Proceedings of the AAAI' 99 Workshop on Machine Learning for Information Extraction, Orlando: AAAI Press, 1999.37 - 42.
4Dayne Frietag, Andrew McCallum. Information extraction with HMMs and shrinkage [ C ]. Proceedings of the AAAI' 99 Workshop on Machine Learning for Information Extraction, Orlando: AAAI Press, 1999.31 - 36.
5Lawrence E Rabiner. A tutorial on hidden Markov models and selected application in speech recognition [ C ]. Proceedings of the IEEE, 1989,77(2) :257 -286.

同被引文献30

1康亚博,许昆,沈玉龙,马建峰.无线异构网络中的切换预测算法[J].通信学报,2009,30(S1):63-67. 被引量：8
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
4徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：123
5梁立涛,纪阳,张平.基于模糊层次分析法的异构系统网络选择算法[J].北京邮电大学学报,2007,30(2):71-75. 被引量：34
6胡乃静,赵亮,胡金化.基于Petri网的工作流结构正确性化简验证方法[J].小型微型计算机系统,2007,28(6):1076-1079. 被引量：8
7B. Tsou, et al. Polarity Classification of Celebrity Coverage in the Chinese Press [A]. In: Proceedings of the International Conference on Intelligence Analysis [C]. McLean, USA: 2005.
8宋光鹏.文本的情感倾向性分析研究[M].北京:北京邮电大学,2008.
9M.Hu and B.Liu.Mining and Summarizing Customer Reviews.InProceedings of the ACM SIGKDD International Conference on Knowledge Discovery&Data Mining[C].Seattle,Washington,USA,Aug.
10Ying Han, Fang Li, KeBin Liu et ol. Template Based Chinese News Event Summarization [C]//. The proceeding of 2nd International Conference on Semantics Knowledge and Grid(SKG'06), 2006: 53-54.

引证文献5

1陈发鸿.基于核方法的文本极性分类研究[J].海峡科学,2011(8):17-21.
2徐晓峰,郑连清.马尔科夫模型在异构无线网络选择中的应用[J].计算机仿真,2011,28(11):134-137. 被引量：3
3赵玺.基于海量冗余网页过滤的Web挖掘技术研究[J].科技通报,2013,29(4):21-22. 被引量：2
4高觐悦.一种基于随机网格简化的Web可靠性分析方法研究[J].科技通报,2013,29(4):67-69. 被引量：2
5彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4

二级引证文献11

1张晓伟.异构无线网络中的需求选择[J].山东电力高等专科学校学报,2013,16(2):34-36.
2陈照吉,李洁冰.基于洪泛错误融合思想的网络通信链路修补[J].科技通报,2013,29(10):159-161.
3汤奕,赵琳,宋卓然,唐良瑞.基于马尔可夫模型的配电异构无线网络选择算法[J].现代电力,2013,30(6):84-87. 被引量：4
4张继荣,苗国防,王文斌.异构无线网络TOPSIS算法的一种改进[J].西安邮电大学学报,2014,19(2):26-29. 被引量：3
5薛明,许德刚.基于云网格集成调度的防拥堵车辆路径规划算法[J].计算机科学,2015,42(7):295-299. 被引量：20
6韩丽屏.基于Web挖掘的教学资源信息智能分析方法研究[J].无线互联科技,2018,15(3):77-79. 被引量：1
7张建安.基于移动切换认证的分层异构网络中的用户敏感信息隐藏方法[J].计算机科学,2019,46(3):217-220. 被引量：4
8段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
9武时龙.海量异构电子商务信息的集成算法研究[J].滁州学院学报,2019,21(5):71-74.
10王玉贤.基于经典算法的大数据网络流量资源挖掘模型构建[J].自动化与仪器仪表,2021(9):152-155.

1丁文博.网络信息处理与安全方面的计算机应用[J].信息与电脑（理论版）,2015(9):87-88. 被引量：4
2邹腊梅,肖基毅,龚向坚.基于Maximum Likelihood与HMM的文本挖掘[J].计算机技术与发展,2007,17(12):110-112. 被引量：1
3小抄速记[J].电脑爱好者,2009(11):45-45.
4理光三度蝉联领导者称号[J].金融科技时代,2013,21(8):8-8.
5宋鑫莹,赵铁军.网络信息抽取技术分析与比较[J].智能计算机与应用,2013,3(5):24-27. 被引量：3
6宋文文,张婷,李松.浅谈教学无线网的管理[J].中国成人教育,2014(21):50-51.
7程学旗,郭嘉丰,靳小龙.网络信息的检索与挖掘回顾[J].中文信息学报,2011,25(6):111-117. 被引量：18
8祁永庆,敬忠良,胡士强.Modified maximum likelihood registration based on information fusion[J].Chinese Optics Letters,2007,5(11):639-641. 被引量：1
9施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量：5
10富士施乐研发重心向中国转移[J].今日印刷,2012(5):4-4.

计算机仿真

2010年第5期

浏览历史

内容加载中请稍等...

隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5

参考文献5

同被引文献30

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

隐马尔可夫模型解决信息抽取问题的仿真研究 被引量：5

参考文献5

同被引文献30

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5