基于条件随机域的Web信息抽取被引量：2

Web information extraction based on conditional random fields

下载PDF

导出

摘要为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。 In order to obtain the information hidden in the lnternet, a method based on conditional random Fields （CRF） is presented to extract web information. With this method, each line of the web documents is labeled to determine the features of the web text and then Quasi-Newton method is employed to train the web text on the basis of the CRF. According to the conditional probability model acquired from the training web documents, web search results are extracted by the proposed method. In contrast to HMM, CRF supports the use of language features of the web documents, SO it performs better in precision. Experimental results show that the precision of using CRF reaches more than 90%, which is better than that of HMM.

作者史庆伟赵政鲍虎

机构地区天津大学计算机科学与技术学院

出处《辽宁工程技术大学学报（自然科学版）》 EI CAS 北大核心 2007年第4期570-572,共3页 Journal of Liaoning Technical University (Natural Science)

基金天津市科技发展计划基金资助项目(07JCZDJC067007)

关键词条件随机域信息抽取网页文档拟牛顿法 conditional random fields information extraction Web documents Quasi-Newton method

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
2LR.Rabincr.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
3Freitag D A.McCallum Information extraction with HMMs structures learned by stochastic optimization[C]//Proceedings of the Eighteenth Conference on Artificial intelligence.Edmonton:AAAI Press,2002:584-589.
4Seymore K,McCallum A.Rosenfel Learning hidden Markov model structure for information extraction[C]//Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction.Orlando:AAAI Press.1999:37-42.
5MeCallum A,Freitag D,Pereira F.Maximum entropy Markov model for information extraction and segmentation.Proceeding of ICML[C]//.San Francisco:Morgan Kaofmann,2000:591-598.
6Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistie models for segmenting and labeling sequence data.Proceedings of ICML[C]//San Francisco:Morgan Kaufmann,2001:282-289.
7袁亚湘.非线型规划数值方法[M].上海:上海科学技术出版社,1993.

二级参考文献7

1郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
2Karypis G,Han EH,Kumar V.Chameleon:hierarchical clustering using dynamic modeling[J].Computer,1999(32):68-75.
3Krishnapuram R,Kummamuru K.Automatic taxonomy generation:Issues and possibilities[J].LNCS:In:Proceedings of Fuzzy Sets and Systems (IFSA),Springer-Verlag Heidelberg,2003,27(15):52-63.
4Sanderson M,Croft W B.Deriving concept hierarchies from text[C]//Proceedings of SIGIR,1999::206-213.
5Lawrie D,Croft W B,Rosenberg A.Finding topic words for hierarchical summarization[C]//Proceedings ofSIGIR,2001:349-357.
6HJ Zeng,QC He,Z Chen,WY Ma,J Ma.Learning to Cluster Web Search Results[C]//Proceedings of SIGIR,2004:210-217.
7Zamir O,Etzioni O.Web document clustering:A feasibility demonstration[C]//Proceedings of SIGIR,1998:46-54.

共引文献10

1雷艺学,曾志民,田洪现.IEEE 802.16e协议调度服务性能模拟研究[J].辽宁工程技术大学学报（自然科学版）,2007,26(5):744-747.
2史庆伟,赵政,鲍虎.基于全置信度关联分析的web层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2007,26(6):892-894. 被引量：2
3史庆伟,王新海.类Gnutella网络文本检索研究[J].计算机工程,2010,36(6):61-63.
4史庆伟,许光全,王新海.结构化P2P网络文本检索研究[J].计算机工程,2010,36(12):43-45. 被引量：2
5吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：3
6刘亚明,马力,舒惠.基于后缀树的文本聚类算法[J].西安邮电学院学报,2012,17(1):62-66. 被引量：4
7吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
8邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
9唐守忠,齐建东.一种结合关键词与共现词对的向量空间模型[J].计算机工程与科学,2014,36(5):971-976. 被引量：4
10武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9

同被引文献11

1冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
2童庆,郑浩然,宁岩,王煦法.基于统计组合与CpG含量分类的基因预测算法[J].北京生物医学工程,2007,26(2):178-181. 被引量：2
3于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：11
4Lafferty J,McCallum A,Pereira F.Conditional random fields: probabilistic models for segmenting and labeling sequence data. Proceedings of the Eighteenth International Conference on Machine Learning . 2001
5Bagga, Amit,and Baldwin, Breck."Entity-Based Cross-Document Coreferencing Using the Vector Space Model,". Proceedings of the 36th Annual Meeting of ACL and the 17th International c-onference on Computational Linguistics . 1998
6Kautz, H,Selman, B,Shah,M."Referral Web:Combining Social Networks and Collaborative Filtering". Communications of the ACM . 1997
7孙广路,王晓龙,郎非,刘远超.条件随机域模型及在语言分析系统中的应用[J].电机与控制学报,2008,12(1):113-116. 被引量：1
8石鸥燕,杨晶,田心.基于MATLAB的隐马尔可夫模型识别CpG岛[J].计算机应用与软件,2008,25(11):214-215. 被引量：3
9王金龙,苏建忠,王芳,崔颖,张岩.基于模糊理论预测CpG岛新方法[J].生物信息学,2009,7(2):91-94. 被引量：1
10蒋红敬,张振力.基于HMM的CpG岛位置判别[J].数学理论与应用,2009,29(2):113-116. 被引量：1

引证文献2

1刘维,陈崚.一种新的CpG岛的位置识别算法[J].小型微型计算机系统,2012,33(7):1557-1563. 被引量：1
2李刚,史向东.基于Google搜索结果的重名消解方法[J].信息与电脑（理论版）,2011(2):125-126. 被引量：1

二级引证文献2

1柯昊,李天,周悦,钟玉颖,俞征鹿,袁军鹏.数据缺失时基于BP神经网络的作者重名辨识研究[J].情报学报,2018,37(6):600-609. 被引量：7
2李梦琪,黄岚,翟光超,翟文豪,吴环.CpG岛识别算法综述[J].软件导刊,2018,17(6):5-7.

1武帅.基于条件随机域模型的事实信息抽取方法应用[J].现代图书情报技术,2010(10):59-64.
2戈新生,张奇志,刘延柱.基于遗传算法的空间机械臂运动规划的最优控制[J].空间科学学报,2000,20(2):185-191. 被引量：53
3张海军,冯冲,史树敏,黄河燕.一种应用组合特征的中文未登录词词性猜测研究[J].小型微型计算机系统,2010,31(7):1402-1406. 被引量：4
4张坤,刘妍,王达.针对最大熵模型和条件随机域模型的研究[J].黑龙江科技信息,2007(12X):31-31.
5何小娟,曾建潮,王丽芳.一种基于信息传递的分布估计算法[J].电子学报,2011,39(4):967-970. 被引量：4
6孙广路,王晓龙,郎非,刘远超.条件随机域模型及在语言分析系统中的应用[J].电机与控制学报,2008,12(1):113-116. 被引量：1
7刘青,李陶深,黄汝维.云计算环境中基于策略的多用户全同态加密方法[J].广西大学学报（自然科学版）,2016,41(3):786-795. 被引量：5
8蒋志鹏,关毅,董喜双.基于多层协同纠错的中文层次句法分析[J].中文信息学报,2014,28(4):29-36. 被引量：3
9张海军,史树敏,丁溪源,黄河燕.基于分词提取重复串的未登录词遗漏量化模型[J].中文信息学报,2011,25(2):122-128. 被引量：5
10于洁潇,刘开华,史伟光.基于RFID的高速公路车辆测速及定位方法[J].计算机工程,2010,36(24):1-3. 被引量：9

辽宁工程技术大学学报（自然科学版）

2007年第4期

浏览历史

内容加载中请稍等...

基于条件随机域的Web信息抽取被引量：2

参考文献7

二级参考文献7

共引文献10

同被引文献11

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的Web信息抽取 被引量：2

参考文献7

二级参考文献7

共引文献10

同被引文献11

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的Web信息抽取被引量：2