一种新的Web信息抽取方法研究
摘要
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基干DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。
出处
《科技资讯》
2007年第35期80-81,共2页
Science & Technology Information
参考文献4
-
1王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量:21
-
2[2]Thierry Poibear.Mixing Technologies for Intelligent Information Extraction[J].IJCAI-99,Stockholm,Sweden,August1999.
-
3杨文柱,徐林昊,陈少飞,郝亚南,李天柱.基于XPath的Web信息抽取的设计与实现[J].计算机工程,2003,29(16):82-83. 被引量:6
-
4王庆一,王继成,周源远,袁春风.多信息块Web页面中的抽取规则[J].计算机工程,2003,29(9):42-44. 被引量:6
二级参考文献19
-
1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25.
-
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741.
-
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44.
-
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737.
-
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81.
-
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998.
-
7Hammer J, Garcia-Molina H, Cho J, et al. Extracting Semistructured Information from the Web. Proceedings of file First Workshop on Management of Semistructured Data, 1997-05.
-
8Sahuguet A, Azavant F. Building Light-weight Wrappers for Legacy Web Data-sources Using W4F. International Conference on Very Large Databases (VLDB), 1999.
-
9Soderland S. Learning Information Extraction Rules for Semistructured and FreeText. Machine Learning, 1999.
-
10Kushmerick N, Weld D, Doorenbos B. Wrapper Induction for Information Extraction. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), 1997.
共引文献29
-
1李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量:2
-
2姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量:5
-
3刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量:6
-
4贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量:3
-
5张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量:5
-
6侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量:2
-
7柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量:6
-
8贺令亚,柳佳刚.基于Web的包装器技术的现状与发展[J].电脑开发与应用,2007,20(6):27-29. 被引量:6
-
9仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量:4
-
10傅魁,聂规划.面向电子交易的商品供应信息抽取模型[J].武汉理工大学学报(信息与管理工程版),2007,29(7):96-99. 被引量:1
-
1周春光,张冰,梁艳春,胡成全,常迪.模糊神经网络及其在时间序列分析中的应用[J].软件学报,1999,10(12):1304-1309. 被引量:5
-
2姚李孝,姚金雄,李宝庆,万诗新.基于竞争分类的神经网络短期电力负荷预测[J].电网技术,2004,28(10):45-48. 被引量:23
-
3李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量:7
-
4董旻,方曙.Deep Web信息抽取研究[J].图书情报工作,2007,51(10):25-28. 被引量:5
-
5李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量:2
-
6尚晋,施成湘.小波多尺度模糊竞争边缘检测[J].计算机科学,2005,32(7):182-184. 被引量:2
-
7万静,涂喆,冯晓.基于条件随机场的医药领域症状信息抽取[J].北京化工大学学报(自然科学版),2016,43(1):98-103. 被引量:11
-
8丁茂良.开发引入竞争[J].软件世界,2007(7):72-72.
-
9李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量:6
-
10于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量:14