摘要
本文提出一种基于主动学习的Web页面信息抽取方法,可以使用户在标记少量具有代表性的样本页面的情况下,有效地提高信息抽取规则的覆盖性,从而使包装器具有一定的自适应性。
出处
《情报学报》
CSSCI
北大核心
2004年第6期667-671,共5页
Journal of the China Society for Scientific and Technical Information
参考文献7
-
1王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量:21
-
2[2]Sahuguet A,Azavant F. Building intelligent web applications using lightweight wrappers. Data and Knowledge Engineering, 2001,36(3):283~316.
-
3[3]Muslea I, Minton S, Knoblock C. A hierarchical approach to wrapper induction . Proceedings of the Third International Conference on Autonomous Agents,1999,22 1~227.
-
4王庆一,王继成,周源远,袁春风.多信息块Web页面中的抽取规则[J].计算机工程,2003,29(9):42-44. 被引量:6
-
5李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量:101
-
6李晶,陈恩红.Web信息抽取[J].计算机科学,2003,30(6):78-81. 被引量:17
-
7张绍华,薛文玲,李天柱.基于Web的快速信息抽取[J].计算机应用,2001,21(7):18-19. 被引量:12
二级参考文献34
-
1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25.
-
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741.
-
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44.
-
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737.
-
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81.
-
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998.
-
7Hammer J, Garcia-Molina H, Cho J, et al. Extracting Semistructured Information from the Web. Proceedings of file First Workshop on Management of Semistructured Data, 1997-05.
-
8Sahuguet A, Azavant F. Building Light-weight Wrappers for Legacy Web Data-sources Using W4F. International Conference on Very Large Databases (VLDB), 1999.
-
9Soderland S. Learning Information Extraction Rules for Semistructured and FreeText. Machine Learning, 1999.
-
10Kushmerick N, Weld D, Doorenbos B. Wrapper Induction for Information Extraction. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), 1997.
共引文献140
-
1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术(过刊),2007(18):1617-1619. 被引量:1
-
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量:9
-
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
-
4陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量:9
-
5孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报(理学版),2009,41(1):44-47. 被引量:3
-
6李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量:2
-
7李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
-
8姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量:5
-
9刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量:6
-
10贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量:3
同被引文献25
-
1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
-
2张付志.一种基于元搜索引擎的数字图书馆互操作解决方案[J].情报学报,2004,23(4):422-427. 被引量:7
-
3王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量:8
-
4张永军.信息构建(IA)中网络检索系统利用研究[J].情报杂志,2004,23(12):106-107. 被引量:4
-
5李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量:6
-
6许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量:15
-
7陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量:15
-
8刘其云,李中言.信息抽取的功能和实现方法[J].情报杂志,2005,24(5):67-68. 被引量:4
-
9李爱国.“隐形Web”资源的利用[J].图书馆杂志,2006,25(4):14-16. 被引量:4
-
10王翠波,张玉峰,艾丹祥,金燕.基于语义网的信息组织与智能导航研究[J].中国图书馆学报,2006,32(3):32-36. 被引量:11
引证文献5
-
1李中言.基于CISnet的信息抽取分析[J].现代情报,2005,25(12):67-68.
-
2李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量:7
-
3龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量:3
-
4常勇.基于语义结构的Web信息提取技术[J].情报杂志,2007,26(6):65-67.
-
5韩存鸽,燕敏.Web信息抽取方法研究[J].计算机系统应用,2009,18(7):172-174. 被引量:6
二级引证文献16
-
1陈守强,李东.知识元挖掘技术在军事信息处理中的应用[J].情报杂志,2006,25(12):75-76. 被引量:1
-
2王冰.军事情报Web数据挖掘机制[J].情报杂志,2007,26(3):58-60. 被引量:3
-
3仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量:4
-
4郭清宇,赵冬.垂直搜索技术在农村综合信息网站设计中的应用[J].中原工学院学报,2007,18(5):66-68.
-
5肖铮,胡景德,侯宗浩.基于手机的无线搜索技术[J].西南民族大学学报(自然科学版),2007,33(4):968-971.
-
6章立,陈蜀宇.一种针对商品价格进行实时垂直搜索的方法[J].重庆工学院学报(自然科学版),2008,22(10):140-143.
-
7赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报(理学版),2010,48(3):421-426.
-
8王奔.基于标准XML的Web信息高效抽取算法[J].湖北工业大学学报,2010,25(2):63-67.
-
9谭守标,徐超,江元,宁仁霞.Web信息抽取及知识表示系统的研究与实现[J].计算机系统应用,2010,19(9):1-4. 被引量:2
-
10陈红叶.增量式FP_Growth算法及在信息抽取上的应用[J].制造业自动化,2011,33(2):57-59. 被引量:1
-
1龚成清.基于linux的网页抓取器的设计[J].电脑开发与应用,2011,24(2):73-74. 被引量:1
-
2张绍华,徐林昊,杨文柱,薛文玲,李天柱.基于样本实例的Web信息抽取[J].河北大学学报(自然科学版),2001,21(4):431-437. 被引量:19
-
3李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量:2
-
4黄骥,姜利群,殷兆麟.一种新型的基于样本的Web信息检索技术[J].微计算机信息,2009,25(3):238-239. 被引量:5
-
5陈夫桂,胡文江,高永兵,郝斌.基于内容冗余的Web信息抽取[J].中国新技术新产品,2012(6):32-32.
-
6岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
-
7刘荣辉,郑建国,王翔.采用最小DFS的Deep Web结构化数据抽取[J].图书情报工作,2010,54(14):126-130.
-
8刘书华,陈国奎.基于PowerBuilder的网页数据抓取[J].计算机系统应用,2009,18(2):171-175. 被引量:9
-
9马静,倪辉峰.基于模式匹配抽取技术的网上产品情报获取[J].情报理论与实践,2007,30(2):228-231. 被引量:3
-
10刘英群,李娟子,徐鹏,王克宏.基于手持设备能力的页面拆分算法[J].清华大学学报(自然科学版),2005,45(1):65-68. 被引量:1