基于语料的Web页面抽取器的研究与实现被引量：4

Research and Implementation of Web Page Extrator Based on Corpus

下载PDF

导出

摘要主要介绍了面对万维网上各种各样的诸如文本、声音、图形和图像等语料信息，如何按照用户的实际需求将其中对用户有用的信息抽取出来，从而实现对现有语料信息的一种有效分离。重点介绍了Web信息簇聚性的特点和语料库的设计，以及语料库的实际工作原理。 This thesis mainly discusses how to extract the useful information of corpus according to the user's actual requirement from the World Wide Web where there are all kinds of information of corpus such as text,sound,image and picture,etc.By using this method,people can realize the useful extraction from the current existing information of corpus. It emphases the fascination specialty of information in the World Wide Web and the actual working principle of the database of corpus.

作者陆剑江钱培德

机构地区东南大学计算机科学与工程系

出处《计算机工程》 CAS CSCD 北大核心 2003年第6期34-35,152,共3页 Computer Engineering

关键词 Web页面抽取器万维网信息抽取语料库 Web；Corpus；HTML；XML

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Char1esFG Pau1P 张利译.XML实用技术[M].北京：清华大学出版社,1999..

同被引文献20

1李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
2王亮,朱征宇.基于扩展标记图的Web信息抽取器[J].计算机工程,2005,31(8):159-161. 被引量：2
3贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
4陈华,梁循,杨健.面向专题的智能化中文搜索引擎[J].广西师范大学学报（自然科学版）,2007,25(2):103-106. 被引量：2
5Cohen W, Hurst M, Jensen L. A flexible learning system for wrapping tables and lists in HTML documents [ C ]//Proceedings of the Eleventh International World Wide Web Conference. 2002:232-241.
6Blei D, Bagnell J, McCal-lumA. Learning with scope, with application to information extraction and classification[ C ]// Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intellig-ence. 2002:53-60.
7Wong T L,Lam W. A probabilistic approach for adapting wrapper and discovering new attributes [ C ]// Proceedings of the Fourth IEEE International Conference on Data Mining. 2004:257-264.
8Crescenzi V, Mecca G, Merialdo P. ROADRUNNER: Towards automatic data extraction from large Web sites [ C ]// Proceedings of the 27th Very Large Databases Conference. 2001:317-328.
9Laender H F, Ribeim-Neto B A, da Silva A S, et al. A brief survey of Web data extraction tools[ J]. SIGMOD Record,2002,31 (2) : 84-93.
10何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007,33(21):207-209. 被引量：13

引证文献4

1胡国晴,李建华.一种自动抽取Web信息方法的设计与实现[J].计算机与现代化,2009(1):38-40. 被引量：3
2殷妮哿.Internet中的多媒体快速查询[J].电脑开发与应用,2009,22(9):30-32.
3黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
4李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4

二级引证文献12

1石俊萍,李必云.基于用户自定义结构的电子档案管理系统设计与实现[J].计算机与现代化,2010(2):127-129. 被引量：7
2韩晓娟,许南山.化学和化工深层网信息挖掘技术的研究与应用[J].微计算机信息,2010,26(9):151-153.
3焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.
4张江涛,杜永萍.基于语义链的检索在QA系统中的应用[J].计算机科学,2013,40(2):257-260. 被引量：6
5蒋亚平,赵军伟,田月霞.IBM算法及其在Snort系统下的实现[J].郑州大学学报（理学版）,2014,46(2):50-54.
6孙想,李庆学,吴华瑞,王一红,刘艳平.基于信息资源聚合的农民专业合作社信息系统[J].计算机工程与设计,2014,35(10):3697-3700. 被引量：2
7颜春华.电子档案管理系统设计及其功能实现[J].中国电子商务,2014,0(21):59-59. 被引量：4
8李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用,2016(9):56-56. 被引量：3
9毛鑫,张小龙,周颖.桌面终端安全管理指标集中监测工具的设计与实现[J].电力信息与通信技术,2018,16(1):56-60.
10何卓桁,刘志勇,李璐,李长明,张琳.异构文本数据转换中XML解析方法对比研究[J].计算机工程,2020,46(7):286-293. 被引量：10

1才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
2李江华,时鹏,郑剑.一种基于语料的本体评价方法[J].情报杂志,2012,31(7):187-190. 被引量：5
3黄笑生,刘陈.WSN中层次性簇聚路由选择算法中的一种优化策略[J].电脑知识与技术,2009,5(1):146-148.
4郑家恒,杜永萍,刘昌钰.基于语料的动态获取专业词汇方法初探[J].计算机工程,2002,28(5):64-66. 被引量：4
5程军锋.基于人工蜂群算法的数据流聚类研究[J].首都师范大学学报（自然科学版）,2015,36(6):24-29. 被引量：1
6李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
7祝衍军.基于动态规划的云计算虚拟机簇聚类方法[J].图学学报,2015,36(6):955-959.
8应志伟,柴佩琪,陈其晖.文语转换系统中基于语料的汉语自动分词研究[J].计算机应用,2000,20(2):8-11. 被引量：8
9曾依灵,许洪波,吴高巍,白硕.一种基于语料特性的聚类算法[J].软件学报,2010,21(11):2802-2813. 被引量：8
10张太华,李子毕.基于信息系统的零件簇聚类数确定方法[J].机械设计与制造,2008(4):189-190.

计算机工程

2003年第6期

浏览历史

内容加载中请稍等...

基于语料的Web页面抽取器的研究与实现被引量：4

参考文献1

同被引文献20

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语料的Web页面抽取器的研究与实现 被引量：4

参考文献1

同被引文献20

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语料的Web页面抽取器的研究与实现被引量：4