期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
网页正文信息抽取新方法 被引量:20
1
作者 宋明秋 张瑞雪 +1 位作者 吴新涛 李文立 《大连理工大学学报》 EI CAS CSCD 北大核心 2009年第4期594-597,共4页
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结... 基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性. 展开更多
关键词 包装器 html树 网页信息提取
下载PDF
网页正文信息抽取新方法 被引量:4
2
作者 史瑞芳 《通讯世界》 2015年第10期210-211,共2页
随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种... 随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种特定的信息资源,并且对网页的依懒性较强,因此,在此提出一种将标点符号与HTML树结构相结合,作为网页识别正文内容的分析方法。其后通过对标点符号进行数据统计从而确定部分的正文信息,再根据正文信息的结构来确定其他信息内容。经此实验该提取方法能够有效的提取网页正文并屏蔽网页噪音。而且其普及性和准确性都比较高,在此本文将对网页正文提取信息进行探索。 展开更多
关键词 网页正文 信息抽取 html树 方法
下载PDF
基于XML的互联网航空数据抓取的研究与实现
3
作者 张淑娟 《电子制作》 2013年第22期126-126,共1页
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法... 随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。 展开更多
关键词 Web数据抓取 XML html结构 JSP技术
下载PDF
搜索引擎返回结果自动抽取
4
作者 藕军 任明仑 《现代图书情报技术》 CSSCI 北大核心 2007年第2期49-52,共4页
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链... 提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。 展开更多
关键词 搜索引擎 WEB信息抽取 包装器生成 html标签 节点相似度
下载PDF
基于智能的网页信息提取系统的研究与设计 被引量:7
5
作者 刘亚东 彭舰 张达平 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期957-962,共6页
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人... 随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息. 展开更多
关键词 智能 WEB信息提取 RoadRunner html结构
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部