期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
网页正文信息抽取新方法
被引量:
20
1
作者
宋明秋
张瑞雪
+1 位作者
吴新涛
李文立
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009年第4期594-597,共4页
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结...
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
展开更多
关键词
包装器
html树
网页信息提取
下载PDF
职称材料
网页正文信息抽取新方法
被引量:
4
2
作者
史瑞芳
《通讯世界》
2015年第10期210-211,共2页
随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种...
随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种特定的信息资源,并且对网页的依懒性较强,因此,在此提出一种将标点符号与HTML树结构相结合,作为网页识别正文内容的分析方法。其后通过对标点符号进行数据统计从而确定部分的正文信息,再根据正文信息的结构来确定其他信息内容。经此实验该提取方法能够有效的提取网页正文并屏蔽网页噪音。而且其普及性和准确性都比较高,在此本文将对网页正文提取信息进行探索。
展开更多
关键词
网页正文
信息抽取
html树
方法
下载PDF
职称材料
基于XML的互联网航空数据抓取的研究与实现
3
作者
张淑娟
《电子制作》
2013年第22期126-126,共1页
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法...
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。
展开更多
关键词
Web数据抓取
XML
html
结构
树
JSP技术
下载PDF
职称材料
搜索引擎返回结果自动抽取
4
作者
藕军
任明仑
《现代图书情报技术》
CSSCI
北大核心
2007年第2期49-52,共4页
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链...
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。
展开更多
关键词
搜索引擎
WEB信息抽取
包装器生成
html
标签
树
节点相似度
下载PDF
职称材料
基于智能的网页信息提取系统的研究与设计
被引量:
7
5
作者
刘亚东
彭舰
张达平
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009年第4期957-962,共6页
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人...
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息.
展开更多
关键词
智能
WEB信息提取
RoadRunner
html
结构
树
原文传递
题名
网页正文信息抽取新方法
被引量:
20
1
作者
宋明秋
张瑞雪
吴新涛
李文立
机构
大连理工大学系统工程研究所
出处
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009年第4期594-597,共4页
基金
国家自然科学基金资助项目(70671016)
文摘
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
关键词
包装器
html树
网页信息提取
Keywords
wrapper
html
tree
web information extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页正文信息抽取新方法
被引量:
4
2
作者
史瑞芳
机构
山西传媒学院
出处
《通讯世界》
2015年第10期210-211,共2页
文摘
随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种特定的信息资源,并且对网页的依懒性较强,因此,在此提出一种将标点符号与HTML树结构相结合,作为网页识别正文内容的分析方法。其后通过对标点符号进行数据统计从而确定部分的正文信息,再根据正文信息的结构来确定其他信息内容。经此实验该提取方法能够有效的提取网页正文并屏蔽网页噪音。而且其普及性和准确性都比较高,在此本文将对网页正文提取信息进行探索。
关键词
网页正文
信息抽取
html树
方法
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于XML的互联网航空数据抓取的研究与实现
3
作者
张淑娟
机构
云南经济管理职业学院
出处
《电子制作》
2013年第22期126-126,共1页
文摘
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。
关键词
Web数据抓取
XML
html
结构
树
JSP技术
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
搜索引擎返回结果自动抽取
4
作者
藕军
任明仑
机构
合肥工业大学计算机网络研究所
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第2期49-52,共4页
文摘
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。
关键词
搜索引擎
WEB信息抽取
包装器生成
html
标签
树
节点相似度
Keywords
Search engine Web information extraction Wrapper generation
html
tags tree Nodes similarity
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于智能的网页信息提取系统的研究与设计
被引量:
7
5
作者
刘亚东
彭舰
张达平
机构
四川大学计算机学院
出处
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009年第4期957-962,共6页
基金
四川省应用基础基金(2008JY0027)
四川省科技支撑计划项目(07GG006-040)
文摘
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息.
关键词
智能
WEB信息提取
RoadRunner
html
结构
树
Keywords
intelligence, Web information extraction, RoadRunner,
html
structure tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
网页正文信息抽取新方法
宋明秋
张瑞雪
吴新涛
李文立
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2009
20
下载PDF
职称材料
2
网页正文信息抽取新方法
史瑞芳
《通讯世界》
2015
4
下载PDF
职称材料
3
基于XML的互联网航空数据抓取的研究与实现
张淑娟
《电子制作》
2013
0
下载PDF
职称材料
4
搜索引擎返回结果自动抽取
藕军
任明仑
《现代图书情报技术》
CSSCI
北大核心
2007
0
下载PDF
职称材料
5
基于智能的网页信息提取系统的研究与设计
刘亚东
彭舰
张达平
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009
7
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部