期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于子树匹配的交互式Web数据抽取方法 被引量:8
1
作者 张慧颖 曲著伟 《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很... 查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 展开更多
关键词 web数据抽取 Top-down树匹配 DOM
下载PDF
基于XML的Web数据抽取模型研究(英文)
2
作者 谢维成 吕先竞 宋玉忠 《西华大学学报(自然科学版)》 CAS 2006年第1期82-86,共5页
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路... 提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。 展开更多
关键词 KDW XML web数据抽取 语义web技术
下载PDF
Web数据抽取技术的研究和探讨 被引量:1
3
作者 仇岗 杨琴 《电子世界》 2015年第13期36-37,共2页
随着电子商务的迅猛发展,网络购物受到了大多数人的青睐,怎么样才能从众多的购物网站中找到自己需要的产品,是数据抽取技术的焦点。由于Web数据具有半结构化的特征,使得数据抽取技术更加复杂。如何发展Web数据抽取技术要充分利用网络资... 随着电子商务的迅猛发展,网络购物受到了大多数人的青睐,怎么样才能从众多的购物网站中找到自己需要的产品,是数据抽取技术的焦点。由于Web数据具有半结构化的特征,使得数据抽取技术更加复杂。如何发展Web数据抽取技术要充分利用网络资源,发挥Web数据抽取潜力。 展开更多
关键词 web数据抽取 XPATH 信息抽取 模型
下载PDF
XML在Web数据抽取中的应用研究
4
作者 王艳 刘双红 罗慧敏 《郑州航空工业管理学院学报(社会科学版)》 2005年第4期150-151,共2页
随着网络技术的发展,网上的信息资源越来越丰富,充分利用这些资源成为当前数据挖掘领域的研究热点。文章分析了基于XML的Web数据抽取模型,详细论述了如何利用XML技术从Web页面中抽取数据。
关键词 XML web数据抽取 抽取模型
下载PDF
基于XPath比较的Web数据抽取方法 被引量:4
5
作者 陈晓锋 张凌 董守斌 《郑州大学学报(理学版)》 CAS 2007年第2期161-166,共6页
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表... 研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. 展开更多
关键词 web数据抽取 XPath比较 XERG 正则表达式
下载PDF
面向开源社区的Web数据抽取方法研究
6
作者 张方 尹刚 +1 位作者 王涛 余跃 《现代计算机》 2017年第3期27-29,39,共4页
由协同开发社区和知识分享社区所组成的开源社区中汇集海量的开源数据资源。如何从数量众多,页面结构各异的开源社区中准确、高效地获取这些数据是对开源数据资源进行全面分析,深度关联的前提。阐述面向开源社区的Web数据抽取方法研究过... 由协同开发社区和知识分享社区所组成的开源社区中汇集海量的开源数据资源。如何从数量众多,页面结构各异的开源社区中准确、高效地获取这些数据是对开源数据资源进行全面分析,深度关联的前提。阐述面向开源社区的Web数据抽取方法研究过程,实现对开源社区中Web数据的精确抽取。 展开更多
关键词 开源社区 web数据抽取 协同开发社区 知识共享社区
下载PDF
基于页面标签的Web结构化数据抽取 被引量:8
7
作者 任仲晟 薛永生 《计算机科学》 CSCD 北大核心 2007年第10期133-136,共4页
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的... 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。 展开更多
关键词 web数据抽取 web挖掘 结构化数据 信息抽取
下载PDF
基于隐条件随机场的异构Web数据源数据抽取算法研究
8
作者 於实 《科技通报》 北大核心 2012年第8期168-170,共3页
提出了一种基于改进的隐条件随机场的异构Web数据源数据抽取算法。通过对隐条件随机场进行的改进,对隐含变量进行更为准确的计算,并且克服了该模型的性能严重依赖于初始参数选择的问题,而且进行模型训练时不需要大量的人工标注的样本数... 提出了一种基于改进的隐条件随机场的异构Web数据源数据抽取算法。通过对隐条件随机场进行的改进,对隐含变量进行更为准确的计算,并且克服了该模型的性能严重依赖于初始参数选择的问题,而且进行模型训练时不需要大量的人工标注的样本数据。实验结果表明,对比已有方法,本文算法在对具有缺省属性以及多属性特征的网站进行数据抽取时,在查全率,查准率以及F1值上都获得了令人满意的性能。 展开更多
关键词 条件随机场 隐条件随机场 web数据抽取 判别式模型
下载PDF
Web网页中动态数据区域的识别与抽取 被引量:8
9
作者 黄健斌 姬红兵 孙鹤立 《计算机工程》 CAS CSCD 北大核心 2007年第11期53-55,58,共4页
采用基于HTML标记树的数据块查找方法挖掘Web网页中的数据区域,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明,该方法能够提高Web网页中动态数据区域识别的召回率和准确率。
关键词 web数据区域抽取 动态数据区域识别 跨网页分析
下载PDF
一种基于扩展DOM树的Web数据自动抽取方法 被引量:1
10
作者 陈远斌 《应用科技》 CAS 2009年第8期52-55,共4页
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依... Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. 展开更多
关键词 web数据抽取 扩展DOM树 新颖度
下载PDF
一种Web评论自动抽取方法 被引量:12
11
作者 刘伟 严华梁 +1 位作者 肖建国 曾建勋 《软件学报》 EI CSCD 北大核心 2010年第12期3220-3236,共17页
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率. 展开更多
关键词 web用户评论 结构化数据记录 web数据抽取
下载PDF
一种统一的Web新闻对象自动抽取方法 被引量:4
12
作者 刘伟 严华梁 《计算机工程》 CAS CSCD 2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 展开更多
关键词 web数据抽取 视觉特征 序列标注 网页模板 新闻属性 新闻对象
下载PDF
Web抽取技术在数字图书馆中的应用 被引量:2
13
作者 宋玉忠 《四川图书馆学报》 CSSCI 2009年第3期46-49,共4页
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多数是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的Web页面的Web数据抽取模型并阐述了实现过程。
关键词 web数据抽取 HTML XML 数字图书馆 信息挖掘
下载PDF
基于视觉信息和标签路径的数据抽取
14
作者 张巍 邹晓明 谈凤真 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期114-119,共6页
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。 展开更多
关键词 DEEP web数据抽取 视觉信息 标签路径
下载PDF
基于树形结构的Web信息抽取
15
作者 任仲晟 薛永生 《福建师范大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第3期39-46,共8页
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实... 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 展开更多
关键词 web数据抽取 web挖掘 信息抽取
下载PDF
基于分类语义的Web信息检索系统 被引量:2
16
作者 马纪颖 肖明霞 《沈阳化工学院学报》 2006年第4期300-304,共5页
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题,设计一个基于分类语义的搜索引擎系统———SESC系统.通过Web数据抽取机制以... 在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题,设计一个基于分类语义的搜索引擎系统———SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息. 展开更多
关键词 信息检索 分类语义 web数据抽取机制 层次化展示
下载PDF
C2C电子商务网站交易信息抽取工具的研究与实现
17
作者 王鸿伟 吴扬扬 《泉州师范学院学报》 2010年第4期12-17,共6页
研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计... 研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率. 展开更多
关键词 web数据抽取 C2C电子商务 正则表达式
下载PDF
基于文献的农业领域本体自动构建方法研究 被引量:9
18
作者 王超 李书琴 肖红 《计算机应用与软件》 CSCD 北大核心 2014年第8期71-74,共4页
农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析... 农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析和改进的层次聚类发现领域概念间关系,构建农业领域本体。通过实验验证,该方法提高了领域概念间关系聚类效果和领域本体构建效果。最后加以应用实施,实现了基于本体的农业垂直搜索引擎。 展开更多
关键词 领域本体 本体构建 web数据抽取 关联分析 改进的层次聚类算法
下载PDF
页面包装器自动生成的改进算法 被引量:3
19
作者 李文奇 张忠能 《计算机工程与应用》 CSCD 北大核心 2004年第22期113-115,122,共4页
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
关键词 web数据抽取 包装器 匹配算法 算法优化
下载PDF
基于可视块的多记录型复杂网页信息提取算法 被引量:13
20
作者 王卫红 梁朝凯 闵勇 《计算机科学》 CSCD 北大核心 2019年第10期63-70,共8页
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。 展开更多
关键词 web数据抽取 web挖掘 数据记录提取 网页数据提取 结构化信息
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部