期刊文献+
共找到100篇文章
< 1 2 5 >
每页显示 20 50 100
基于Web网页的DOM树链接预分类、信息抽取方法研究
1
作者 罗莎 《长江信息通信》 2023年第11期133-135,共3页
为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的... 为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。 展开更多
关键词 web网页 dom树特征 信息链接预分类 信息抽取方法
下载PDF
煤矿安全Web数据采集技术研究及应用
2
作者 吴克介 《能源与环保》 2024年第10期14-20,共7页
针对矿井安全分析所需的事故、处罚等不易获取的数据,选择互联网公开的Web数据作为数据源,在分析总结Web查询结果页面具有的视觉特征基础上,提出了一种基于视觉与DOM树的Web数据抽取方法(VDLE)。首先,引入视觉块重心偏移量定位数据区域... 针对矿井安全分析所需的事故、处罚等不易获取的数据,选择互联网公开的Web数据作为数据源,在分析总结Web查询结果页面具有的视觉特征基础上,提出了一种基于视觉与DOM树的Web数据抽取方法(VDLE)。首先,引入视觉块重心偏移量定位数据区域,然后利用谱聚类算法定位数据区域内结构相似的节点簇,结合文本组织多样性对数据记录进行定位。实验结果表明,VDLE的抽取结果查准率为99%,比D-EEM提高8.51%,比VIDE查准率提高4.32%;VDLE的抽取结果查全率为98.75%,较D-EEM查全率提高13.33%,较ViDE查全率提高8.17%。在此基础上,研发了煤矿安全Web数据采集系统,现场实验结果表明,该系统采集的事故信息弥补完善了矿井安全信息储备,为矿井安全分析奠定了数据基础。 展开更多
关键词 视觉 dom web数据抽取 煤矿安全 事故分析
下载PDF
基于DOM树的可适应性Web信息抽取 被引量:16
3
作者 李朝 彭宏 +2 位作者 叶苏南 张欢 杨亲遥 《计算机科学》 CSCD 北大核心 2009年第7期202-203,210,共3页
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可... Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。 展开更多
关键词 dom 信息抽取 可适应性
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
4
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 dom DEEPweb 数据区域定位 实体区域定位
下载PDF
基于DOM修剪的藏文Web信息提取 被引量:7
5
作者 珠杰 欧珠 格桑多吉 《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。 展开更多
关键词 音节点 dom 藏文 web信息提取
下载PDF
基于DOM模型扩展的Web信息提取 被引量:21
6
作者 顾韵华 田伟 《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的... 提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。 展开更多
关键词 文档对象模型 web信息提取 影响度因子 dom树扩展
下载PDF
基于扩展DOM树的Web页面信息抽取 被引量:12
7
作者 王磊 蒋建中 郭军利 《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document O... 随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 展开更多
关键词 dom 信息抽取 包装器 半结构化
下载PDF
基于DOM的Web信息抽取规则的构造与实现 被引量:5
8
作者 杨敬伟 杨文柱 高悦 《河北大学学报(自然科学版)》 CAS 北大核心 2007年第2期209-212,共4页
为了实现对Web信息的查询、重构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于DOM的Web信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.
关键词 dom web信息抽取 抽取规则
下载PDF
基于DOM的Web信息自动抽取 被引量:4
9
作者 吴伟 刘友华 《现代图书情报技术》 CSSCI 北大核心 2004年第2期68-71,共4页
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术。从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现... 提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术。从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。 展开更多
关键词 dom 文档对象模型 web信息 网络信息 自动抽取
下载PDF
基于XML和DOM技术的Web信息抽取模型 被引量:1
10
作者 李文 郑邦习 邓武 《大连交通大学学报》 CAS 2013年第3期96-99,118,共5页
将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取... 将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化. 展开更多
关键词 信息抽取 XML技术 dom技术 web页面
下载PDF
基于单DOM树特征预分类的自适应Web信息抽取方法 被引量:4
11
作者 彭艳兵 谢馨庭 《电子设计工程》 2017年第19期56-59,63,共5页
在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,... 在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取。实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%。 展开更多
关键词 dom 标签路径 信息抽取 SVM
下载PDF
基于DOM的中文人物WEB信息提取 被引量:2
12
作者 陈晓云 宋伟国 苗胜法 《微计算机信息》 2010年第36期15-17,共3页
本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、... 本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。 展开更多
关键词 信息提取 文档对象模型 影响因子 中文人物
下载PDF
一种基于DOM的Web信息提取方法 被引量:4
13
作者 邓超 熊选东 《微型电脑应用》 2007年第3期49-52,6,共4页
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。
关键词 web信息提取 dom XPATH XSLT 基于dom的网页结构判断
下载PDF
一种基于DOM的Web关键信息提取方法 被引量:3
14
作者 张云雷 周军 刘海霞 《现代计算机(中旬刊)》 2011年第6期3-6,共4页
提出一种提取Web中的菜单和导航指示器等关键信息的方法,首先利用由W3C提出的文档对象模型技术提取出关键信息和与关键信息结构相似的其他信息,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正关键信息。实验结... 提出一种提取Web中的菜单和导航指示器等关键信息的方法,首先利用由W3C提出的文档对象模型技术提取出关键信息和与关键信息结构相似的其他信息,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正关键信息。实验结果验证了方法的有效性。 展开更多
关键词 web内容挖掘 信息提取 关键信息 dom
下载PDF
基于DOM树和混合文本密度的网页信息提取方法研究
15
作者 魏建兵 《信息与电脑》 2023年第10期52-54,共3页
在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根... 在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根据混合文本密度计算每个标签中包含有用信息的概率并且提取重要信息;最后,进行实验分析。实验结果表明,该方法能够有效提取网页中的有用信息。 展开更多
关键词 dom 混合文本密度 信息提取
下载PDF
一种基于扩展DOM树的Web数据自动抽取方法 被引量:1
16
作者 陈远斌 《应用科技》 CAS 2009年第8期52-55,共4页
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依... Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. 展开更多
关键词 web数据抽取 扩展dom 新颖度
下载PDF
基于DOM的网页主题信息自动提取 被引量:81
17
作者 王琦 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1786-1792,共7页
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模... Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。 展开更多
关键词 dom 信息提取 分块 STU STU树 STU-dom 相关度
下载PDF
基于节点属性与正文内容的海量Web信息抽取方法 被引量:12
18
作者 王海艳 曹攀 《通信学报》 EI CSCD 北大核心 2016年第10期9-17,共9页
为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面... 为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。 展开更多
关键词 web信息 抽取 mapreduce dom
下载PDF
基于重复模式的自动Web信息抽取 被引量:8
19
作者 胡仁龙 袁春风 +1 位作者 武港山 濮小佳 《计算机工程》 CAS CSCD 北大核心 2008年第22期73-76,共4页
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽... 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。 展开更多
关键词 web信息抽取 dom 重复模式
下载PDF
基于XPath的Web信息抽取的设计与实现 被引量:6
20
作者 杨文柱 徐林昊 +2 位作者 陈少飞 郝亚南 李天柱 《计算机工程》 CAS CSCD 北大核心 2003年第16期82-83,113,共3页
提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的... 提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。 展开更多
关键词 XPATH web信息抽取 文档对象模型
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部