期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
煤矿安全Web数据采集技术研究及应用
1
作者 吴克介 《能源与环保》 2024年第10期14-20,共7页
针对矿井安全分析所需的事故、处罚等不易获取的数据,选择互联网公开的Web数据作为数据源,在分析总结Web查询结果页面具有的视觉特征基础上,提出了一种基于视觉与DOM树的Web数据抽取方法(VDLE)。首先,引入视觉块重心偏移量定位数据区域... 针对矿井安全分析所需的事故、处罚等不易获取的数据,选择互联网公开的Web数据作为数据源,在分析总结Web查询结果页面具有的视觉特征基础上,提出了一种基于视觉与DOM树的Web数据抽取方法(VDLE)。首先,引入视觉块重心偏移量定位数据区域,然后利用谱聚类算法定位数据区域内结构相似的节点簇,结合文本组织多样性对数据记录进行定位。实验结果表明,VDLE的抽取结果查准率为99%,比D-EEM提高8.51%,比VIDE查准率提高4.32%;VDLE的抽取结果查全率为98.75%,较D-EEM查全率提高13.33%,较ViDE查全率提高8.17%。在此基础上,研发了煤矿安全Web数据采集系统,现场实验结果表明,该系统采集的事故信息弥补完善了矿井安全信息储备,为矿井安全分析奠定了数据基础。 展开更多
关键词 视觉 DOM树 WEB数据抽取 煤矿安全 事故分析
下载PDF
一种用于Web UI自动化测试脚本修复的网页元素重定位方法 被引量:1
2
作者 陈俊生 彭莉芬 《长春师范大学学报》 2023年第8期54-59,共6页
针对Web UI页面频繁更新所带来的自动化测试脚本失效问题,在现有基于DOM树的网页元素定位方法基础上,利用新旧版本Web UI页面DOM树的差异和Selenium IDE录制的旧版测试脚本在新版页面上回放所生成的失效XPath路径对原有方法进行改进,提... 针对Web UI页面频繁更新所带来的自动化测试脚本失效问题,在现有基于DOM树的网页元素定位方法基础上,利用新旧版本Web UI页面DOM树的差异和Selenium IDE录制的旧版测试脚本在新版页面上回放所生成的失效XPath路径对原有方法进行改进,提出一种适应性强、定位准确率高、可用于Web UI自动化测试脚本修复的网页元素重定位方法。实验结果表明,该方法不仅减少了网页元素重定位的运算量,还提高了重定位效率和准确率。 展开更多
关键词 Web UI自动化测试 DOM树 Selenium IDE XPath路径 测试脚本修复 网页元素重定位
下载PDF
基于DOM树和混合文本密度的网页信息提取方法研究
3
作者 魏建兵 《信息与电脑》 2023年第10期52-54,共3页
在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根... 在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根据混合文本密度计算每个标签中包含有用信息的概率并且提取重要信息;最后,进行实验分析。实验结果表明,该方法能够有效提取网页中的有用信息。 展开更多
关键词 DOM树 混合文本密度 信息提取
下载PDF
基于Web网页的DOM树链接预分类、信息抽取方法研究
4
作者 罗莎 《长江信息通信》 2023年第11期133-135,共3页
为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的... 为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。 展开更多
关键词 WEB网页 DOM树特征 信息链接预分类 信息抽取方法
下载PDF
基于DOM的网页主题信息自动提取 被引量:81
5
作者 王琦 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1786-1792,共7页
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模... Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。 展开更多
关键词 DOM 信息提取 分块 STU STU树 STU-DOM树 相关度
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
6
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
下载PDF
基于DOM树的可适应性Web信息抽取 被引量:16
7
作者 李朝 彭宏 +2 位作者 叶苏南 张欢 杨亲遥 《计算机科学》 CSCD 北大核心 2009年第7期202-203,210,共3页
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可... Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。 展开更多
关键词 DOM树 信息抽取 可适应性
下载PDF
XML文档对象模型研究与应用 被引量:8
8
作者 熊光彩 莫 蓉 +1 位作者 赵歆波 张定华 《计算机工程与设计》 CSCD 2002年第5期1-4,共4页
摘 要:从XML文档的基本结构出发,详细论述了DOM树、节点树结构特征及DOM的基本接口。结合产品定单实例实现 XML文档结构树的动态创建、遍历,并通过XML DOM接口实现对文档结构树的操作等核心应用。
关键词 电子数据交换 可扩展标记语言 XML文档 对象模型
下载PDF
逆序解析DOM树及网页正文信息提取 被引量:15
9
作者 张瑞雪 宋明秋 公衍磊 《计算机科学》 CSCD 北大核心 2011年第4期213-215,225,共4页
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,... 一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。 展开更多
关键词 DOM树 网页正文提取 结构相似性 逆序解析
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
10
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
基于扩展DOM树的Web页面信息抽取 被引量:12
11
作者 王磊 蒋建中 郭军利 《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document O... 随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 展开更多
关键词 DOM树 信息抽取 包装器 半结构化
下载PDF
基于重复模式的自动Web信息抽取 被引量:8
12
作者 胡仁龙 袁春风 +1 位作者 武港山 濮小佳 《计算机工程》 CAS CSCD 北大核心 2008年第22期73-76,共4页
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽... 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。 展开更多
关键词 WEB信息抽取 DOM树 重复模式
下载PDF
基于本体的旅游信息抽取 被引量:8
13
作者 陈立娜 张红 +1 位作者 马莉 蒋运承 《计算机应用与软件》 CSCD 2010年第4期146-148,161,共4页
基于本体的信息抽取技术是一种把本体和信息处理技术结合起来实现信息抽取的一种方法。提出一种基于本体的旅游领域信息抽取方法。该方法依据旅游本体的关键词定位页面信息区域,从网页中抽取正文信息,对其进行分词处理及过滤,再根据Jav... 基于本体的信息抽取技术是一种把本体和信息处理技术结合起来实现信息抽取的一种方法。提出一种基于本体的旅游领域信息抽取方法。该方法依据旅游本体的关键词定位页面信息区域,从网页中抽取正文信息,对其进行分词处理及过滤,再根据Java标注模式引擎JAPE(Java Annotation Patterns Engine)编写的规则进行本体匹配,形成结构化的内容,存入数据库。最后,通过实验证明了所提出的方法的准确性。 展开更多
关键词 本体 信息抽取 DOM树 旅游信息
下载PDF
Web表格定位技术的研究与实现 被引量:9
14
作者 廖涛 刘宗田 孙荣 《计算机科学》 CSCD 北大核心 2009年第9期227-230,共4页
Web表格的定位作为Web表格抽取的一个重要研究内容,现在越来越得到更多人的重视。根据Web表格的结构标记和自定义的启发式规则,通过对〈TABLE〉嵌套问题的解决、数据表格完整性的判断、〈TABLE〉树的遍历来完成表格的定位。
关键词 DOM树 表格定位 启发式规则 〈TABLE〉嵌套 遍历
下载PDF
搜索引擎中基于状态的Ajax动态网页提取研究 被引量:9
15
作者 陈莉莉 张丽 刘正龙 《计算机应用与软件》 CSCD 北大核心 2013年第7期217-220,共4页
Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态... Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态S的形式化定义,提出基于状态的页面元素、事件与函数绑定关系的提取算法AjaxCrawling,并说明算法提取得到的资源库在搜索引擎中的有效性。通过比较实验,得出AjaxCrawling具有保证提取到的信息的完整性和节约存储空间的优势。 展开更多
关键词 AJAX技术 动态网页 提取 DOM树 状态
下载PDF
基于DOM修剪的藏文Web信息提取 被引量:7
16
作者 珠杰 欧珠 格桑多吉 《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。 展开更多
关键词 音节点 DOM树 藏文 WEB信息提取
下载PDF
基于HTML树和模板的文献信息提取方法研究 被引量:7
17
作者 李文立 王乐超 宋春雷 《计算机应用研究》 CSCD 北大核心 2010年第12期4615-4617,共3页
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将... 教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。 展开更多
关键词 网页信息提取 文档对象模型树 模板 文献信息搜集
下载PDF
基于XPath路径的Web应用测试脚本修复 被引量:6
18
作者 王曙燕 王璇 孙家泽 《计算机应用研究》 CSCD 北大核心 2017年第5期1393-1396,共4页
基于Web的应用程序版本更新频繁,生成新的测试脚本集代价昂贵,因此修复旧的测试脚本集是最佳的选择。针对由于Web应用页面结构的改变而导致旧的测试脚本集执行时发生错误的问题,提出了一种修复失效的测试脚本的方法。该方法利用Selenium... 基于Web的应用程序版本更新频繁,生成新的测试脚本集代价昂贵,因此修复旧的测试脚本集是最佳的选择。针对由于Web应用页面结构的改变而导致旧的测试脚本集执行时发生错误的问题,提出了一种修复失效的测试脚本的方法。该方法利用Selenium IDE录制旧版本应用程序的测试脚本,在新版本的应用上回放旧的测试脚本,生成错误的测试报告;根据报告中每条失效脚本的XPath和value信息,通过遍历新旧应用网页差异文档对象化模型解析树(DOM tree),找到替换失效脚本的路径或value值,从而修复失效的测试脚本。实验结果表明,该方法对修复失效测试脚本是可行和有效的。 展开更多
关键词 XPath路径 SeleniumIDE WEB应用程序 DOMtree 测试脚本修复
下载PDF
基于节点属性与正文内容的海量Web信息抽取方法 被引量:12
19
作者 王海艳 曹攀 《通信学报》 EI CSCD 北大核心 2016年第10期9-17,共9页
为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面... 为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。 展开更多
关键词 WEB信息 抽取 MAPREDUCE DOM树
下载PDF
基于决策树和马尔可夫链的问答对自动提取 被引量:5
20
作者 刘佳宾 胡国平 +1 位作者 陈超 邵正荣 《中文信息学报》 CSCD 北大核心 2007年第2期46-51,共6页
问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答... 问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。 展开更多
关键词 人工智能 模式识别 信息抽取 DOM树 决策树 马尔可夫链
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部