期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于改进HTML-Tree的中文网页特征向量提取方法 被引量:3
1
作者 李铭岳 周军 《信息技术》 2009年第1期10-14,共5页
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类... 中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献。经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度。 展开更多
关键词 html-tree 特征向量 网页分类
下载PDF
一种基于多叉树的HTML到XML的转换方法 被引量:4
2
作者 张文斌 陈恩红 王进 《小型微型计算机系统》 CSCD 北大核心 2003年第4期713-715,共3页
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索... 当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题. 展开更多
关键词 多叉树 html语言 XML语言 信息检索 Web Internet
下载PDF
基于HTML树的网页结构相似度研究 被引量:2
3
作者 宋明秋 张瑞雪 《情报学报》 CSSCI 北大核心 2011年第2期160-165,共6页
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似... HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速. 展开更多
关键词 html网页 网页信息提取 结构相似度 Based Web 结构相似性 匹配规则 度量模型 计算方法 网页信息块 PYTHON语言 自由 信息比较 数据表 实验 结构特征 传统方法 半结构化 系统性 适用性
下载PDF
一种基于多叉树的HTML到XML的转换方法
4
作者 张文斌 陈恩红 王进 《小型微型计算机系统》 CSCD 北大核心 2003年第9期1617-1620,共4页
当前的 Web信息大多数都是 HTML格式的 ,由于 HTML文件中没有严格的结构性 ,故很难能用一种有效的方法来检索或提取隐藏其中的数据 .针对 HTML的这种缺陷 ,本文提出了基于多叉树的 HTML到 XML转换方法 ,把对 HTML 的信息检索问题转化为... 当前的 Web信息大多数都是 HTML格式的 ,由于 HTML文件中没有严格的结构性 ,故很难能用一种有效的方法来检索或提取隐藏其中的数据 .针对 HTML的这种缺陷 ,本文提出了基于多叉树的 HTML到 XML转换方法 ,把对 HTML 的信息检索问题转化为对 XML 的检索问题 。 展开更多
关键词 html XML 多叉树 信息检索
下载PDF
一种基于Web的HTML到XML数据转换方法 被引量:1
5
作者 刘江宏 刘金瑄 《计算机与数字工程》 2009年第1期35-37,共3页
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XM... 随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。 展开更多
关键词 html htmlDOM树 Xhtml XML
下载PDF
基于HTML和XML的信息提取方法研究 被引量:3
6
作者 陈红叶 《微机发展》 2003年第a02期54-55,共2页
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。
关键词 信息提取 html XML 超文本标记语言 可扩展标识语言 WEB 网页
下载PDF
一种基于DOM树的HTML转换为XML的方法 被引量:1
7
作者 黄伟 刘娟 《电脑知识与技术》 2006年第7期64-65,79,共3页
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理。采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息。以达到转换为XML文档的目的。
关键词 DOM树 html 转换 XML
下载PDF
基于本体的HTML表格识别技术的研究
8
作者 袁鸿雁 《长春工程学院学报(自然科学版)》 2010年第1期108-110,共3页
由于HTML只描述数据怎样显示而不描述数据的内容,因此识别HTML表格并抽取其数据是Web信息抽取领域中重要的研究课题之一,针对现在包装器技术的不足提出了一种新的基于领域本体的HTML表格结构识别技术,为构造HTML表格信息抽取系统打下基础。
关键词 html表格 本体 DOM树 启发式规则
下载PDF
网页正文信息抽取新方法 被引量:20
9
作者 宋明秋 张瑞雪 +1 位作者 吴新涛 李文立 《大连理工大学学报》 EI CAS CSCD 北大核心 2009年第4期594-597,共4页
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结... 基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性. 展开更多
关键词 包装器 html 网页信息提取
下载PDF
基于树自动机的网页数据抽取 被引量:6
10
作者 王茹 宋瀚涛 陆玉昌 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第9期790-793,共4页
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用... 为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 展开更多
关键词 数据抽取 树自动机 WEB网页 html
下载PDF
主题网页标签树邻接矩阵识别算法研究 被引量:2
11
作者 宋军 杨晓夫 +1 位作者 李益才 王家伟 《计算机科学》 CSCD 北大核心 2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题... 随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。 展开更多
关键词 网页结构 html标签 标签树邻接矩阵
下载PDF
Web信息抽取和展现系统的设计与实现 被引量:1
12
作者 彭祥礼 朱小军 查志勇 《电力信息化》 2012年第2期23-26,共4页
随着计算机网络技术的高速发展,如何高效准确地识别和获取Web信息变得至关重要。文章介绍了一个完整的Web信息抽取和展现系统,其总体架构由Web网站集、抽取规则库、内容定制模块和内容展现模块4部分组成。该系统支持用户通过可视化交互... 随着计算机网络技术的高速发展,如何高效准确地识别和获取Web信息变得至关重要。文章介绍了一个完整的Web信息抽取和展现系统,其总体架构由Web网站集、抽取规则库、内容定制模块和内容展现模块4部分组成。该系统支持用户通过可视化交互式界面定制信息抽取规则,实现了用户个性化抽取规则的存储。在数据项定位方式上采用基于DOM树和分层区域划分的方法,结合父子结点信息进行数据校验,既可以快速定位到信息抽取的目标区域,又能有效保证抽取方法的精度。 展开更多
关键词 WEB信息抽取 抽取规则 html DOM树
下载PDF
基于树结构的Web表格信息抽取方法 被引量:1
13
作者 孙全红 张贞贞 《华北水利水电学院学报》 2011年第3期108-110,共3页
针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM... 针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取. 展开更多
关键词 表格信息 html文档 DOM树 二叉树
下载PDF
基于DTA的信息抽取技术研究
14
作者 谭鹏许 张来顺 滕婕 《计算机应用与软件》 CSCD 2009年第12期228-230,250,共4页
针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽... 针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。 展开更多
关键词 树自动机 信息抽取 html
下载PDF
基于模糊集的Web文本最大支撑树聚类算法
15
作者 毛太田 邹凯 +1 位作者 毛静 周军 《现代情报》 CSSCI 2011年第11期21-25,共5页
当今信息社会,Internet上的信息资源杂乱繁多,用户很难准确地获得所需的信息。对此,本文提出根据特征词在html网页中的title、keywords、description标签的位置来计算各Web文本内容之间的相关度,对Web文档进行模糊聚类的算法,这种基于... 当今信息社会,Internet上的信息资源杂乱繁多,用户很难准确地获得所需的信息。对此,本文提出根据特征词在html网页中的title、keywords、description标签的位置来计算各Web文本内容之间的相关度,对Web文档进行模糊聚类的算法,这种基于模糊集的Web文本最大支撑树聚类算法改善了文本聚类的时间和空间的复杂度,减少了文本处理的维度,提高了聚类的速度和精度,从而提高了用户对信息资源获取的方便性。 展开更多
关键词 模糊聚类 WEB文本 html标签 最大支撑树
下载PDF
使用双层分类器在垂直搜索中自动识别交互式查询接口
16
作者 王琳 王行甫 杜云开 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1138-1142,共5页
一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在... 一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在显著降低本地计算资源和带宽消耗的同时,提高查全和查准率.提出并实现了一种用于在主题相关的页面采集过程中自动定位交互式查询接口的双层分类器.针对8个不同领域主题的规模化实验显示,该分类器能够准确过滤非相关域名和非可查表单,实现搜索接口的有效识别. 展开更多
关键词 垂直搜索 查询接口识别 表单特征分类 html解析 支持向量分类 决策树
下载PDF
网络数据智能提取
17
作者 王斌 王汉飞 《石油工业计算机应用》 2003年第2期36-38,5,共3页
HTML是当前编写网页使用的最多的语言,如何利用HTML这种标记性语言的特点,让计算机提供给用户快速的获取知识的途径成为许多计算机工作者的一大难题。文章介绍一个有效的从互联网上提取知识的方法供大家参考。这种方法可分成4个途径:①... HTML是当前编写网页使用的最多的语言,如何利用HTML这种标记性语言的特点,让计算机提供给用户快速的获取知识的途径成为许多计算机工作者的一大难题。文章介绍一个有效的从互联网上提取知识的方法供大家参考。这种方法可分成4个途径:①规范化基于HTML的网页脚本;②将网页结构和内容用一棵内容树表示;③比较相似网页的内容树生成提取规则;④将规则和下载程序结合得到最终的知识获取软件。 展开更多
关键词 网络数据 智能提取 树型化 知识获取 数据挖掘
下载PDF
基于DOM树和递归X-Y分割算法的Zone树模型 被引量:4
18
作者 黄歆 桑楠 《计算机工程》 CAS CSCD 北大核心 2009年第5期53-55,共3页
在分析DOM树的基础上提出一种基于DOM树和递归X-Y分割算法,可以根据网页的几何布局生成Zone树模型。描述了将Zone树模型和递归X-Y算法应用到文献数据检索的优越性,给出构建Zone树模型的算法。该模型主要用于在线文献的数据提取,具有速... 在分析DOM树的基础上提出一种基于DOM树和递归X-Y分割算法,可以根据网页的几何布局生成Zone树模型。描述了将Zone树模型和递归X-Y算法应用到文献数据检索的优越性,给出构建Zone树模型的算法。该模型主要用于在线文献的数据提取,具有速度快、准确性高等特点,优于目前大多数浏览器所采用的DOM树结构。 展开更多
关键词 html文档 DOM树 递归X-Y分割算法 Zone树
下载PDF
基于网页DOM树节点路径相似度的正文抽取 被引量:4
19
作者 潘心宇 陈长福 +1 位作者 刘蓉 王美清 《微型机与应用》 2016年第19期74-77,共4页
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。 展开更多
关键词 DOM树 信息抽取 html标签 网页去噪 正文抽取
下载PDF
搜索引擎返回结果自动抽取
20
作者 藕军 任明仑 《现代图书情报技术》 CSSCI 北大核心 2007年第2期49-52,共4页
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链... 提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。 展开更多
关键词 搜索引擎 WEB信息抽取 包装器生成 html标签树 节点相似度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部