期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
基于DOM树和混合文本密度的网页信息提取方法研究
1
作者 魏建兵 《信息与电脑》 2023年第10期52-54,共3页
在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根... 在网页信息提取领域,文档对象模型(Document Object Model,DOM)树和混合文本密度是两个重要的概念。文章提出一种基于DOM树和混合文本密度的网页信息提取方法。首先,利用DOM树结构分析网页的标签层次结构,确定每个标签的重要性;其次,根据混合文本密度计算每个标签中包含有用信息的概率并且提取重要信息;最后,进行实验分析。实验结果表明,该方法能够有效提取网页中的有用信息。 展开更多
关键词 dom 混合文本密度 信息提取
下载PDF
基于Web网页的DOM树链接预分类、信息抽取方法研究
2
作者 罗莎 《长江信息通信》 2023年第11期133-135,共3页
为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的... 为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。 展开更多
关键词 WEB网页 dom树特征 信息链接预分类 信息抽取方法
下载PDF
基于DOM的网页主题信息自动提取 被引量:81
3
作者 王琦 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1786-1792,共7页
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模... Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。 展开更多
关键词 dom 信息提取 分块 STU STU树 STU-dom 相关度
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
4
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 dom DEEPWEB 数据区域定位 实体区域定位
下载PDF
基于DOM树的可适应性Web信息抽取 被引量:16
5
作者 李朝 彭宏 +2 位作者 叶苏南 张欢 杨亲遥 《计算机科学》 CSCD 北大核心 2009年第7期202-203,210,共3页
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可... Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。 展开更多
关键词 dom 信息抽取 可适应性
下载PDF
逆序解析DOM树及网页正文信息提取 被引量:15
6
作者 张瑞雪 宋明秋 公衍磊 《计算机科学》 CSCD 北大核心 2011年第4期213-215,225,共4页
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,... 一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。 展开更多
关键词 dom 网页正文提取 结构相似性 逆序解析
下载PDF
基于扩展DOM树的Web页面信息抽取 被引量:12
7
作者 王磊 蒋建中 郭军利 《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document O... 随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 展开更多
关键词 dom 信息抽取 包装器 半结构化
下载PDF
基于DOM修剪的藏文Web信息提取 被引量:7
8
作者 珠杰 欧珠 格桑多吉 《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。 展开更多
关键词 音节点 dom 藏文 WEB信息提取
下载PDF
基于DOM模型扩展的Web信息提取 被引量:21
9
作者 顾韵华 田伟 《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的... 提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。 展开更多
关键词 文档对象模型 WEB信息提取 影响度因子 dom树扩展
下载PDF
一种基于DOM树的XML数据频繁模式挖掘算法 被引量:4
10
作者 吉根林 韦素云 鲍培明 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第2期206-211,共6页
由于XM L数据具有半结构化特性,使得面向XM L数据的数据挖掘不同于面向关系数据库的数据挖掘,它具有更复杂的层次结构。研究基于DOM树的XM L数据频繁模式挖掘算法,提出面向XM L数据的频繁模式增量式挖掘算法F reqtT ree。该算法首先将X... 由于XM L数据具有半结构化特性,使得面向XM L数据的数据挖掘不同于面向关系数据库的数据挖掘,它具有更复杂的层次结构。研究基于DOM树的XM L数据频繁模式挖掘算法,提出面向XM L数据的频繁模式增量式挖掘算法F reqtT ree。该算法首先将XM L数据转化成DOM树,然后从DOM树挖掘所有频繁模式。F reqtT ree算法采用最右扩展技术,只在树的最右分支上增加新结点生成新树。同时充分利用已生成的频繁模式信息,使得产生的候选模式数量较少。F reqtT ree算法利用频繁k-1模式的支持数计算候选k模式的支持数,该算法只对DOM树遍历一次,具有较高的效率。采用多组数据对此算法的性能进行检验,并与其他算法作对比实验,实验结果表明该算法高效可行。 展开更多
关键词 XML dom 频繁模式 增量式挖掘 数据挖掘
下载PDF
基于改进DOM树的网页去噪声方法 被引量:6
11
作者 丁宝琼 谢远平 吴琼 《计算机应用》 CSCD 北大核心 2009年第B06期175-177,共3页
一个普通的Web网页可以被分成信息块和噪声块两个部分,因此快速准确地去除网页中的噪声块是网页信息采集处理的关键技术之一。利用网页模板的相似性,提出一种基于改进DOM的网页噪声去除算法,并将通过此算法处理的网页用于SVM分类系统,... 一个普通的Web网页可以被分成信息块和噪声块两个部分,因此快速准确地去除网页中的噪声块是网页信息采集处理的关键技术之一。利用网页模板的相似性,提出一种基于改进DOM的网页噪声去除算法,并将通过此算法处理的网页用于SVM分类系统,结果显示经过处理的网页对分类结果的准确性有了一定的改进。 展开更多
关键词 网页噪声 dom 噪声节点 分类器
下载PDF
基于DOM树与模板的自适应网络信息抽取方法 被引量:2
12
作者 柏志安 廖健 曾剑平 《计算机应用与软件》 北大核心 2022年第8期15-20,81,共7页
针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地... 针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则。实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能。 展开更多
关键词 信息抽取 自适应 dom 模板
下载PDF
基于DOM树的视频元数据抽取系统 被引量:1
13
作者 唐朝伟 李俊 +1 位作者 苗光胜 杜欣慧 《计算机工程》 CAS CSCD 2012年第8期268-270,共3页
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结... 目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。 展开更多
关键词 网络爬虫 信息采集 URL调度 增量更新 dom
下载PDF
XML编程中的DOM与SAX技术 被引量:25
14
作者 赵俊岚 《计算机工程》 CAS CSCD 北大核心 2004年第24期70-72,共3页
在XML的基础上,介绍了DOM与SAX技术的产生以及实现方式。通过引入应用示例对DOM与SAX的工作方式以及解析过程进行了分析,进而对两种技术进行了比较,并指出了DOM与SAX技术所适宜的情况与环境。
关键词 可扩展标记语言 文档对象模型 SAX 节点 树型结构 事件驱动
下载PDF
A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications 被引量:2
15
作者 ZHAOCheng-li YIDong-yun 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期611-616,共6页
A Web page typically contains many information blocks. Apart from the main content blocks, it usually has such blocks as navigation panels, copyright and privacy notices, and advertisements. We call these blocks the n... A Web page typically contains many information blocks. Apart from the main content blocks, it usually has such blocks as navigation panels, copyright and privacy notices, and advertisements. We call these blocks the noisy blocks. The noises in Web pages can seriously harm Web data mining. To the question of climinating these noises, we intro duce a new tree structure, called Style Tree, and study an algorithm how to construct a site style tree. The Style Tree Model is employed to detect and climinate noises in any Web pages of the site. An information based measure to determine which element node is noisy is also constructed. In addition, the applications of this method are discussed in detail. Experimental results show that our noises climination technique is able to improve the mining results significantly. Key words noises climination - DOM tree - style tree - Web mining CLC number TP 339 Foundation item: Supported by the National Natural Science Foundation of China (60003013)Biography: ZHAN Cheng-li (1979-), male, Master candidate, research direction: Intelligent Information System. 展开更多
关键词 noises climination dom tree style tree Web mining
下载PDF
基于单DOM树特征预分类的自适应Web信息抽取方法 被引量:4
16
作者 彭艳兵 谢馨庭 《电子设计工程》 2017年第19期56-59,63,共5页
在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,... 在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取。实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%。 展开更多
关键词 dom 标签路径 信息抽取 SVM
下载PDF
一种DOM树标签路径和行块密度结合的Web信息抽取方法 被引量:4
17
作者 马晓慧 李泓莹 《智能计算机与应用》 2017年第4期13-16,20,共5页
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行... 本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。 展开更多
关键词 dom 视觉特征 标签路径特征 行块分布函数
下载PDF
基于DOM的中文人物WEB信息提取 被引量:2
18
作者 陈晓云 宋伟国 苗胜法 《微计算机信息》 2010年第36期15-17,共3页
本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、... 本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。 展开更多
关键词 信息提取 文档对象模型 影响因子 中文人物
下载PDF
基于DOM树的非规范化表格信息定位技术 被引量:2
19
作者 张兴兰 刘岩 《软件导刊》 2016年第7期10-13,共4页
Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位... Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位算法,其对定位非规范化表格准确率较高。 展开更多
关键词 本体 非规范化表格 dom
下载PDF
XML树型结构数据转换成JTree图形的一种方法 被引量:3
20
作者 张白一 袁琴琴 《微计算机应用》 2005年第5期632-634,共3页
首先探讨了利用XML文件存储树型结构数据的直观表示方式。在此基础上用Java编程实现了解析XML文件生成DOM树的方法,最终通过深度优先遍历算法将DOM树转换成JTree树。从而实现了用JTree树直观地显示DOM树,为树型结构数据的图形化表示提... 首先探讨了利用XML文件存储树型结构数据的直观表示方式。在此基础上用Java编程实现了解析XML文件生成DOM树的方法,最终通过深度优先遍历算法将DOM树转换成JTree树。从而实现了用JTree树直观地显示DOM树,为树型结构数据的图形化表示提供了便利。 展开更多
关键词 树型结构 XML 文档对象模型 Jtree 图形化 数据转换 dom 结构数据 表示方式 文件存储
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部