期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于净化网页的改进消重算法
1
作者 虞曼 熊前兴 《计算机系统应用》 2011年第12期197-199,共3页
互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要工具。提出了一种基于净化网页的改进消重算法,并将它与传统的消重算法进行了比较。该算法结合关键字搜... 互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要工具。提出了一种基于净化网页的改进消重算法,并将它与传统的消重算法进行了比较。该算法结合关键字搜索和签名(计算指纹)搜索各自的优势来完成网页搜索消重。实验结果证明该方法对网页消重效果很好,提高了网页消重的查全率和查准率。 展开更多
关键词 网页消重 净化网页 关键字 签名
下载PDF
一种HTML网页净化方法 被引量:57
2
作者 张志刚 陈静 李晓明 《情报学报》 CSSCI 北大核心 2004年第4期387-393,共7页
Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利... Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的.该方法已经应用于搜索引擎系统(天网)的网页消重过程以及一个网页自动分类系统.通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性. 展开更多
关键词 网页净化 信息检索 搜索引擎 HTML 算法
下载PDF
基于统计的网页净化模板生成算法
3
作者 胡飞 黄军建 +2 位作者 成平广 席海 李军 《科学技术与工程》 北大核心 2013年第4期1060-1063,共4页
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树... 同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。 展开更多
关键词 网页净化 信息提取 单边子树
下载PDF
基于局部最优标签树的网页净化方法
4
作者 胡飞 杨华千 +2 位作者 韦鹏程 彭涛 蒲昌玖 《科学技术与工程》 北大核心 2012年第35期9556-9561,共6页
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实... 新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。 展开更多
关键词 网页净化 信息提取 HTML标签 局部最优 网页噪音
下载PDF
基于局部语义的网页净化算法
5
作者 谢华 刘卫国 《计算机系统应用》 2007年第5期25-28,共4页
网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音。本文提出一种基于局部语义的网页净化算法。算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除... 网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音。本文提出一种基于局部语义的网页净化算法。算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除去与网页主体的相关性低于预定阈值的局部语义节点,达到网页净化的目的。实验表明算法是有效的。 展开更多
关键词 局部语义 网页净化 本地噪音 算法
下载PDF
网页净化及去重研究综述 被引量:1
6
作者 罗元 《现代计算机》 2013年第10期3-7,12,共6页
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索... 随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索结果中经常出现内容相同的冗余页面的问题。所以在网页数据的应用过程中网页净化、网页去重是一个基础问题,也是目前研究的一个热点问题。所以很有必要对网页净化和网页去重领域进行总结,以便更好地深入研究。从网页净化、去重的必要性出发,对它们进行定义和分类,概述多种网页净化、去重的方法和框架,并对其进行总结。 展开更多
关键词 网页去重 网页净化 信息检索 万维网
下载PDF
一种新的用于数据挖掘工具的网页净化算法
7
作者 孙楠 张华伟 《郑州轻工业学院学报(自然科学版)》 CAS 2011年第3期85-87,91,共4页
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要... 为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在<table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声. 展开更多
关键词 网页净化 网页噪声 文档对象模型 阈值
下载PDF
基于DOM和神经网络的网页净化应用 被引量:2
8
作者 李剑 《电子科技》 2012年第1期105-107,共3页
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个... 为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。 展开更多
关键词 网页净化 DOM树 内容块 神经网络
下载PDF
一种基于单模型的网页净化方法
9
作者 干文敏 李俊 李剑 《计算机与现代化》 2012年第2期128-130,共3页
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络... 为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。 展开更多
关键词 网页净化 DOM树 内容块 神经网络
下载PDF
远离广告净化网络网页净化器
10
《电脑知识与技术(经验技巧)》 2008年第6期16-16,共1页
网页净化器是一款网页广告过滤工具,可以有效的屏蔽网页上的各种广告。值得一提的是,该软件不仅可用于Internet Explorer、FireFox、0pera,还可用于以IE为内核的NetCaptor等浏览器。网页净化器在默认情况下可以解决最常见的广告类型... 网页净化器是一款网页广告过滤工具,可以有效的屏蔽网页上的各种广告。值得一提的是,该软件不仅可用于Internet Explorer、FireFox、0pera,还可用于以IE为内核的NetCaptor等浏览器。网页净化器在默认情况下可以解决最常见的广告类型,当然,程序也支持用户定制自己的过滤器。 展开更多
关键词 广告过滤 网页净化 网络 浏览器
下载PDF
一种基于内容规则的网页去噪算法 被引量:4
11
作者 王建冬 王继民 田飞佳 《现代图书情报技术》 CSSCI 北大核心 2008年第3期51-54,共4页
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主... 提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 展开更多
关键词 网页净化 编辑距离
下载PDF
中文网页分类的研究与实现 被引量:13
12
作者 程传鹏 《中原工学院学报》 CAS 2007年第1期61-64,共4页
描述了一个完整的中文网页分类系统的设计和实现过程,重点介绍了网页分类中的网页净化、特征加权、KNN分类等关键技术.并结合网页的特征,对分类中的特征加权公式进行了一定的改进.实验结果表明改进后的特征加权公式取得了较高的分类准确率.
关键词 网页分类 网页净化 特征加权 KNN分类
下载PDF
基于网页分块的搜索引擎排序算法改进
13
作者 高乐 张健 钱杰 《浙江工业大学学报》 CAS 北大核心 2009年第5期495-498,共4页
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定... 目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性. 展开更多
关键词 网页噪音 网页分块 网页净化 排序算法 VIPS
下载PDF
一种有效的网页噪声消除的方法 被引量:3
14
作者 罗成 李弼程 张先飞 《计算机工程》 CAS CSCD 北大核心 2007年第8期89-91,共3页
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的... 大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。 展开更多
关键词 文档树 模式树 基本节点 风格节点 网页净化
下载PDF
网页信息提取技术 被引量:1
15
作者 邵振凯 《计算机技术与发展》 2013年第9期36-38,42,共4页
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析... 随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。 展开更多
关键词 DOM 标签提取 信息提取 网页净化
下载PDF
搜索引擎搜索结果中文网页分类系统
16
作者 周莹 《科教文汇》 2007年第05S期198-199,共2页
论文设计实现中文搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页主题内容提取。对于不容易分类的网页,采用基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,构造中文文本分类器,并编程实现,通... 论文设计实现中文搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页主题内容提取。对于不容易分类的网页,采用基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,构造中文文本分类器,并编程实现,通过实例测试分类器性能。 展开更多
关键词 WEB文本分类 文本聚类 网页净化Na·ve BAYES分类器
下载PDF
多层次web文本分类 被引量:12
17
作者 凌云 刘军 王勋 《情报学报》 CSSCI 北大核心 2005年第6期684-689,共6页
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根... 传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类.这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题.同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式.实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好. 展开更多
关键词 文本分类 网页净化 LSA LS空间
下载PDF
基于模式匹配的网页净化方法
18
作者 曾蒸 马燕 《重庆师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期103-108,共6页
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,... 新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 展开更多
关键词 网页噪音 网页净化 信息提取
原文传递
互联网视频摘要信息自动抽取
19
作者 易荣锋 朱六璋 尹文科 《计算机系统应用》 2010年第10期237-241,共5页
提出一种识别视频播放页,并从中抽取视频摘要信息的方法,播放页的自动识别是通过三个判定要素的运用来实现,播放页内摘要信息的抽取是通过依次去除背景噪声、随机噪声、残留噪声来实现。有关实验结果表明,该方法具有较好的通用性。
关键词 摘要信息抽取 互联网视频 网页净化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部