期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
一种结合文本和链接分析的局部Web社区识别技术 被引量:10
1
作者 张宪超 徐雯 +1 位作者 高亮 梁文新 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2352-2358,共7页
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提... 当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点. 展开更多
关键词 web社区识别 最大流算法 文本相似度 web挖掘 信息检索
下载PDF
基于结构与内容的Web主要信息提取方法研究
2
作者 张文东 李伟 《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发... Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 展开更多
关键词 web页面 内容 结构 分块 信息提取
下载PDF
基于网页分块的正文信息提取方法 被引量:13
3
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 web信息抽取 主题内容块 网页正文信息
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
4
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 web信息搜集 链接价值 主题漂移
下载PDF
基于CURE算法的网页分块及正文块提取研究 被引量:1
5
作者 王超 徐杰锋 《微型机与应用》 2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信... 研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 展开更多
关键词 web信息抽取 聚类算法 页面分块 正文块提取
下载PDF
网页中信息部分识别研究
6
作者 熊磊 谭庆平 《计算机与数字工程》 2008年第10期140-144,共5页
以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是... 以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是否存储。最后通过实验实现了提出的算法,实验结果显示了提出的算法有着良好的效果。 展开更多
关键词 网页 内容块 识别 算法
下载PDF
网页中信息部分自动识别研究
7
作者 操惊雷 《黄冈师范学院学报》 2009年第3期50-52,66,共4页
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第... 从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。 展开更多
关键词 网页 内容块 识别 算法
下载PDF
社会媒体网页内容的分割与抽取
8
作者 解姝 叶施仁 肖春 《计算机工程》 CAS CSCD 北大核心 2011年第21期155-158,共4页
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社... 为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。 展开更多
关键词 社会媒体 DOM结构 K-MEANS算法 自学习 抽取规则 网页内容抽取
下载PDF
基于DOM和神经网络的网页净化应用 被引量:2
9
作者 李剑 《电子科技》 2012年第1期105-107,共3页
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个... 为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。 展开更多
关键词 网页净化 DOM树 内容块 神经网络
下载PDF
一种基于单模型的网页净化方法
10
作者 干文敏 李俊 李剑 《计算机与现代化》 2012年第2期128-130,共3页
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络... 为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。 展开更多
关键词 网页净化 DOM树 内容块 神经网络
下载PDF
基于决策树与单元距离抽取新闻网页内容
11
作者 王晓 罗永莲 《晋中学院学报》 2019年第3期66-71,共6页
针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上... 针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上建立决策树,并根据规则定位新闻标题.利用网页标记的嵌套特征,缩小查找范围,根据网页各信息块间的显著边界定位新闻正文.实验结果表明,该方法抽取新闻标题的准确率在87%以上,抽取正文的平均准确率达到76%,对其他网页文本处理具有一定借鉴意义. 展开更多
关键词 信息增益 决策树 新闻网页 内容抽取 网页信息块
下载PDF
基于决策树的自适应网页正文抽取方法
12
作者 吕容政 刘嘉勇 《现代计算机》 2019年第7期16-22,共7页
为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差... 为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差,选取标签用途、文本密度、兄弟节点的相似性标签的外链四个特征向量表征DOM树的叶子结点,避免特征向量单一导致的分类误差大。其次通过对已知样本的分析得到的四个特征向量特征,并使用决策树方法将叶子结点分为正文类和噪声类。最后根据分类的结果计算DOM树中非叶子结点的信噪比,选取信噪比最高的DOM树结点即获取的网页正文,通过这种方式克服其他网页正文抽取中需要人工确定不同类型网页的阈值的问题,并且实验证明,保证同样的正确率下,可以适用更多类型的网页。 展开更多
关键词 决策树分类算法 网页正文抽取 自适应网页正文抽取 DOM树解析
下载PDF
基于块密度加权标签路径特征的Web新闻在线抽取 被引量:3
13
作者 吴共庆 刘鹏程 +1 位作者 胡骏 胡学钢 《中国科学:信息科学》 CSCD 北大核心 2017年第8期1078-1094,共17页
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声... Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum. 展开更多
关键词 内容抽取 web新闻 文本块密度 标签路径特征 在线算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部