期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种结合文本和链接分析的局部Web社区识别技术
被引量:
10
1
作者
张宪超
徐雯
+1 位作者
高亮
梁文新
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2352-2358,共7页
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提...
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.
展开更多
关键词
web
社区识别
最大流算法
文本相似度
web
挖掘
信息检索
下载PDF
职称材料
基于结构与内容的Web主要信息提取方法研究
2
作者
张文东
李伟
《计算机工程与设计》
CSCD
北大核心
2008年第24期6210-6212,共3页
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发...
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。
展开更多
关键词
web
页面
内容
结构
分块
信息提取
下载PDF
职称材料
基于网页分块的正文信息提取方法
被引量:
13
3
作者
黄玲
陈龙
《计算机应用》
CSCD
北大核心
2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中...
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。
展开更多
关键词
web
信息抽取
主题内容块
网页正文信息
下载PDF
职称材料
改进的Shark-search算法在网络采集中的应用
被引量:
1
4
作者
张玲
祁玉娟
姜华
《计算机技术与发展》
2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研...
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。
展开更多
关键词
Shark-search算法
网页分块
web
信息搜集
链接价值
主题漂移
下载PDF
职称材料
基于CURE算法的网页分块及正文块提取研究
被引量:
1
5
作者
王超
徐杰锋
《微型机与应用》
2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信...
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
展开更多
关键词
web
信息抽取
聚类算法
页面分块
正文块提取
下载PDF
职称材料
网页中信息部分识别研究
6
作者
熊磊
谭庆平
《计算机与数字工程》
2008年第10期140-144,共5页
以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是...
以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是否存储。最后通过实验实现了提出的算法,实验结果显示了提出的算法有着良好的效果。
展开更多
关键词
网页
内容块
识别
算法
下载PDF
职称材料
网页中信息部分自动识别研究
7
作者
操惊雷
《黄冈师范学院学报》
2009年第3期50-52,66,共4页
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第...
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。
展开更多
关键词
网页
内容块
识别
算法
下载PDF
职称材料
社会媒体网页内容的分割与抽取
8
作者
解姝
叶施仁
肖春
《计算机工程》
CAS
CSCD
北大核心
2011年第21期155-158,共4页
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社...
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。
展开更多
关键词
社会媒体
DOM结构
K-MEANS算法
自学习
抽取规则
网页内容抽取
下载PDF
职称材料
基于DOM和神经网络的网页净化应用
被引量:
2
9
作者
李剑
《电子科技》
2012年第1期105-107,共3页
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个...
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。
展开更多
关键词
网页净化
DOM树
内容块
神经网络
下载PDF
职称材料
一种基于单模型的网页净化方法
10
作者
干文敏
李俊
李剑
《计算机与现代化》
2012年第2期128-130,共3页
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络...
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。
展开更多
关键词
网页净化
DOM树
内容块
神经网络
下载PDF
职称材料
基于决策树与单元距离抽取新闻网页内容
11
作者
王晓
罗永莲
《晋中学院学报》
2019年第3期66-71,共6页
针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上...
针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上建立决策树,并根据规则定位新闻标题.利用网页标记的嵌套特征,缩小查找范围,根据网页各信息块间的显著边界定位新闻正文.实验结果表明,该方法抽取新闻标题的准确率在87%以上,抽取正文的平均准确率达到76%,对其他网页文本处理具有一定借鉴意义.
展开更多
关键词
信息增益
决策树
新闻网页
内容抽取
网页信息块
下载PDF
职称材料
基于决策树的自适应网页正文抽取方法
12
作者
吕容政
刘嘉勇
《现代计算机》
2019年第7期16-22,共7页
为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差...
为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差,选取标签用途、文本密度、兄弟节点的相似性标签的外链四个特征向量表征DOM树的叶子结点,避免特征向量单一导致的分类误差大。其次通过对已知样本的分析得到的四个特征向量特征,并使用决策树方法将叶子结点分为正文类和噪声类。最后根据分类的结果计算DOM树中非叶子结点的信噪比,选取信噪比最高的DOM树结点即获取的网页正文,通过这种方式克服其他网页正文抽取中需要人工确定不同类型网页的阈值的问题,并且实验证明,保证同样的正确率下,可以适用更多类型的网页。
展开更多
关键词
决策树分类算法
网页正文抽取
自适应网页正文抽取
DOM树解析
下载PDF
职称材料
基于块密度加权标签路径特征的Web新闻在线抽取
被引量:
3
13
作者
吴共庆
刘鹏程
+1 位作者
胡骏
胡学钢
《中国科学:信息科学》
CSCD
北大核心
2017年第8期1078-1094,共17页
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声...
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
展开更多
关键词
内容抽取
web
新闻
文本块密度
标签路径特征
在线算法
原文传递
题名
一种结合文本和链接分析的局部Web社区识别技术
被引量:
10
1
作者
张宪超
徐雯
高亮
梁文新
机构
大连理工大学软件学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2352-2358,共7页
基金
国家自然科学基金项目(61272374)
教育部新世纪优秀人才支持计划项目(NCET-11-0056)
+1 种基金
高等学校博士学科点专项科研基金(新教师类)项目(20100041120033)
中央高校基本科研业务费专项资金项目(DUT10JR02)
文摘
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.
关键词
web
社区识别
最大流算法
文本相似度
web
挖掘
信息检索
Keywords
web
community
identification
maximum flow
algorithm
content
similarity
web
mining
information retrieval
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于结构与内容的Web主要信息提取方法研究
2
作者
张文东
李伟
机构
中国石油大学计算机与通信工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2008年第24期6210-6212,共3页
文摘
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。
关键词
web
页面
内容
结构
分块
信息提取
Keywords
web page
s
content
structure
block
ing
information extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网页分块的正文信息提取方法
被引量:
13
3
作者
黄玲
陈龙
机构
重庆邮电大学计算机科学与技术研究所
出处
《计算机应用》
CSCD
北大核心
2008年第S2期326-328,共3页
基金
重庆市自然科学基金资助项目(2007BB2454)
文摘
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。
关键词
web
信息抽取
主题内容块
网页正文信息
Keywords
web
information extraction
informative
content block
main text of
web page
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进的Shark-search算法在网络采集中的应用
被引量:
1
4
作者
张玲
祁玉娟
姜华
机构
湖南省第一师范学院信息科学与工程学院
出处
《计算机技术与发展》
2017年第8期192-194,199,共4页
基金
湖南省教育科研基金(15C0284)
文摘
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。
关键词
Shark-search算法
网页分块
web
信息搜集
链接价值
主题漂移
Keywords
Shark-search
algorithm
web page
block
ing
web
crawler
linkages' value
topic-drfit
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
基于CURE算法的网页分块及正文块提取研究
被引量:
1
5
作者
王超
徐杰锋
机构
中国石油大学(华东)计算机与通信工程学院计算机科学与技术系
出处
《微型机与应用》
2012年第12期11-14,共4页
文摘
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
关键词
web
信息抽取
聚类算法
页面分块
正文块提取
Keywords
web
information extraction
clustering
algorithm
page
block
text
block
extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页中信息部分识别研究
6
作者
熊磊
谭庆平
机构
国防科技大学计算机学院
出处
《计算机与数字工程》
2008年第10期140-144,共5页
文摘
以搜索引擎为需求,研究网页中信息部分识别技术,探讨了网页识别技术相关内容和技术,提出了算法。第一步将网页初步划分为块,第二步从初步划分出来的块中识别出重要信息块,第三步将识别出来的重要信息块与存储的重要信息块比较,来决定是否存储。最后通过实验实现了提出的算法,实验结果显示了提出的算法有着良好的效果。
关键词
网页
内容块
识别
算法
Keywords
web page
,
content block
,
identification
,
algorithm
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页中信息部分自动识别研究
7
作者
操惊雷
机构
黄冈职业技术学院
出处
《黄冈师范学院学报》
2009年第3期50-52,66,共4页
文摘
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。
关键词
网页
内容块
识别
算法
Keywords
web page
content block
identification
algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
社会媒体网页内容的分割与抽取
8
作者
解姝
叶施仁
肖春
机构
湘潭大学智能计算与信息处理教育部重点实验室
常州大学信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第21期155-158,共4页
文摘
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。
关键词
社会媒体
DOM结构
K-MEANS算法
自学习
抽取规则
网页内容抽取
Keywords
social media
DOM structure
k-means
algorithm
self-learning
extraction rule
web page
content
extraction
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于DOM和神经网络的网页净化应用
被引量:
2
9
作者
李剑
机构
南昌陆军学院战斗实验室
出处
《电子科技》
2012年第1期105-107,共3页
文摘
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。
关键词
网页净化
DOM树
内容块
神经网络
Keywords
web page
purification
DOM tree
content block
neural network
分类号
TP393.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于单模型的网页净化方法
10
作者
干文敏
李俊
李剑
机构
南京航空航天大学计算机科学与技术学院
南昌陆军学院战斗实验室
出处
《计算机与现代化》
2012年第2期128-130,共3页
文摘
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。
关键词
网页净化
DOM树
内容块
神经网络
Keywords
web page
purification
DOM tree
content block
neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于决策树与单元距离抽取新闻网页内容
11
作者
王晓
罗永莲
机构
晋中学院信息技术与工程学院
出处
《晋中学院学报》
2019年第3期66-71,共6页
基金
山西省教育科学“十三五”规划课题:“基于创新创业教育理念的大数据相关专业教学模式研究”(GH-18091)
晋中学院教学改革创新项目:“创新创业教育融入数据科学和大数据技术专业教育的案例研究”(Jg201807)
文摘
针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上建立决策树,并根据规则定位新闻标题.利用网页标记的嵌套特征,缩小查找范围,根据网页各信息块间的显著边界定位新闻正文.实验结果表明,该方法抽取新闻标题的准确率在87%以上,抽取正文的平均准确率达到76%,对其他网页文本处理具有一定借鉴意义.
关键词
信息增益
决策树
新闻网页
内容抽取
网页信息块
Keywords
information gain
decision tree
news
web page
content
extraction
web page
visual
block
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于决策树的自适应网页正文抽取方法
12
作者
吕容政
刘嘉勇
机构
四川大学电子信息学院
四川大学网络空间安全学院
出处
《现代计算机》
2019年第7期16-22,共7页
文摘
为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差,选取标签用途、文本密度、兄弟节点的相似性标签的外链四个特征向量表征DOM树的叶子结点,避免特征向量单一导致的分类误差大。其次通过对已知样本的分析得到的四个特征向量特征,并使用决策树方法将叶子结点分为正文类和噪声类。最后根据分类的结果计算DOM树中非叶子结点的信噪比,选取信噪比最高的DOM树结点即获取的网页正文,通过这种方式克服其他网页正文抽取中需要人工确定不同类型网页的阈值的问题,并且实验证明,保证同样的正确率下,可以适用更多类型的网页。
关键词
决策树分类算法
网页正文抽取
自适应网页正文抽取
DOM树解析
Keywords
Decision Tree Classification
algorithm
web
content
Extraction
Adaptive
web page
Extraction
Document Object Model (DOM) Parsing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于块密度加权标签路径特征的Web新闻在线抽取
被引量:
3
13
作者
吴共庆
刘鹏程
胡骏
胡学钢
机构
合肥工业大学计算机与信息学院
出处
《中国科学:信息科学》
CSCD
北大核心
2017年第8期1078-1094,共17页
基金
国家重点研发计划(批准号:2016YFB1000901)
教育部创新团队发展计划(批准号:IRT13059)
+2 种基金
国家自然科学基金(批准号:612-73297
61673152)
国家留学基金(批准号:201506695019)资助项目
文摘
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
关键词
内容抽取
web
新闻
文本块密度
标签路径特征
在线算法
Keywords
content
extraction
web
news
text
block
density
tag path feature
online
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.09 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种结合文本和链接分析的局部Web社区识别技术
张宪超
徐雯
高亮
梁文新
《计算机研究与发展》
EI
CSCD
北大核心
2012
10
下载PDF
职称材料
2
基于结构与内容的Web主要信息提取方法研究
张文东
李伟
《计算机工程与设计》
CSCD
北大核心
2008
0
下载PDF
职称材料
3
基于网页分块的正文信息提取方法
黄玲
陈龙
《计算机应用》
CSCD
北大核心
2008
13
下载PDF
职称材料
4
改进的Shark-search算法在网络采集中的应用
张玲
祁玉娟
姜华
《计算机技术与发展》
2017
1
下载PDF
职称材料
5
基于CURE算法的网页分块及正文块提取研究
王超
徐杰锋
《微型机与应用》
2012
1
下载PDF
职称材料
6
网页中信息部分识别研究
熊磊
谭庆平
《计算机与数字工程》
2008
0
下载PDF
职称材料
7
网页中信息部分自动识别研究
操惊雷
《黄冈师范学院学报》
2009
0
下载PDF
职称材料
8
社会媒体网页内容的分割与抽取
解姝
叶施仁
肖春
《计算机工程》
CAS
CSCD
北大核心
2011
0
下载PDF
职称材料
9
基于DOM和神经网络的网页净化应用
李剑
《电子科技》
2012
2
下载PDF
职称材料
10
一种基于单模型的网页净化方法
干文敏
李俊
李剑
《计算机与现代化》
2012
0
下载PDF
职称材料
11
基于决策树与单元距离抽取新闻网页内容
王晓
罗永莲
《晋中学院学报》
2019
0
下载PDF
职称材料
12
基于决策树的自适应网页正文抽取方法
吕容政
刘嘉勇
《现代计算机》
2019
0
下载PDF
职称材料
13
基于块密度加权标签路径特征的Web新闻在线抽取
吴共庆
刘鹏程
胡骏
胡学钢
《中国科学:信息科学》
CSCD
北大核心
2017
3
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部