期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于统计的网页净化模板生成算法
1
作者
胡飞
黄军建
+2 位作者
成平广
席海
李军
《科学技术与工程》
北大核心
2013年第4期1060-1063,共4页
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树...
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
展开更多
关键词
网页净化
信息提取
单边子树
下载PDF
职称材料
基于局部最优标签树的网页净化方法
2
作者
胡飞
杨华千
+2 位作者
韦鹏程
彭涛
蒲昌玖
《科学技术与工程》
北大核心
2012年第35期9556-9561,共6页
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实...
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。
展开更多
关键词
网页净化
信息提取
HTML标签
局部最优
网页噪音
下载PDF
职称材料
基于信息量衰减幅度的网页正文提取
被引量:
1
3
作者
陈阳
陈兴蜀
吴麒
《计算机工程与设计》
CSCD
北大核心
2012年第7期2555-2560,共6页
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅...
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。
展开更多
关键词
网页正文提取
标签树
主题区域子树
信息抽取
网页噪音
下载PDF
职称材料
基于模式匹配的网页净化方法
4
作者
曾蒸
马燕
《重庆师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2015年第6期103-108,共6页
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,...
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。
展开更多
关键词
网页噪音
网页净化
信息提取
原文传递
题名
基于统计的网页净化模板生成算法
1
作者
胡飞
黄军建
成平广
席海
李军
机构
重庆第二师范学院网络中心
重庆第二师范学院财务处
重庆第二师范学院教务处
出处
《科学技术与工程》
北大核心
2013年第4期1060-1063,共4页
基金
重庆教育学院研究项目(KY201176C)资助
文摘
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
关键词
网页净化
信息提取
单边子树
Keywords
web page purification information extraction unilateral subtree
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于局部最优标签树的网页净化方法
2
作者
胡飞
杨华千
韦鹏程
彭涛
蒲昌玖
机构
重庆第二师范学院网络中心
数学与信息工程系
出处
《科学技术与工程》
北大核心
2012年第35期9556-9561,共6页
基金
重庆第二师范学院研究项目(KY201176C、KY201175C)资助
文摘
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。
关键词
网页净化
信息提取
HTML标签
局部最优
网页噪音
Keywords
web
page
purification
information
extraction
HTML tags local optimal
web
page
noise9561
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于信息量衰减幅度的网页正文提取
被引量:
1
3
作者
陈阳
陈兴蜀
吴麒
机构
四川大学计算机学院网络与可信计算研究所
中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2012年第7期2555-2560,共6页
基金
国家973重点基础研究发展计划基金项目(2007CB311106)
国家信息安全专项(242项目)基金项目((242)2009A82)
文摘
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。
关键词
网页正文提取
标签树
主题区域子树
信息抽取
网页噪音
Keywords
content
information
extraction
tag tree
primary area
subtree
information
extraction
noise of
web
page
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于模式匹配的网页净化方法
4
作者
曾蒸
马燕
机构
重庆师范大学传媒学院/新媒体学院
重庆师范大学计算机与信息科学学院
出处
《重庆师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2015年第6期103-108,共6页
基金
重庆市教育委员会高等教育教学改革项目(No.143031)
文摘
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。
关键词
网页噪音
网页净化
信息提取
Keywords
web
page
noise
web
page
purification
information
extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于统计的网页净化模板生成算法
胡飞
黄军建
成平广
席海
李军
《科学技术与工程》
北大核心
2013
0
下载PDF
职称材料
2
基于局部最优标签树的网页净化方法
胡飞
杨华千
韦鹏程
彭涛
蒲昌玖
《科学技术与工程》
北大核心
2012
0
下载PDF
职称材料
3
基于信息量衰减幅度的网页正文提取
陈阳
陈兴蜀
吴麒
《计算机工程与设计》
CSCD
北大核心
2012
1
下载PDF
职称材料
4
基于模式匹配的网页净化方法
曾蒸
马燕
《重庆师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2015
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部