期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于扩展标记树的网页正文抽取
被引量:
2
1
作者
夏天
《广西师范大学学报(自然科学版)》
CAS
北大核心
2011年第1期133-137,共5页
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,...
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
展开更多
关键词
网页正文抽取
扩展标记树
近邻优先遍历
下载PDF
职称材料
中心网页中主题网页链接的自动抽取
被引量:
4
2
作者
夏天
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第5期25-31,共7页
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之...
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。
展开更多
关键词
链接抽取
扩展标记树
链接前缀
树
原文传递
题名
基于扩展标记树的网页正文抽取
被引量:
2
1
作者
夏天
机构
数据工程与知识工程教育部重点实验室
中国人民大学信息资源管理学院
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2011年第1期133-137,共5页
基金
国家自然科学基金资助项目(09CTQ027)
教育部科学技术研究重点项目(109005)
中国人民大学科学研究基金项目(22382078)
文摘
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
关键词
网页正文抽取
扩展标记树
近邻优先遍历
Keywords
Web page content extraction
extended label tree
neighbor first traversal
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中心网页中主题网页链接的自动抽取
被引量:
4
2
作者
夏天
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息资源管理学院
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第5期25-31,共7页
基金
国家社会科学基金资助项目(09CTQ027)
文摘
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。
关键词
链接抽取
扩展标记树
链接前缀
树
Keywords
link extraction
extended label tree
link prefix tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于扩展标记树的网页正文抽取
夏天
《广西师范大学学报(自然科学版)》
CAS
北大核心
2011
2
下载PDF
职称材料
2
中心网页中主题网页链接的自动抽取
夏天
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012
4
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部