-
题名一种基于内容规则的网页去噪算法
被引量:4
- 1
-
-
作者
王建冬
王继民
田飞佳
-
机构
北京大学信息管理系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第3期51-54,共4页
-
基金
国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一
-
文摘
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。
-
关键词
网页净化
编辑距离
-
Keywords
noise reduction in web pages levenshtein distance
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于LCS的特征树最大相似性匹配网页去噪算法
被引量:3
- 2
-
-
作者
宋鳌
支琤
周军
罗传飞
安然
-
机构
上海交通大学电子工程系图像通信与信息处理研究所
上海交通大学上海市数字媒体处理与传输重点实验室
上海文广互动电视有限公司
-
出处
《电视技术》
北大核心
2011年第13期44-48,63,共6页
-
基金
国家"863"计划项目(2008BAH28B04)
上海市科委资助项目(08dz1500108)
+2 种基金
中国博士后科学基金
上海市博士后基金资助项目(20090460637
10R21414800)
-
文摘
提出了一种基于LCS的特征树最大相似性匹配网页去噪算法。通过将目标网页和相似网页转化为特征树,并将特征树映射为一个特征节点序列,利用LCS算法能获得最长子序列全局最优解的特点,找出两棵特征树之间的不同节点作为候选集,并对候选集进行聚集评分找出网页重要内容块。给出了算法的原型系统,并对每一个模块的实现做了详尽的描述。
-
关键词
LCS
特征树
网页去噪
-
Keywords
LCS
characteristic tree
noise reduction in web pages
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络爬虫和改进的LCS算法的网站更新监测
被引量:2
- 3
-
-
作者
周孝锞
郭克华
-
机构
中南大学信息科学与工程学院
高维信息智能感知与系统教育部重点实验室
-
出处
《计算机应用与软件》
2017年第1期222-229,共8页
-
基金
国家自然科学基金项目(61202341)
高维信息智能感知与系统教育部重点实验室创新基金项目(JYB201502)
+3 种基金
科技部国家国际科技合作专项项目(2013DFB10070)
湖南省创新平台专项项目(2012GK4106)
中南大学创新驱动计划
中南大学升华育英计划
-
文摘
互联网时代,信息爆炸式增长,用户需要方便及时地获取自己所需的信息。传统的搜索引擎和以RSS为代表的订阅具有一些缺陷,难以满足用户高质量需求。在此基础上,利用网络爬虫和文本对比,提出一种新型网站更新监测与订阅的通用方法。该方法将先后抓取的网页内容分析处理后,进行文本对比,检测更新内容,将结果以结构化形式返回给用户查看。实验表明,该方法解决了RSS订阅受订阅源限制的缺点,实现了用户添加任意网站,在高校、企业、新闻、电影、博客、论坛等网站的监测方面具有较好的效果。
-
关键词
网络爬虫
网页去噪
网站订阅
文本对比
更新监测
-
Keywords
web crawler
noise reduction in web pages
website subscription
Text contrast
Update detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-