-
题名结合网页结构与文本特征的正文提取方法
被引量:15
- 1
-
-
作者
熊忠阳
蔺显强
张玉芳
牙漫
-
机构
重庆大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
2013年第12期200-203,210,共5页
-
基金
国家自然科学基金资助项目(71102065)
-
文摘
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。
-
关键词
正文提取
网页去噪
网页分块
主题爬行
信息检索
WEB挖掘
-
Keywords
content extraction
Web page denoising
Web page segmentation
subject crawling
information retrieve
Web mining
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于网页正文结构和特征串的相似网页去重算法
被引量:11
- 2
-
-
作者
熊忠阳
牙漫
张玉芳
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第2期554-557,共4页
-
文摘
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
-
关键词
网页去重
网页标签值
高频标点
特征码
网页指纹相似度
-
Keywords
detection and elimination of similar Web pages
Web label value
high frequency punctuation
feature code
fingerprint similarity of Web page
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-