期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于机器学习的网页正文提取方法 被引量:7
1
作者 安增文 王超 徐杰锋 《微型机与应用》 2010年第12期4-6,共3页
先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。
关键词 信息提取 神经网络 统计学习
下载PDF
基于CURE算法的网页分块及正文块提取研究 被引量:1
2
作者 王超 徐杰锋 《微型机与应用》 2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信... 研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 展开更多
关键词 WEB信息抽取 聚类算法 页面分块 正文块提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部