-
题名基于机器学习的网页正文提取方法
被引量:7
- 1
-
-
作者
安增文
王超
徐杰锋
-
机构
中国石油大学(华东)计算机与通信工程学院计算机科学与技术系
-
出处
《微型机与应用》
2010年第12期4-6,共3页
-
文摘
先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。
-
关键词
信息提取
神经网络
统计学习
-
Keywords
information extraction
neural network
statistical learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CURE算法的网页分块及正文块提取研究
被引量:1
- 2
-
-
作者
王超
徐杰锋
-
机构
中国石油大学(华东)计算机与通信工程学院计算机科学与技术系
-
出处
《微型机与应用》
2012年第12期11-14,共4页
-
文摘
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
-
关键词
WEB信息抽取
聚类算法
页面分块
正文块提取
-
Keywords
Web information extraction
clustering algorithm
page block
text block extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-