期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语义和版式的网上人物信息提取
1
作者 燕敏 岳萍 杜开峰 《微计算机信息》 2010年第12期145-147,共3页
本文利用本体思想,采用基于规则和统计相结合的算法,提出了一种网上人物信息提取算法,实现了半结构化人物信息的自动提取。通过程序统计的方法创建了一个包含4624个有效字段名的词典,用来检验提取出的字段名是否有效,当字段名有效时再... 本文利用本体思想,采用基于规则和统计相结合的算法,提出了一种网上人物信息提取算法,实现了半结构化人物信息的自动提取。通过程序统计的方法创建了一个包含4624个有效字段名的词典,用来检验提取出的字段名是否有效,当字段名有效时再提取其对应的字段值,大大提高了信息提取的准确率。实验结果表明,该算法对半结构化web人物网页信息提取具有较高的效率,平均准确率为97.6%,平均召回率为86.1%。 展开更多
关键词 WEB信息抽取 抽取规则 半结构化网页 XML 版式分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部