期刊文献+

基于Tag-Tree模板的结构化论坛信息提取

下载PDF
导出
摘要 结构化的论坛网站多采用动态网页生成技术,将后台数据库的记录信息加入HTML模板,以动态地显示在网页上。与此过程对称,本文首先将不同BBS网站的大量网页解析为Tag-Tree,然后计算树的相似度与构建代价生成多类Tag-Tree模板,同时得到每个模板所对应的网页,寻找模板的重复模式确定记录边界。最后,利用模板解析相应网页得到非模板内容,进而采用启发式规则提取结构信息与记录内容。
作者 程倩楠
出处 《电子技术与软件工程》 2017年第14期260-260,共1页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部