期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于树编辑距离的聚类算法数据记录抽取
1
作者 宫丽娜 祝美莲 《赤峰学院学报(自然科学版)》 2013年第12期28-30,共3页
本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计... 本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计算相似度,找出最佳分割方案.本文通过对大量不同领域的网页进行测试,结果表明本文方法具有较高的准确率. 展开更多
关键词 数据区域 数据记录抽取 树编辑距离 聚类算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部