期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于内容相似度的网页正文提取 被引量:20
1
作者 王利 刘宗田 +1 位作者 王燕华 廖涛 《计算机工程》 CAS CSCD 北大核心 2010年第6期102-104,共3页
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此... 提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 展开更多
关键词 网页正文抽取 网页映射 网页清洗 文本相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部