期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于DOM的网页主题信息自动提取 被引量:81
1
作者 王琦 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1786-1792,共7页
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模... Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。 展开更多
关键词 DOM 信息提取 分块 STU STU stu-dom树 相关度
下载PDF
一种基于信息熵的Web页面主题信息抽取方法 被引量:6
2
作者 贺智平 徐学洲 李爱玲 《计算机工程与应用》 CSCD 北大核心 2007年第4期164-166,共3页
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行We... 提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。 展开更多
关键词 WEB 抽取 stu-dom树 信息熵
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部