期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于DOM的网页主题信息自动提取 被引量:81
1
作者 王琦 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1786-1792,共7页
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模... Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。 展开更多
关键词 DOM 信息提取 分块 STU STU树 stu-dom 相关度
下载PDF
一种基于信息熵的Web页面主题信息抽取方法 被引量:6
2
作者 贺智平 徐学洲 李爱玲 《计算机工程与应用》 CSCD 北大核心 2007年第4期164-166,共3页
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行We... 提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。 展开更多
关键词 WEB 抽取 stu-dom 信息熵
下载PDF
基于标题与文本距离的网页去噪算法的研究
3
作者 苏秀芝 《中小企业管理与科技》 2014年第24期229-230,共2页
使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中... 使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。 展开更多
关键词 网页去噪 stu-dom 词共现
下载PDF
面向Web的新闻网页正文信息抽取策略研究
4
作者 陈蕾蕾 张如静 《电脑知识与技术》 2008年第S2期1-2,共2页
本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正... 本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。 展开更多
关键词 统计 STU树 信息抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部