-
题名基于DOM的网页主题信息自动提取
被引量:81
- 1
-
-
作者
王琦
唐世渭
杨冬青
王腾蛟
-
机构
北京大学视觉与听觉信息处理国家重点实验室
北京大学计算机科学与技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1786-1792,共7页
-
基金
国家"九七三"重点基础研究发展规划基金项目 (G19990 3 2 70 5 )
国家"八六三"高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题 ( 2 0 0 2AA4Z3 440 )
-
文摘
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 。
-
关键词
DOM
信息提取
分块
STU
STU树
stu-dom树
相关度
-
Keywords
DOM
information extraction
partition
STU
STU tree
stu-dom tree
correlativity
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于信息熵的Web页面主题信息抽取方法
被引量:6
- 2
-
-
作者
贺智平
徐学洲
李爱玲
-
机构
西安电子科技大学软件工程研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第4期164-166,共3页
-
文摘
提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。
-
关键词
WEB
抽取
stu-dom树
信息熵
-
Keywords
Web
extraction
stu-dom tree
information entropy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于标题与文本距离的网页去噪算法的研究
- 3
-
-
作者
苏秀芝
-
机构
湖南软件职业学院
-
出处
《中小企业管理与科技》
2014年第24期229-230,共2页
-
文摘
使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。
-
关键词
网页去噪
stu-dom
词共现
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名面向Web的新闻网页正文信息抽取策略研究
- 4
-
-
作者
陈蕾蕾
张如静
-
机构
南京师范大学教育技术系
-
出处
《电脑知识与技术》
2008年第S2期1-2,共2页
-
文摘
本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。
-
关键词
统计
STU树
信息抽取
-
Keywords
statistical
stu-dom tree
information extraction
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-