期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多种策略的页面内容提取算法 被引量:4
1
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 vips(基于视觉信息的页面分割算法) 内聚度 最大深度 内容信息 结构信息
下载PDF
一种新颖的CRE用户评论信息抽取技术 被引量:2
2
作者 李慧 张舒 +2 位作者 顾天竺 陈晓红 吴颜 《计算机应用》 CSCD 北大核心 2006年第10期2509-2512,共4页
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具... 准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。 展开更多
关键词 用户评论抽取 信息抽取 基于视觉的页面分块
下载PDF
基于广义隐马尔可夫模型的网页信息抽取方法 被引量:3
3
作者 王静 姚勇 刘志镜 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第11期49-52,共4页
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广... 针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。 展开更多
关键词 基于视觉的网页分割 广义隐马尔可夫模型 二阶Markov链 WEB信息抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部