期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
1
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 WEB信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
一种新颖的CRE用户评论信息抽取技术 被引量:2
2
作者 李慧 张舒 +2 位作者 顾天竺 陈晓红 吴颜 《计算机应用》 CSCD 北大核心 2006年第10期2509-2512,共4页
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具... 准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。 展开更多
关键词 用户评论抽取 信息抽取 基于视觉的页面分块
下载PDF
基于多种策略的页面内容提取算法 被引量:4
3
作者 高琰 谷士文 谭立球 《西南交通大学学报》 EI CSCD 北大核心 2007年第4期473-477,共5页
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构... 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容. 展开更多
关键词 vips(基于视觉信息的页面分割算法) 内聚度 最大深度 内容信息 结构信息
下载PDF
基于广义隐马尔可夫模型的网页信息抽取方法 被引量:3
4
作者 王静 姚勇 刘志镜 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第11期49-52,共4页
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广... 针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。 展开更多
关键词 基于视觉的网页分割 广义隐马尔可夫模型 二阶Markov链 WEB信息抽取
下载PDF
中文美食开放链接资源库(LOD)建设实践
5
作者 李珊珊 张鸿 顾进广 《计算机应用与软件》 CSCD 2015年第8期56-59,144,共5页
美食资源库是个性化菜谱查询、营养推荐、疾病食疗的底层基础。针对国内目前还没有一个完善的中文美食开放连接资源库,构建了国内首个中文美食开放链接资源库并提供SPARQL查询和普通查询服务,为上层智能应用的开发提供底层平台。针对结... 美食资源库是个性化菜谱查询、营养推荐、疾病食疗的底层基础。针对国内目前还没有一个完善的中文美食开放连接资源库,构建了国内首个中文美食开放链接资源库并提供SPARQL查询和普通查询服务,为上层智能应用的开发提供底层平台。针对结构化数据较少的情况,对传统的TF-IDF算法进行改进,引入VIPS算法,提出针对半结构化美食网站的通用美食爬虫,使美食数据的抽取更加智能化,准确率提高22.1%。 展开更多
关键词 vips 开放链接数据 LarKC
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部