期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
网页数据抽取中Wrapper的维护
1
作者 邓莎莎 李嘉 《上海电力学院学报》 CAS 2011年第4期378-382,共5页
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
关键词 Wrapper维护 网页数据抽取 语义块
下载PDF
基于网页数据抽取技术的图书著录系统设计与实现
2
作者 屈武江 《辽宁师专学报(自然科学版)》 2012年第2期45-48,68,共5页
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现.
关键词 图书著录 网页数据抽取 MARC数据 C#
下载PDF
面向不规则列表的网页数据抽取技术的研究 被引量:1
3
作者 常丽君 钱钢 《计算机应用研究》 CSCD 北大核心 2015年第9期2651-2654,2658,共5页
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性... 抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。 展开更多
关键词 列表页 网页数据抽取 标签树匹配 部分树对齐
下载PDF
基于本体的网页数据抽取技术的研究 被引量:1
4
作者 常丽君 《电脑知识与技术》 2014年第6期3726-3728,共3页
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上... 随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。 展开更多
关键词 本体 网页数据抽取 包装器
下载PDF
网页数据智能抽取方法
5
作者 俞琰 《微处理机》 2006年第6期86-88,共3页
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。
关键词 网页数据抽取 ONTOLOGY 智能抽取方法 自动扩充
下载PDF
基于网页内容的广告推介研究 被引量:1
6
作者 施水才 程涛 +1 位作者 王霞 吕学强 《中文信息学报》 CSCD 北大核心 2007年第4期42-47,54,共7页
网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展... 网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展、下位词扩展和相关词扩展,最后从待匹配的广告中选择匹配度最高的广告。对该方法进行了模型系统实现并进行了测试运行,结果表明该方法是行之有效的。 展开更多
关键词 计算机应用 中文信息处理 同义词词林 主题词 网页数据抽取 关联度
下载PDF
基于特征相似度计算的网页包装器自适应 被引量:1
7
作者 陈迎仁 郭莹楠 +2 位作者 郭享 倪一涛 陈星 《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。 展开更多
关键词 网页数据抽取 自适应 包装器 相似度计算 网页特征
下载PDF
基于Web挖掘技术的信息检索系统设计与实现 被引量:3
8
作者 王艳 张帆 《情报学报》 CSSCI 北大核心 2007年第3期339-343,共5页
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的... 本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。 展开更多
关键词 网页数据抽取 分词 文本自动分类 向量空间模型
下载PDF
海量信息搜索共享服务系统的设计与实现
9
作者 夏绪虎 杨炳儒 《计算机工程与应用》 CSCD 北大核心 2006年第28期164-166,共3页
如何更有效和更智能地利用网络上的资源是信息处理领域中的一项重要研究课题。文章阐述了一个海量信息搜索共享服务系统的设计与实现,该系统将相关领域的网站上的网页抓取下来,并将其提取为文本的形式,然后利用自然语言处理技术进行分... 如何更有效和更智能地利用网络上的资源是信息处理领域中的一项重要研究课题。文章阐述了一个海量信息搜索共享服务系统的设计与实现,该系统将相关领域的网站上的网页抓取下来,并将其提取为文本的形式,然后利用自然语言处理技术进行分词和分类。 展开更多
关键词 计算机应用 网页数据抽取 分词 文本分类 向量空间模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部