-
题名网页数据抽取中Wrapper的维护
- 1
-
-
作者
邓莎莎
李嘉
-
机构
上海电力学院计算机与信息工程学院
华东理工大学商学院
-
出处
《上海电力学院学报》
CAS
2011年第4期378-382,共5页
-
文摘
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
-
关键词
Wrapper维护
网页数据抽取
语义块
-
Keywords
Wrapper maintenance
web data extracting
semantic block
-
分类号
N37
[自然科学总论]
-
-
题名基于网页数据抽取技术的图书著录系统设计与实现
- 2
-
-
作者
屈武江
-
机构
大连海洋大学职业技术学院
-
出处
《辽宁师专学报(自然科学版)》
2012年第2期45-48,68,共5页
-
文摘
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现.
-
关键词
图书著录
网页数据抽取
MARC数据
C#
-
Keywords
books' recording
web data extraction
MARC data
C#
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名面向不规则列表的网页数据抽取技术的研究
被引量:1
- 3
-
-
作者
常丽君
钱钢
-
机构
南京财经大学信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第9期2651-2654,2658,共5页
-
文摘
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
-
关键词
列表页
网页数据抽取
标签树匹配
部分树对齐
-
Keywords
list pages
Web data extraction
matching of tag tree
partial tree alignment
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于本体的网页数据抽取技术的研究
被引量:1
- 4
-
-
作者
常丽君
-
机构
南京财经大学信息工程学院
-
出处
《电脑知识与技术》
2014年第6期3726-3728,共3页
-
文摘
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。
-
关键词
本体
网页数据抽取
包装器
-
Keywords
ontology
web information extraction
wrapper
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页数据智能抽取方法
- 5
-
-
作者
俞琰
-
机构
南京工业大学信息科学与技术学院
-
出处
《微处理机》
2006年第6期86-88,共3页
-
文摘
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。
-
关键词
网页数据抽取
ONTOLOGY
智能抽取方法
自动扩充
-
Keywords
Web data extraction
Ontology
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网页内容的广告推介研究
被引量:1
- 6
-
-
作者
施水才
程涛
王霞
吕学强
-
机构
北京信息科技大学中文信息处理研究中心
抚顺市第十五中学
-
出处
《中文信息学报》
CSCD
北大核心
2007年第4期42-47,54,共7页
-
基金
国家自然科学基金资助项目(60272084)
北京市教育委员会科技发展计划重点项目(KZ200310772013)
-
文摘
网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展、下位词扩展和相关词扩展,最后从待匹配的广告中选择匹配度最高的广告。对该方法进行了模型系统实现并进行了测试运行,结果表明该方法是行之有效的。
-
关键词
计算机应用
中文信息处理
同义词词林
主题词
网页数据抽取
关联度
-
Keywords
computer application
chinese information processing
tongyici cilin
thematic words
web data extraction
matching rate
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征相似度计算的网页包装器自适应
被引量:1
- 7
-
-
作者
陈迎仁
郭莹楠
郭享
倪一涛
陈星
-
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室(福州大学)
-
出处
《计算机科学》
CSCD
北大核心
2021年第S02期218-224,257,共8页
-
基金
国家重点研发计划(2017YFB1002000)
福建省自然科学基金杰青项目(2020J06014)
福建省自然科学基金项目(2018J07005)。
-
文摘
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。
-
关键词
网页数据抽取
自适应
包装器
相似度计算
网页特征
-
Keywords
Web page data extraction
Adaptation
Wrapper
Similarity calculation
Page features
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Web挖掘技术的信息检索系统设计与实现
被引量:3
- 8
-
-
作者
王艳
张帆
-
机构
北京邮电大学
北京科技大学
-
出处
《情报学报》
CSSCI
北大核心
2007年第3期339-343,共5页
-
文摘
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。
-
关键词
网页数据抽取
分词
文本自动分类
向量空间模型
-
Keywords
Web data extraction, segmentation, text auto-classification, vector space mode
-
分类号
G302
[文化科学]
-
-
题名海量信息搜索共享服务系统的设计与实现
- 9
-
-
作者
夏绪虎
杨炳儒
-
机构
北京科技大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第28期164-166,共3页
-
文摘
如何更有效和更智能地利用网络上的资源是信息处理领域中的一项重要研究课题。文章阐述了一个海量信息搜索共享服务系统的设计与实现,该系统将相关领域的网站上的网页抓取下来,并将其提取为文本的形式,然后利用自然语言处理技术进行分词和分类。
-
关键词
计算机应用
网页数据抽取
分词
文本分类
向量空间模型
-
Keywords
computer application, Web data extraction, segmentation, text classification, vector space model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-