-
题名Web实体提取在垂直搜索中的应用研究
- 1
-
-
作者
李宏伟
张志远
-
机构
郑州轻工业学院机电工程学院
-
出处
《新技术新工艺》
2008年第12期62-65,共4页
-
基金
河南省自然科学基金资助项目(0411010500)
校博士基金项目(2004-010)
-
文摘
首先介绍了垂直搜索的定义及其特点,针对垂直搜索的特征提出了Web实体提取方法。详细阐述了Web实体的概念设计、流程设计,分析了整个Web实体提取方法执行过程,并在此基础上完成了Web实体提取算法设计。最后,将该Web实体提取方法应用于垂直搜索中,充分说明了其可行性,并将推动垂直搜索的发展。
-
关键词
垂直搜索引擎
web实体
web实体提取
数据抽取
-
Keywords
vertical search engine
web object
web object extraction
data extraction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名多Web数据源环境下的重复实体识别方法研究
被引量:3
- 2
-
-
作者
刘伟
肖建国
-
机构
北京大学计算机科学技术研究所
-
出处
《计算机科学与探索》
CSCD
2010年第7期599-607,共9页
-
基金
国家自然科学基金No.60875033
中国博士后科学基金No.20080440256
200902014~~
-
文摘
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。
-
关键词
web实体
重复实体识别
web数据集成
迭代训练
-
Keywords
web entity
duplicate entity identification
web data integration
iterative training
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名互联网信息表与RDF数据的集成
- 3
-
-
作者
滕明岩
-
机构
渤海大学数理学院
北京信息控制研究所
-
出处
《渤海大学学报(自然科学版)》
CAS
2014年第2期144-148,共5页
-
基金
国家自然科学基金青年基金(No:11201037)
-
文摘
网络上存在很多包含实体属性的表格,可以用来扩充RDF知识库,这涉及到实体表与RDF知识库之间的模式映射问题.已有的模式匹配方法仍然不足以用来解决一个实体表与RDF知识库之间的模式匹配问题.为了准确高效的获得Web实体表与RDF知识库的匹配模式,本文提出了一种基于实例的模式匹配的方法,在匹配数据基础上得到统计意义上的Web实体表与RDF知识库之间的匹配模式.依此构建的系统,能根据知识库包含的信息,主动寻找与知识库相关的Web实体表,并利用找到的Web实体表扩充RDF知识库.
-
关键词
RDF知识库
web实体表
模式匹配
基于实例
-
Keywords
RDF knowledge base
web entity tables
schema mapping
instance-base
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-