-
题名多Web数据源环境下的重复实体识别方法研究
被引量:3
- 1
-
-
作者
刘伟
肖建国
-
机构
北京大学计算机科学技术研究所
-
出处
《计算机科学与探索》
CSCD
2010年第7期599-607,共9页
-
基金
国家自然科学基金No.60875033
中国博士后科学基金No.20080440256
200902014~~
-
文摘
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。
-
关键词
Web实体
重复实体识别
WEB数据集成
迭代训练
-
Keywords
Web entity
duplicate entity identification
Web data integration
iterative training
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于VBA批量删除城镇地籍中重复实体的方法
- 2
-
-
作者
杜芳芳
-
机构
昆明理工大学
-
出处
《商场现代化》
2010年第29期216-217,共2页
-
基金
云南省自然科学基金项目<房价驱动社会福利聚集与扩散的演化机理研究>(项目号:2008ZC029M)
-
文摘
对属性的检查和对拓扑错误的检查是城镇地籍建库的重要工作,删除重复性实体又是常见且删除起来比较复杂的过程,利用手工删除重复实体的速度较慢,而利用软件删除时,由于各类软件的数据定义格式不统一,会造成数据丢失等错误,本文利用ARCGIS自带的VBA开发工具,对重复实体进行了批量删除处理,其有速度快,精度高的优点。
-
关键词
城镇地籍
VBA
重复实体
批量删除
-
分类号
F301
[经济管理—产业经济]
-