-
题名基于非主属性离群点检测的实体匹配
被引量:1
- 1
-
-
作者
曹卫东
王广森
王怀超
-
机构
中国民航大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2019年第8期2247-2252,共6页
-
基金
民航科技重大专项基金项目(MHRD20150107、MHRD20160109)
中央高校基本业务费基金项目(3122014C017)
-
文摘
为解决互联网上不同源中同一实体描述多样性的问题,提出一种基于非主属性离群点检测的实体匹配方法。利用非主属性值消除主属性值不同带来的歧义,非主属性值可较快排除不匹配实体,极大提高匹配效率。该匹配方法在一定程度上克服了离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端,其基于规则的方法对数据进行粗筛选,降低实体对的数据规模;根据离群点检测模型做进一步筛选,得到初步的实体对集;根据生成的实体对集进行采样,利用机器学习选择合适的匹配器并训练来获取匹配对。实验结果表明,该方法使准确率和召回率得到提高,其有效性得到验证。
-
关键词
实体匹配
非主属性
离群点检测
粗筛选
匹配器
-
Keywords
entity matching
non-primary attribute
outlier detection
rough filter
matcher
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于非主属性值的实体匹配
被引量:4
- 2
-
-
作者
杨强
李直旭
蒋俊
赵朋朋
刘冠峰
刘安
周晓方
-
机构
苏州大学计算机科学与技术学院
昆士兰大学信息技术与电子工程学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第10期2075-2087,共13页
-
基金
国家自然科学基金(61402313
61472263
+4 种基金
61303019
61572336)
江苏省博士后科研基金(1501090B)
中国博士后第58批面上基金(2015M581859)
江苏软件新技术与产业化协同创新中心的资助~~
-
文摘
实体匹配旨在找出不同数据源中指代同一实体的实例.已有的实体匹配方法大都基于实体主属性值的相似度进行匹配,而很少有工作考虑到使用实体的非主属性值来辅助实体匹配.然而,当两条指代同一实体的主属性值差异较大的时候,这两个实体可能不会被认为是匹配的实体.另一方面,这两个实体很可能共享一些特别的非主属性值,而这些非主属性值恰好可以反映出两个实体的匹配关系.基于这种思想,文中提出了一种新颖的基于非主属性值的实体匹配算法.该算法以类似于决策树的结构为基础,通过使用这种结构,不仅可以解决噪声值和空缺值带来的问题,而且可以极大地提高发现匹配记录以及尽可能早地排除不匹配记录的效率.多个数据集上的实验结果表明我们的方法比现有的实体匹配方法具有更高的准确率和召回率.此外,使用我们提出的基于决策树的匹配算法等有关技术较Baseline匹配算法在匹配效率上高出10倍多.
-
关键词
实体匹配
非主属性
数据质量
性能
算法
-
Keywords
record matching
non-key attribute
data quality
performance
algorithm
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名测绘专业题库系统软件简介
被引量:1
- 3
-
-
作者
刘智
-
出处
《测绘科学技术学报》
1992年第4期24-28,共5页
-
文摘
考试是教学中的一个重要环节。它是检验学员学习情况的一种重要手段,同时也能反映出教员的教学水平。考试结果是否能真实反映学员所掌握该课程的实际情况,关键在于考试的试题。在以往考试中,一般是由任课教员在临考前出题。任课教员虽然也考虑教学大纲的要求,但主要是根据自身的理解,以及对学员情况的了解,有针对性地进行出题。
-
关键词
题库系统
软件简介
考试结果
测绘专业
应用系统
关系模式
更新异常
非主属性
第二范式
数据模型
-
分类号
P2
[天文地球—测绘科学与技术]
-
-
题名关系模式规范化理论的理解及包含关系证明
- 4
-
-
作者
冯平
-
机构
江阴职工大学电子系
-
出处
《内蒙古师范大学学报(教育科学版)》
1997年第2期6-7,共2页
-
文摘
《数据库系统原理》是计算机专业的基础专业课,而规范化理论是本课程的重要内容,本文是作者在讲授此课的过程中,对此理论进一步加深理解,给出了规范化理论的包含关系的证明,并整理成文.为了理解和证明的需要首先引来《数据库系统原理》中的以下概念:
-
关键词
关系模式
规范化理论
非主属性
包含关系
完全函数依赖
数据库系统
传递函数依赖
3NF
部分依赖
第一范式
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名关系数据理论的教学实践探索
被引量:1
- 5
-
-
作者
吕鸣
王萍
刘建斌
-
机构
国防科技大学 机电工程与自动化学院
-
出处
《中国电子教育》
2012年第3期69-72,共4页
-
文摘
关系数据库理论是数据库系统原理课程教学的重点和难点,其内容涉及到的概念、定义、定理、推理较多,同时在教学中要求学员能够运用相关的理论和知识解决在数据库应用设计中遇到的实际问题。一、关系数据理论的教学主要内容及教学要求关系数据理论用于指导建立良好的关系模式。
-
关键词
数据理论
关系模式
数据库系统原理
数据库理论
函数依赖
模式分解
教学实践探索
非主属性
公理系统
-
分类号
TP311.13-4
[自动化与计算机技术—计算机软件与理论]
-
-
题名浅谈关系模式的设计
- 6
-
-
作者
邓坤
-
机构
云南能源职业技术学院
-
出处
《信息与电脑(理论版)》
2010年第5期190-190,共1页
-
文摘
数据设计是软件开发的灵活和基础,是整个系统成功的关键所在,是开发高品质应用的前提,鉴于数据库设计的重要性,做如下约定:设计过程应按照概念模型设计-关系模型设计-物理数据库设计的步骤进行。由系统的概念模型导出关系模式,主要原则及实现方法如下:(1)一个实体型转换为一个关系模式。
-
关键词
关系模式
数据库设计
软件开发
模型设计
概念模型
数据设计
非主属性
设计方向
设计过程
物资需求
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名PDM支持下的自动化工资管理系统
- 7
-
-
作者
雷胜利
雷迅
李戈夫
董良
-
机构
中国科学院武汉数学物理研究所
-
出处
《系统工程理论与实践》
EI
1984年第3期54-65,共12页
-
文摘
本文较详细地阐述了所构造的一个自动化程度较高的工资管理系统,并结合该系统的设计过程对系统分析、数据结构设计、数据库生成、应用程序设计和实用数据库管理系统(PDM)作了简要介绍。由于系统设计采用了规范化方式,即根据各属性的关系按文中引述的四个范式对数据集进行了规范化,而导出了一个理想的数据结构,从而提出了一个建立管理信息系统的一般方法。
-
关键词
工资管理系统
PDM
非主属性
数据结构
数据库管理系统
数据集
应用程序设计
组项
管理信息系统
职工代码
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-