期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多路分块的Pay-as-you-go实体识别方法
被引量:
1
1
作者
孙琛琛
申德荣
+2 位作者
寇月
聂铁铮
于戈
《计算机学报》
EI
CSCD
北大核心
2019年第8期1704-1720,共17页
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段...
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段,初始化阶段和迭代阶段.在初始化阶段,初步地生成候选数据对象对,并按匹配可能性排序后加入到候选队列.在迭代阶段,每次选择候选队列队首的候选对(即最可能匹配的)来处理,并且根据实时的实体识别结果,动态地更新候选对的匹配可能性,调整候选队列.这样减少了无用的数据对象比较,使得实时的识别结果最优化.通过在真实数据集和合成数据集上的实验对比,说明本文提出的基于多路分块的Pay-as-you-go实体识别方法显著地优于已有工作中提出的方法.
展开更多
关键词
实体识别
PAY-AS-YOU-GO
多路分块
候选对选择
数据集成
数据清洗
下载PDF
职称材料
题名
基于多路分块的Pay-as-you-go实体识别方法
被引量:
1
1
作者
孙琛琛
申德荣
寇月
聂铁铮
于戈
机构
东北大学计算机科学与工程学院
出处
《计算机学报》
EI
CSCD
北大核心
2019年第8期1704-1720,共17页
基金
国家“九七三”重点基础研究计划基金项目(2012CB316201)
国家自然科学基金项目(U1435216,61672142,61472070,61602103)
国家重点研发计划项目(2018YFB1003404)资助~~
文摘
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段,初始化阶段和迭代阶段.在初始化阶段,初步地生成候选数据对象对,并按匹配可能性排序后加入到候选队列.在迭代阶段,每次选择候选队列队首的候选对(即最可能匹配的)来处理,并且根据实时的实体识别结果,动态地更新候选对的匹配可能性,调整候选队列.这样减少了无用的数据对象比较,使得实时的识别结果最优化.通过在真实数据集和合成数据集上的实验对比,说明本文提出的基于多路分块的Pay-as-you-go实体识别方法显著地优于已有工作中提出的方法.
关键词
实体识别
PAY-AS-YOU-GO
多路分块
候选对选择
数据集成
数据清洗
Keywords
entity resolution
Pay-as-you-go
multi-pass blocking
candidate pair selection
data integration
data cleaning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多路分块的Pay-as-you-go实体识别方法
孙琛琛
申德荣
寇月
聂铁铮
于戈
《计算机学报》
EI
CSCD
北大核心
2019
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部