期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于同义扩展的在线百科中实体属性抽取 被引量:1
1
作者 刘倩 刘冰洋 +3 位作者 贺敏 伍大勇 刘悦 程学旗 《中文信息学报》 CSCD 北大核心 2016年第1期16-23 29,29,共9页
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同... 实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。 展开更多
关键词 实体属性 同义属性 命名实体 信息抽取词
下载PDF
大数据环境下的相似重复记录检测方法 被引量:6
2
作者 殷秀叶 《武汉工程大学学报》 CAS 2014年第9期66-69,共4页
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段... 大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率. 展开更多
关键词 相似重复记录 大数据 同义属性
下载PDF
Deep Web中基于关联规则的整体模式匹配
3
作者 兰洋 尤磊 《信阳师范学院学报(自然科学版)》 CAS 2009年第4期607-610,共4页
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m:n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实... 不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m:n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高. 展开更多
关键词 DEEP WEB 整体模式匹配 关联规则 成组属性 同义属性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部