-
题名基于同义扩展的在线百科中实体属性抽取
被引量:1
- 1
-
-
作者
刘倩
刘冰洋
贺敏
伍大勇
刘悦
程学旗
-
机构
中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
中国科学院大学
国家计算机网络应急技术处理协调中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第1期16-23 29,29,共9页
-
基金
国重点基础研究发展计划(973)(2012CB316303)
国家重点基础研究发展计划(973)(2014CB340401)
+2 种基金
国家自然科学基金重点项目(61232010)
国家自然科学基金(61303156)
国家科技支撑专项(2012BAH46B04)
-
文摘
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。
-
关键词
实体属性
同义属性
命名实体
信息抽取词
-
Keywords
entity attribute
synonymous attribute
named entity,information extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据环境下的相似重复记录检测方法
被引量:6
- 2
-
-
作者
殷秀叶
-
机构
周口师范学院计算机科学与技术学院
-
出处
《武汉工程大学学报》
CAS
2014年第9期66-69,共4页
-
基金
国家自然科学基金青年项目(61103143)
周口师范学院青年科研基金项目(zknuc0215)
-
文摘
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率.
-
关键词
相似重复记录
大数据
同义属性
-
Keywords
approximately duplicated records
big data
MapReduce
synonymous property
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Deep Web中基于关联规则的整体模式匹配
- 3
-
-
作者
兰洋
尤磊
-
机构
信阳师范学院
-
出处
《信阳师范学院学报(自然科学版)》
CAS
2009年第4期607-610,共4页
-
文摘
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m:n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高.
-
关键词
DEEP
WEB
整体模式匹配
关联规则
成组属性
同义属性
-
Keywords
Deep Web
holistic schema matching
association rules
grouping attributes
synonym attributes
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-