期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
结合全局特征的命名实体属性值抽取 被引量:5
1
作者 刘倩 伍大勇 +2 位作者 刘悦 程学旗 庞琳 《计算机研究与发展》 EI CSCD 北大核心 2016年第4期941-948,共8页
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.... 关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力. 展开更多
关键词 实体属性 属性抽取 命名实体 全局特征 平均感知机
下载PDF
基于网格分组和属性权值的相似重复记录识别算法 被引量:1
2
作者 杨巧巧 郭振波 王开西 《青岛大学学报(自然科学版)》 CAS 2017年第2期69-73,共5页
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权... 针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。 展开更多
关键词 网格分组 属性 相似记录检测
下载PDF
一种精细表示多值属性的知识图谱嵌入模型 被引量:1
3
作者 吕燕 俞耀维 《计算机与数字工程》 2020年第3期638-642,707,共6页
知识图谱嵌入模型KR-EAR用实体及其属性值的嵌入(向量)来定义属性三元组的评分函数,导致多值属性的不同属性值学得的嵌入很相似,即KR-EAR未能精细地表示多值属性,从而影响下游任务的准确度。论文通过改进KR-EAR的属性三元组表示来提出... 知识图谱嵌入模型KR-EAR用实体及其属性值的嵌入(向量)来定义属性三元组的评分函数,导致多值属性的不同属性值学得的嵌入很相似,即KR-EAR未能精细地表示多值属性,从而影响下游任务的准确度。论文通过改进KR-EAR的属性三元组表示来提出一种精细表示多值属性的知识图谱嵌入模型,称为KGE-EAV。在KGE-EAV的属性值空间中,每个实体都对应一个超平面,该实体的每个属性值嵌入都在该超平面上形成一个投影向量;KGE-EAV用这样的投影向量(而不是属性值嵌入)来定义属性三元组的评分函数,从而可以为多值属性的不同属性值学得不同的嵌入。实验表明,在实体预测和属性预测两项任务上,KGE-EAV的准确度均优于KR-EAR和三个基线模型。 展开更多
关键词 知识图谱嵌入 属性 属性三元组 实体预测 属性预测
下载PDF
基于模糊综合评判的相似重复记录识别方法 被引量:14
4
作者 肖满生 周浩慧 王宏 《计算机工程》 CAS CSCD 北大核心 2010年第13期51-53,共3页
针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价,通过模糊映射获得反映属性重要性的权值,并以此为基础进行相似重... 针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价,通过模糊映射获得反映属性重要性的权值,并以此为基础进行相似重复记录识别。理论分析和实验表明,该方法能客观地获取各属性权值,因而在相似重复记录识别中有较高的识别精度。 展开更多
关键词 模糊综合评判 相似重复记录 属性 相似度
下载PDF
关系数据库中带语言值权重的模糊查询 被引量:6
5
作者 陈逸菲 张颖超 叶小岭 《计算机应用研究》 CSCD 北大核心 2005年第6期73-75,共3页
在模糊理论的基础上,提出了将权重概念引入数据库模糊查询中,使用户对查询中各个属性的相对重视程度得以体现。为每条记录提供了一个匹配度,按匹配度的降序输出结果,方便用户选择。权重和匹配度都是语言变量[7],其取值为语言值形式,更... 在模糊理论的基础上,提出了将权重概念引入数据库模糊查询中,使用户对查询中各个属性的相对重视程度得以体现。为每条记录提供了一个匹配度,按匹配度的降序输出结果,方便用户选择。权重和匹配度都是语言变量[7],其取值为语言值形式,更加贴近自然。 展开更多
关键词 模糊查询 语言 关系数据库 权重 匹配度 模糊理论 概念引入 输出结果 用户选择 语言变量 视程 属性 记录
下载PDF
一种多源数据融合过程中的实体关联性计算方法
6
作者 周凯 周宏 《中国人民公安大学学报(自然科学版)》 2020年第1期99-103,共5页
针对公安多数据源数据融合分析过程中常出现不同数据源中同一实体对象存在不同关系描述的情况,提出了一种结合实体关系时间属性权值和数据源权重的实体关系真实度计算算法,以数据源为基准单位,实现了对多数据源融合的实体关系关联度计... 针对公安多数据源数据融合分析过程中常出现不同数据源中同一实体对象存在不同关系描述的情况,提出了一种结合实体关系时间属性权值和数据源权重的实体关系真实度计算算法,以数据源为基准单位,实现了对多数据源融合的实体关系关联度计算和有效性分析。实验结果表明,此算法能有效降低数据融合过程中带来的实体关联值计算偏差,提高实体关系之间发现的实时性和准确率,提升数据资源的情报价值。 展开更多
关键词 多数据源 实体关系 时间属性 数据源权重 关联计算
下载PDF
一种基于事实知识的实体相关度计算方法
7
作者 孙叔琦 孙珂 +3 位作者 赵世奇 李生 王海峰 杨沐昀 《中文信息学报》 CSCD 北大核心 2016年第3期178-186,共9页
在近来出现的面向实体的搜索服务中,准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识,即利用"实体—属性—属性值"(SPO)记录进行实体相关度计算的方法。该文通过基于属性和属性值的两步概率估计,... 在近来出现的面向实体的搜索服务中,准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识,即利用"实体—属性—属性值"(SPO)记录进行实体相关度计算的方法。该文通过基于属性和属性值的两步概率估计,将实体表示为一个属性值词的概率分布列,并通过比对两个实体共享的属性值词汇得出二者的相关度。实验表明,在用于面向实体搜索的相关实体排序问题上,该文方法达到了80.9%的平均top-5准确率,优于词袋方法和基于查询日志共现的方法。此外,该文通过定量分析,考察了不同领域的用户需求特性对实体相关度计算结果的影响。 展开更多
关键词 实体相关度 实体—属性—属性(spo)记录 用户需求 面向实体的搜索
下载PDF
利用Auto LISP程序转换Auto CAD实体 被引量:2
8
作者 马彦东 《科技资讯》 2011年第13期57-57,59,共2页
本文是详细介绍了怎样将高程属性块,转换成TEXT实体的过程,并提供了相应的通用Auto LISP程序。
关键词 属性提取 AUTO LISP程序 实体转换
下载PDF
卫生数据标准化方法研究 被引量:16
9
作者 娄苗苗 杨喆 +1 位作者 刘丹红 徐勇勇 《中国卫生信息管理杂志》 2013年第5期440-443,共4页
目的尝试通过构建概念数据模型,提出科学、系统的卫生数据标准化方法体系。方法分析整理健康档案中的数据项,采用自底向上的路线提出对象类及其属性,构建数据模型;采用自顶向下的路线,通过定义实体-属性-值,构建标准化数据元。结果构建... 目的尝试通过构建概念数据模型,提出科学、系统的卫生数据标准化方法体系。方法分析整理健康档案中的数据项,采用自底向上的路线提出对象类及其属性,构建数据模型;采用自顶向下的路线,通过定义实体-属性-值,构建标准化数据元。结果构建了实验室检查概念数据模型,并对实验室检查及其子类设置属性和数据类型,定义属性的取值及其表示,提炼出了标准化数据元。结论通过对类、属性及值集的管理和维护,体现数据标准化工作的稳定性、开放性和可持续性。 展开更多
关键词 标准化 数据模型 数据元 实体-属性-三联体
下载PDF
未定义类型的关系抽取的半监督学习框架研究 被引量:7
10
作者 程显毅 朱倩 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期466-474,共9页
设计未定义类型关系抽取系统是目前研究的热点.但在没有特定领域的、机器可读的知识作为指导的情况下,面向自然语言文本的关系抽取很难取得令人满意的精确度和召回率,约束可以有效辅助语义关系的抽取.本文描述了一个提取"实体-属性... 设计未定义类型关系抽取系统是目前研究的热点.但在没有特定领域的、机器可读的知识作为指导的情况下,面向自然语言文本的关系抽取很难取得令人满意的精确度和召回率,约束可以有效辅助语义关系的抽取.本文描述了一个提取"实体-属性-值"关系的半监督的机器学习框架,在半监督学习任务中,种子主要从维基百科的信息表格中获取,首先用线性分类器找出一些强反例,然后迭代的使用已有的反例数据重新训练分类器再应用到余下的未标注数据上找出更多反例.经过半监督学习得到了一个关系候选实例集,接下来讨论了关系类别验证问题,对于噪声模式,给出关系模式置信度评价指标,对于冲突模式提出了控制匹配顺序(高置信度模式优先匹配的原则)算法.经过这两个算法后,关系类别的描述仍具一定的多样性,提出凝聚型层次聚类算法,该算法将维基百科描述的结构特征表示为向量{DW,CW,IW,BW},进而给出两个关系模式相关度计算模式,完成关系类别聚类.最后,在WikipediaXML数据集进行了相关的实验,结果表明:根据维基百科的结构特征,动态的确定关系类别,减少了对预定义类型的依赖,提高了关系识别系统的可移植性. 展开更多
关键词 关系抽取 半监督学习 维基百科 实体-属性-
下载PDF
粒度粗糙理论研究 被引量:2
11
作者 陈波 周明天 《软件学报》 EI CSCD 北大核心 2008年第3期565-583,共19页
从动机、理论和实现三方面系统地阐述了粒度粗糙理论体系.分析了构建粒度粗糙理论的3点动机:1)通过显式编码语义上下文的信息表示模型,强调粗糙性的表示语义;2)通过半结构化思想设计表示模型,扩展粗糙性方法适用的信息源;3)通过构建纯... 从动机、理论和实现三方面系统地阐述了粒度粗糙理论体系.分析了构建粒度粗糙理论的3点动机:1)通过显式编码语义上下文的信息表示模型,强调粗糙性的表示语义;2)通过半结构化思想设计表示模型,扩展粗糙性方法适用的信息源;3)通过构建纯粹总分学关系上的粗糙性,描述丰富的信息结构应用语境,扩展粗糙性方法到总分学推动的领域,并展示结合总分学和计算机科学创建新型跨学科方法学的潜力.理论上定义了粒度表示演算,使其兼具一般信息源和粗糙性方法底层表示系统的双重功能,在此基础上构造内核、外壳及主体信息颗粒,分别对应粗糙性的下界近似、边界区域及上界近似概念.实现上,提出了通过"实体-属性-值"模型开源系统进行粒度粗糙理论快速原型化的思路,从而提供实验平台验证理论的正确性,同时,更自然地对临床数据进行粗糙性分析.作为总结,阐述了粒度粗糙理论的意义、未解决问题及未来的研究方向. 展开更多
关键词 粒度表示演算 粒度粗糙理论 纯粹总分学粗糙性 半结构化数据表示 实体-属性-模型
下载PDF
面向油藏地质领域的知识图谱构建研究 被引量:7
12
作者 文必龙 薛广有 《计算机技术与发展》 2021年第12期204-210,共7页
经过多年的地质勘探,油藏地质领域积累了丰富的勘探成果以及地质知识。为了实现油藏地质领域知识的共享、传播及对知识进行有效的管理,油藏地质领域知识图谱成为了一种必然的选择。针对目前油藏地质领域知识图谱在实际构建中存在的已有... 经过多年的地质勘探,油藏地质领域积累了丰富的勘探成果以及地质知识。为了实现油藏地质领域知识的共享、传播及对知识进行有效的管理,油藏地质领域知识图谱成为了一种必然的选择。针对目前油藏地质领域知识图谱在实际构建中存在的已有本体不能直接构建知识图谱的模式层,抽取得到的多个实体指称项对应于同一个事实对象,难以从抽取出的多个属性值中得到最优属性值等问题,通过对构建领域知识图谱的方法和技术的研究,该文提出了一种以领域内的业务活动为核心的领域本体构建方法,并且依据此方法构建了油藏地质领域本体。改进了传统的孪生循环神经网络模型,解决了油藏地质领域实体对齐问题;针对不同类别的属性设计了不同的属性值融合方法,实现属性值的最优。 展开更多
关键词 油藏地质领域 领域本体 知识图谱 循环神经网络 实体对齐 属性融合
下载PDF
基础地理信息分类与编码原则和方法研究 被引量:1
13
作者 马晓萍 肖学年 《测绘标准化》 2002年第4期1-5,共5页
基础地理信息要素分类与编码的一致性是保证地理信息系统数据采集、存贮、检索、分析、输出及交换,实现信息共享的重要环节。目前要素代码的一致性一直没有得到有效的解决,为此国家测绘局“九五”测绘科技攻关重要项目中立专题进行研... 基础地理信息要素分类与编码的一致性是保证地理信息系统数据采集、存贮、检索、分析、输出及交换,实现信息共享的重要环节。目前要素代码的一致性一直没有得到有效的解决,为此国家测绘局“九五”测绘科技攻关重要项目中立专题进行研究。就该专题研究中进行的分类及分类体系的研究、编码原则和方法和研究等情况作以介绍,以期对于制定或修订基础地理信息代码标准具有一定的参考意义。 展开更多
关键词 基础地理信息 分类对象 分类体系 编码方法 实体代码 类别代码 属性
下载PDF
CD—ROM光盘的卷和文件结构(2)
14
作者 张明敏 潘志庚 《光盘技术》 1995年第4期25-27,共3页
1 描述符域的记录约定 在记录描述符域的内容时,使用到本小节描述的约定: (1)数值 8位无符号数用二进制形式表示,记录在一字节域中;8位有符号数也以二进制形式表示,但是以2的补码形式,并且也记录在一字节域中。 16位二进制数值以下面的... 1 描述符域的记录约定 在记录描述符域的内容时,使用到本小节描述的约定: (1)数值 8位无符号数用二进制形式表示,记录在一字节域中;8位有符号数也以二进制形式表示,但是以2的补码形式,并且也记录在一字节域中。 16位二进制数值以下面的三种方法记录: ①最低有效字节优先·例如,16进制表示的值(WX YZ)应记录成(YZ WX)。 展开更多
关键词 描述符 CD—ROM光盘 文件结构 数字 图形字符集 最低有效字节 辅助卷 最高有效字节 目录记录 扩展属性
下载PDF
反向梯度深度学习下重复网络数据标注仿真
15
作者 庞家乐 张彦 《计算机仿真》 北大核心 2022年第10期467-470,485,共5页
不及时标注合处理网络数据中的重复数据,会影响用户使用与操作体验。现有的重复数据标注方法无法排列比较数据记录间的属性,导致重复数据标注不准确。为此提出新的重复数据标注方法。通过综合加权法计算数据库中所有数据的属性权重值,... 不及时标注合处理网络数据中的重复数据,会影响用户使用与操作体验。现有的重复数据标注方法无法排列比较数据记录间的属性,导致重复数据标注不准确。为此提出新的重复数据标注方法。通过综合加权法计算数据库中所有数据的属性权重值,重新定义每个数据字符串间距离,得到数据间相似度值,并设定标记值。引入反向梯度学习算法,排列比较数据记录间的属性。给定每个数据唯一ID编号,构建专属的属性值记录表,通过与选定的数值比较,确定数据间是否存在重复情况。若存在重复数据,利用三区分快速算法直接标注对应的数据。对比实验结果表明所提方法耗时最短,实现重复数据高精准度的检测与标注。 展开更多
关键词 反向梯度深度学习 重复数据标注 相似度 属性记录 三区分快速算法
下载PDF
EAV模型在临床数据集构建中的应用研究
16
作者 王阳阳 郑西川 《中国数字医学》 2020年第4期75-76,67,共3页
目的:分析实体属性值模型在临床数据集成中的应用,提高实体属性值模型的检索性能。方法:以重症医学为例,集成重症病人的检查检验、影像报告、医疗文书等临床数据,基于此数据集进行算法分析研究。结果:建立了基于实体属性值模型的重症医... 目的:分析实体属性值模型在临床数据集成中的应用,提高实体属性值模型的检索性能。方法:以重症医学为例,集成重症病人的检查检验、影像报告、医疗文书等临床数据,基于此数据集进行算法分析研究。结果:建立了基于实体属性值模型的重症医学数据集,并提高了数据平台的查询检索性能。结论:实体属性值模型适合存储临床医学数据,同时平衡二叉树的行列转换算法提高其挖掘检索的性能。 展开更多
关键词 数据集成 实体属性模型 平衡二叉树
下载PDF
Mixed Attributes Two-Stage-Clustering Entity Resolution
17
作者 LEI Gang 《通讯和计算机(中英文版)》 2015年第6期297-302,共6页
关键词 混合属性 聚类 解析 实体 双级 度量方法 记录信息 比较实验
下载PDF
基于结构化病例报告表的EDC构建策略 被引量:5
18
作者 蒋志伟 夏结来 +2 位作者 李婵娟 王陵 张春茂 《中国新药杂志》 CAS CSCD 北大核心 2009年第23期2199-2204,共6页
目前,电子数据捕获(EDC)系统日益受到制药企业、CRO和临床研究人员的青睐,并逐步应用于新药临床试验中。不同临床试验eCRF设计的可复用性问题是EDC系统构建中的关键问题。根据新药临床试验病例报告表具有高度结构性的特点,通过建立临床... 目前,电子数据捕获(EDC)系统日益受到制药企业、CRO和临床研究人员的青睐,并逐步应用于新药临床试验中。不同临床试验eCRF设计的可复用性问题是EDC系统构建中的关键问题。根据新药临床试验病例报告表具有高度结构性的特点,通过建立临床试验的通用数据库模型、病例报告表元数据库和采用XML技术实现eCRF设计中数据库和录入界面的自动生成以及临床试验数据的提交与读取。利用基于结构化病例报告表的构建策略逐步实现电子数据捕获。 展开更多
关键词 电子数据捕获 病例报告表 通用数据库模型 实体-属性- 可扩展标记语言 元数据库
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部