-
题名面向列语义识别的共现属性交互模型构建与优化
- 1
-
-
作者
高珊
袁宛竹
卢卫
王兰
张静
杜小勇
-
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第3期1010-1026,共17页
-
基金
国家重点研发计划(2020YFB2104101)。
-
文摘
政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题,在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下,通过技术手段,统一各孤岛信息系统元数据的语义表达,实现元数据的语义互联互通.该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上,具体地,将标准元数据名称看作语义标签,对孤岛关系数据的列投影进行语义识别,从而建立列名和标准元数据的语义对齐,实现孤岛元数据标准化治理.已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征,针对这一问题,提出了基于预测阶段和纠错阶段的两阶段模型:在预测阶段,提出了共现属性交互的CAI模型(co-occurrence-attribute-interactionmodel),利用并行化的自注意力机制保证列顺序无关的共现属性交互;在纠错阶段,结合语义标签之间的共现性,通过引入纠错机制(correction mechanism),优化CAI模型预测结果.在政务基准数据和Magellan等多组公开英文数据集上进行了实验,结果表明,引入纠错机制的两阶段模型,在宏平均和加权平均两个指标上,比已有最优模型最多可分别提高20.03%, 13.36%.
-
关键词
孤岛政务
逻辑语义汇通
列语义识别
共现交互
注意力机制
-
Keywords
government information silo
logical semantic unification
column semantic recognition
co-occurrence interaction
attention mechanism
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-