摘要
提出了一种异构数据源的实体模式匹配算法.算法从中英双语的环境出发,利用基于中文wordnet的中英文词义相似度算法和中文分词工具,从列名距离、数据类型、数据内容的词性成份等角度来建立同类实体不同模式之间的映射关系.该算法可用于分析数据空间中不同数据源实体之间的关联,以及其他研究领域中的中英文语义信息相关性分析和实体模式匹配.
An entity schema matching algorithm for heterogeneous data sources was proposed.Considering the Chinese-English bilingual environment,the algorithm used a semantic similarity algorithm based on Chinese wordnet and the Chinese lexical analysis system.And it established the mapping between different schema of similar entities by the factor of the distance from the column names,data types and the data content such as POS tagging.The algorithm was able to discover relationship between entities in different data resources of dataspace and other research for Chinese-English data semantic analysis and entity schema matching.
出处
《郑州大学学报(理学版)》
CAS
北大核心
2011年第1期50-56,共7页
Journal of Zhengzhou University:Natural Science Edition
基金
福建省科技计划重点项目
编号2008I0021
福建省自然科学基金资助项目
编号2009J01289
关键词
模式匹配
映射
相似度
schema matching
mapping
similarity