期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
数据源敏感的多源XML数据相似度量方法
1
作者
王继奎
李少波
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第7期28-32,共5页
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数...
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.
展开更多
关键词
XML
数据
集成
文本处理
数据源敏感度
下载PDF
职称材料
题名
数据源敏感的多源XML数据相似度量方法
1
作者
王继奎
李少波
机构
中国科学院成都计算机应用研究所
贵州大学现代制造技术教育部重点实验室
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第7期28-32,共5页
基金
国家科技支撑计划项目(2012BAF12B14
2012BAH62F01)
+1 种基金
贵州省科技项目(黔科合重大专项字[2012]6021
黔科合计工字[2012]4009)
文摘
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.
关键词
XML
数据
集成
文本处理
数据源敏感度
Keywords
XML
XML
data integration
text processing
data source-sensitivity
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
数据源敏感的多源XML数据相似度量方法
王继奎
李少波
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部