-
题名基于特征和实例迁移的加权多任务聚类
被引量:6
- 1
-
-
作者
张晓彤
张宪超
刘晗
-
机构
大连理工大学软件学院
大连理工大学辽宁省泛在网络与服务软件重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第12期2614-2630,共17页
-
基金
国家自然科学基金(61632019)资助~~
-
文摘
传统聚类方法只对每个数据集单独进行聚类,但是有时单个数据集中的数据不足以挖掘一个良好的簇结构.在现实生活中,有很多数据集包含相同的类标签,因此存在多个相关的聚类任务.多任务聚类通过在相关任务之间迁移知识来提升每个任务的聚类性能,近些年来它获得越来越多的关注.一个好的多任务聚类算法要完成以下两方面工作:(1)它应该充分利用来自其它任务的知识;(2)它能够自动地评估任务相关性以避免负面迁移.然而,现有多任务聚类方法还不能很好地完成任意一方面的工作.本文提出一个基于特征和实例迁移的加权多任务聚类算法MTCFIR.一方面,它在任务之间既迁移特征表示知识又迁移实例知识,要比大部分现有多任务聚类方法更充分地利用跨任务知识.另一方面,它自动地学习任务相关性来避免负面迁移,并且没有现有评估任务相关性的多任务聚类方法的限制条件.MTCFIR执行以下三个步骤.首先,它利用边缘堆栈降噪自编码器在任务之间学习一个共有的特征表示.该步骤通过迁移特征表示知识来降低任务之间的分布差异,这是一致相似度矩阵学习的前提.其次,它通过在任务之间迁移实例知识来为每个任务学习一个一致相似度矩阵,并且通过对任务进行加权来决定不同任务对每个任务的一致相似度矩阵学习的贡献程度.该步骤可以避免在不太相关的任务之间强制迁移知识所带来的负面影响.最后,它在每个任务的一致相似度矩阵上执行对称非负矩阵分解来得到聚类结果.在真实数据集上的实验结果说明本文提出的方法比传统单任务聚类方法和现有多任务聚类方法具有更好的聚类效果,并且要比大部分多任务聚类方法高效.
-
关键词
多任务聚类
特征表示迁移
实例迁移
任务相关性学习
一致相似度矩阵学习
-
Keywords
multi-task clustering
feature representation transfers
instance transfer
task relatedness learning
consistent similarity matrix learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于维基百科的短文本语义扩展方法研究
被引量:2
- 2
-
-
作者
韩冬雷
金花
朱亚涛
刘金刚
-
机构
首都师范大学计算机科学联合研究院
河北农业大学信息科学与技术学院
中国科学院计算技术研究所
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第10期49-52,共4页
-
基金
国家自然科学基金项目(60903139)
国家自然科学基金面上项目(61173008)
+1 种基金
河北省高等学校科学技术研究青年基金项目(Z2012142)
河北农业大学理工基金项目(LG20120604)
-
文摘
面对短文本信息内容稀疏、上下文语境提取困难的挑战,基于维基百科的结构化信息特征,提出一种利用NMF算法来扩展短文本语义的方法。通过自动识别与短文本信息语义特征相关的维基百科概念来丰富它的内容,从而有效提高短文本信息数据挖掘和分析的效果。实验结果表明与已有方法相比,应用此方法可以进一步提高短文本信息语义扩展的效率和准确率。
-
关键词
短文本
非负矩阵分解
锚文本
语义相似度
-
Keywords
Short-text
Non-negative matrix factorisation (NMF)
Anchor text
Semantic relatedness
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-