-
题名基于聚类的直推式学习的性能分析
被引量:5
- 1
-
-
作者
张新
何苯
罗铁坚
李东星
-
机构
中国科学院大学计算机与控制学院
-
出处
《软件学报》
EI
CSCD
北大核心
2014年第12期2865-2876,共12页
-
基金
国家自然科学基金(61103131
61472391)
+1 种基金
教育部留学回国人员科研启动基金
北京市自然科学基金(4142050)
-
文摘
近年来,Twitter搜索在社交网络领域引起越来越多学者的关注.尽管排序学习可以融合Twitter中丰富的特征,但是训练数据的匮乏,会降低排序学习的性能.直推式学习作为一种常用的半监督学习方法,在解决训练数据的稀少性中发挥着重要的作用.由于在直推式学习的迭代过程中会生成噪音,基于聚类的直推式学习方法被提出.在基于聚类的直推式学习方法中有两个重要的参数,分别为聚类的阈值以及聚类文档的数量.在原有工作的基础上,提出使用另外一种不同的聚类算法.大量在标准TREC数据集Tweets11上的实验表明,聚类的阈值以及聚类过程中文档数量的选择都会对模型的检索性能产生影响.另外,也分析了基于聚类的直推式学习模型的鲁棒性在不同查询集上的表现.最后,引入名为簇凝聚度的质量控制因子,提出了一种基于聚类的自适应的直推式方法来实现Twitter检索.实验结果表明,基于聚类的自适应学习算法具有更好的鲁棒性.
-
关键词
聚类
直推学习
twitter检索
自适应
性能
-
Keywords
clustering
transductive learning
twitter search
adaptive
performance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-