-
题名基于弱监督深度学习的文本聚类算法及应用
被引量:2
- 1
-
-
作者
谭敏
张宏源
张海超
-
机构
杭州电子科技大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2019年第4期171-177,共7页
-
基金
国家自然科学基金青年基金项目(61602136)
-
文摘
围绕基于用户点击数据的文本聚类展开研究。利用点击数据将查询文本表征为图像点击特征图,并在此上训练深度点击模型。为了应对文本噪声,引入可刻画文本可靠性的权重,提出基于弱监督深度学习的文本聚类算法来迭代更新文本权重和深度模型。将该算法应用于基于点击特征的图像识别中,通过合并相似文本,为图像构建紧凑的文本集点击特征向量,实现高效的图像识别。在Clickture-Dog和Clickture-Bird两个公开点击数据集上进行验证,结果表明:用图像点击特征图来表征查询文本可有效解决原始点击特征向量的稀疏和不连续性,帮助获得优秀识别率;弱监督深度聚类模型不仅帮助学习强大的文本表征,还能有效选择高质量文本数据训练模型,进一步提高性能。
-
关键词
图像识别
深度聚类
用户点击数据
查询合并
弱监督学习
-
Keywords
Image recognition
Deep clustering
User-click data
Query clustering
Weakly-supervised learning
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-