-
题名基于正交基的多视图迁移谱聚类
被引量:1
- 1
-
-
作者
王丽娟
张霖
尹明
郝志峰
蔡瑞初
温雯
-
机构
广东工业大学计算机学院
广东工业大学自动化学院
汕头大学
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第10期37-44,54,共9页
-
基金
国家自然科学基金(61876042,61876043,61976052)
广东省基础与应用基础研究基金(2020A1515011493)
广州市科技计划(201902010058)。
-
文摘
挖掘多视图一致性是提升多视图聚类性能的关键,为更好地从多视图数据中学习一致性表示,提出一种新的多视图聚类算法OMTSC。OMTSC算法同时学习每个视图的聚类分配矩阵和特征嵌入,并将聚类分配矩阵分解为共享正交基矩阵和聚类编码矩阵。正交基矩阵可捕获并储存多视图一致性信息形成潜在聚类中心,经过加权融合的多视图聚类编码矩阵可更好地平衡不同视图的质量差异。引入基于二部图的协同聚类,实现正交基、聚类编码和特征嵌入3个矩阵的知识相互迁移,以提升多视图数据一致性和多样性,并利用特征嵌入的多样性最大化多视图一致性学习最优的潜在聚类中心,从而提高多视图聚类的性能。此外,基于群稀疏约束的特征嵌入可有效消除多视图数据中的噪声,提升算法的鲁棒性。在WikipediaArticles、COIL20和ORL数据集上的实验结果表明,与SC-Best、Co-Reg等先进的多视图聚类算法相比,OMTSC算法在ACC、NMI、ARI 3个评价指标上整体取得最优值,其中在COIL20和ORL数据集中的NMI评价指标均高于0.9。
-
关键词
多视图
正交基聚类
迁移学习
谱聚类
协同正则化
-
Keywords
multiview
orthogonal basis clustering
transfer learning
spectral clustering
co-regularization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于Spark的论文相似性快速检测方法
被引量:2
- 2
-
-
作者
卓可秋
童国平
虞为
-
机构
南京大学信息管理学院
江苏省数据工程与知识服务重点实验室(南京大学)
-
出处
《图书情报工作》
CSSCI
北大核心
2015年第11期134-142,共9页
-
基金
国家社会科学基金重大项目"面向突发事件应急决策的快速响应情报体系研究"(项目编号:13&ZD174)
国家社会科学基金项目"基于关联数据的图书馆语义云服务研究"(项目编号:12CTQ009)
+2 种基金
江苏省社会科学项目青年项目"基于语义云服务的数字阅读推广研究"(项目编号:14TQC003)
中央高校基本科研业务费专项资金资助项目"基于用户的标语用分析的社会化标签知识组织研究"(项目编号:1435003)
江苏省高校自然科学研究面上资助项目"基于语义消歧技术的社会化标签知识组织研究"(项目编号:15KJB520013)研究成果之一
-
文摘
[目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率P为100.0%,召回率R为93.6%,调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右,比Simhash算法高约23%。在检测速度上,对于一篇字数为5 000左右的待检测论文,检测时间约为6.5秒,比Simhash算法快近300倍,比LCS算法快约4 000倍,此外,实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。
-
关键词
论文相似性检测
Spark快数据处理
正交基软聚类
倒排索引
-
Keywords
paper similarity detection Spark fast data processing orthogonal soft clustering inverted index
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-