-
题名基于强类别特征近邻传播的半监督文本聚类
被引量:10
- 1
-
-
作者
文翰
肖南峰
-
机构
华南理工大学计算机科学与工程学院
佛山大学理学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2014年第7期646-654,共9页
-
基金
国家自然科学基金项目(No.61171141)
国家自然科学基金青年科学基金项目(No.11201070)资助
-
文摘
为处理高维稀疏的大规模文档数据,提出一种基于强类别特征近邻传播(SCFAP)的半监督文本聚类算法.聚类过程中,利用少量带类别标签的监督数据,提取具有强类别区分能力的特征项以构建更有效的样本间相似性测度.并在每轮迭代完成后将类别确定性程度最高的未标记样本转移到已标注集,使算法执行效率提高.实验结果表明,这种改进对于近邻传播算法的性能和准确度的提升有较大帮助,在Reuter-21578和20Newsgroups两个相异数据集上,SCFAP算法表现较好的适用性.综合考察聚类微平均Fμ指标和类簇纯度Pt指标,该算法在少量监督信息辅助下能快速获得较好的聚类结果.
-
关键词
半监督聚类
近邻消息传播
强类别特征
类相似性
-
Keywords
Semi-Supervised Clustering, Affinity Message Propagation, Strong Classification Features,Class Similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于强类别特征的文本相似度计算及其性能评估
被引量:2
- 2
-
-
作者
刘辉
-
机构
上海理工大学信息化办公室
-
出处
《软件工程》
2020年第10期5-7,4,共4页
-
文摘
本文基于强类别特征识别算法,研究一种文本语义相似度的计算算法并对其性能进行评估。为实现该功能并形成一种通用算法,本文设计了一种基于语义识别码的语义函数库作为比较对象,使用两次模糊神经元深度卷积机器学习算法模块,并在两次机器学习之间使用一次基于傅立叶变换的频域特征提取的刚性算法,最终在该算法模块前后使用外置的数据模糊算法和解模糊算法,实现了一个较复杂的机器学习通用算法。而该算法也是本文的一次技术创新。通过基于志愿者主观评价的性能评估,发现该系统重点实现了汉语言的文本语义相似度评价,且实现了81.78%的人工判断准确率对比结果,且只有5.52%的志愿者认为系统判断结果与人工判断结果完全不一致。
-
关键词
强类别特征算法
机器学习
文本相似度
语义识别
性能评估
-
Keywords
strong class feature algorithm
machine learning
text similarity
semantic recognition
performance evaluation
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-