期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于半监督图聚类的项目主题模型构建方法 被引量:1
1
作者 石林宾 余正涛 +2 位作者 严馨 宋海霞 洪旭东 《计算机科学》 CSCD 北大核心 2015年第5期119-123,共5页
项目文档主题表征的好坏直接影响后续评审专家的推荐效果。为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法。该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能... 项目文档主题表征的好坏直接影响后续评审专家的推荐效果。为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法。该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取。项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用。 展开更多
关键词 主题模型 半监督图聚类 关联关系特征 评审专家推荐
下载PDF
基于自适应聚类的虚假评论检测 被引量:33
2
作者 宋海霞 严馨 +2 位作者 余正涛 石林宾 苏斐 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期433-438,共6页
借助评论者的行为特性,提出一种基于评论者行为特征的自适应聚类的虚假评论检测方法.首先,根据评论数据定义自身基本特征以及与其他评论之间的关联性特征,并对每维特征进行归一化处理;其次,根据每一条评论的特征构建聚类矩阵,利用F统计... 借助评论者的行为特性,提出一种基于评论者行为特征的自适应聚类的虚假评论检测方法.首先,根据评论数据定义自身基本特征以及与其他评论之间的关联性特征,并对每维特征进行归一化处理;其次,根据每一条评论的特征构建聚类矩阵,利用F统计量对K均值算法进行改进,实现评论数据的自适应聚类;最后,计算每个簇偏离整个评论数据集的程度,根据阈值确定异常簇,从而实现虚假评论检测.利用领域评论数据进行实验,结果表明基于自适应聚类的虚假评论检测方法取得了较好的效果. 展开更多
关键词 虚假评论 自适应聚类 异常簇 F统计量
下载PDF
基于特征映射的微博用户标签兴趣聚类方法 被引量:5
3
作者 秦雨 余正涛 +2 位作者 王炎冰 石林宾 潘华山 《数据采集与处理》 CSCD 北大核心 2015年第6期1246-1252,共7页
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后... 针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。 展开更多
关键词 微博 特征映射 模糊聚类 语义相似度
下载PDF
基于半监督主动学习的虚假评论检测 被引量:2
4
作者 宋海霞 严馨 +2 位作者 余正涛 石林宾 郭剑毅 《昆明理工大学学报(自然科学版)》 CAS 2015年第5期59-65,共7页
基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特... 基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果. 展开更多
关键词 虚假评论 半监督学习 主动学习 TRI-TRAINING
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部