提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain c...提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。展开更多
自底向上的社区发现算法中大多利用局部相似度对网络进行划分,其结果会导致一些节点的错误划分、子社区划分数目比较多以及出现社区结构不稳定等问题.针对这些问题,提出一种基于相似度的双向合并社区发现算法PMCD(Pairwise M erging Com...自底向上的社区发现算法中大多利用局部相似度对网络进行划分,其结果会导致一些节点的错误划分、子社区划分数目比较多以及出现社区结构不稳定等问题.针对这些问题,提出一种基于相似度的双向合并社区发现算法PMCD(Pairwise M erging Community Detection).在PM CD算法中,考虑社区节点间的相似度属性,利用节点之间的共同邻居为节点间的边分配权重,通过边权重将网络划分成小社区;计算未分配社区的节点与小社区之间的相似度,对小社区进行扩展,形成子社区;结合社区结构特性,计算模块度的变化值来判断子社区是否进行双向合并,直到形成最终社区.将PMCD算法在不同的数据集上进行比较与分析,实验结果表明,PMCD算法发现的社区接近真实结果,并且在获取高质量社区及运行时间方面具备一定的优势.展开更多
文摘提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。
文摘自底向上的社区发现算法中大多利用局部相似度对网络进行划分,其结果会导致一些节点的错误划分、子社区划分数目比较多以及出现社区结构不稳定等问题.针对这些问题,提出一种基于相似度的双向合并社区发现算法PMCD(Pairwise M erging Community Detection).在PM CD算法中,考虑社区节点间的相似度属性,利用节点之间的共同邻居为节点间的边分配权重,通过边权重将网络划分成小社区;计算未分配社区的节点与小社区之间的相似度,对小社区进行扩展,形成子社区;结合社区结构特性,计算模块度的变化值来判断子社区是否进行双向合并,直到形成最终社区.将PMCD算法在不同的数据集上进行比较与分析,实验结果表明,PMCD算法发现的社区接近真实结果,并且在获取高质量社区及运行时间方面具备一定的优势.