期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
文本分类中基于CHI和PCA混合特征的降维方法 被引量:9
1
作者 唐加山 段丹丹 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a... 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。 展开更多
关键词 中文文本分类 特征降维 混合特征降维方法(chi-PCA) 卡方统计(chi)方法 主成分分析(PCA)
下载PDF
不均衡大数据集下的文本特征基因提取方法 被引量:7
2
作者 孙晶涛 张秋余 《电子科技大学学报》 EI CAS CSCD 北大核心 2018年第1期125-131,共7页
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然... 在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。 展开更多
关键词 chi统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取
下载PDF
音乐和歌词融合的歌曲情感分类研究 被引量:3
3
作者 钟将 程一峰 《计算机工程》 CAS CSCD 2012年第8期144-146,共3页
为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明... 为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明,融合后的特征可以取得比任何单一种类特征更好的分类效果。 展开更多
关键词 情感模型 歌曲情感分类 chi统计方法 支持向量机 基于差别的chi方法 特征融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部