期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于偏斜数据集的文本分类特征选择方法研究 被引量:4
1
作者 刘振岩 孟丹 +1 位作者 王伟平 王勇 《中文信息学报》 CSCD 北大核心 2014年第2期116-121,共6页
对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择... 对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数—相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。 展开更多
关键词 文本分类 数据 特征选择 类别差异
下载PDF
基于数据融合的组合特征提取方法的研究 被引量:1
2
作者 谈佳宁 朱玉全 +1 位作者 陈耿 翟国 《计算机工程与设计》 CSCD 北大核心 2009年第10期2529-2532,共4页
针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于... 针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度。实验结果表明,用数据融合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率。 展开更多
关键词 特征提取 数据集偏斜 数据融合 支持向量机 WEB文本分类
下载PDF
基于机器学习的文本分类技术研究进展 被引量:386
3
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注 数据 分级分类 大规模文本分类 Web页分类
下载PDF
一种改进的少数类样本过抽样算法 被引量:2
4
作者 许丹丹 蔡立军 王勇 《计算机工程》 CAS CSCD 2012年第4期67-69,共3页
针对偏斜数据集的分类问题,提出一种改进的少数类样本过抽样算法(B-ISMOTE)。在边界少数类实例及其最近邻实例构成的n维球体空间内进行随机插值,以此产生虚拟少数类实例,减小数据的不均衡程度。在实际数据集上进行实验,结果证明,与SMOT... 针对偏斜数据集的分类问题,提出一种改进的少数类样本过抽样算法(B-ISMOTE)。在边界少数类实例及其最近邻实例构成的n维球体空间内进行随机插值,以此产生虚拟少数类实例,减小数据的不均衡程度。在实际数据集上进行实验,结果证明,与SMOTE算法和B-SMOTE算法相比,B-ISMOTE算法具有较优的分类性能。 展开更多
关键词 数据 分类 过抽样 虚拟实例 n维球体空间
下载PDF
基于机器学习的中文文本自动分类的实践研究 被引量:1
5
作者 韦灵 黎伟强 《智库时代》 2019年第46期265-266,共2页
信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面地开发数据资源的内在价值,进一步提升文本分类的实... 信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面地开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。 展开更多
关键词 文本表示 数据集偏斜 多层分类
下载PDF
基于机器学习的中文文本自动分类的实践研究
6
作者 韦灵 黎伟强 《智库时代》 2019年第45期233-234,共2页
信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实... 信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。 展开更多
关键词 文本表示 数据集偏斜 多层分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部