期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于信息增益的文本特征选择方法 被引量:31
1
作者 任永功 杨荣杰 +1 位作者 尹明飞 马名威 《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权... 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 文本分类 信息增益值 冗余特征 不平衡数据集
下载PDF
基于信息增益特征关联树的文本特征选择算法 被引量:9
2
作者 任永功 杨雪 +1 位作者 杨荣杰 胡志冬 《计算机科学》 CSCD 北大核心 2013年第10期252-256,共5页
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度... 传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 特征关联树 信息增益值 不平衡数据集 离散度
下载PDF
机器学习算法在数据挖掘中的应用 被引量:2
3
作者 何达齐 《长江信息通信》 2023年第9期50-52,共3页
由于传统方法在数据挖掘中应用效果不佳,不仅挖掘信息增益值比较低,而且数据挖掘耗时比较长,无法达到预期的数据挖掘效果,提出机器学习算法在数据挖掘中的应用。采用随机森林去重算法对大量的已有数据进行去重抽样,采用数据缺失插补技... 由于传统方法在数据挖掘中应用效果不佳,不仅挖掘信息增益值比较低,而且数据挖掘耗时比较长,无法达到预期的数据挖掘效果,提出机器学习算法在数据挖掘中的应用。采用随机森林去重算法对大量的已有数据进行去重抽样,采用数据缺失插补技术对随机抽取的数据样本进行插补处理,补充数据缺失值,通过数据特征规则抽取查找出数据之间的关联规则,根据关联规则利用机器学习算法对数据分类挖掘,以此完成基于机器学习算法的数据挖掘。经实验证明,设计方法挖掘信息增益值在0.9以上,数据挖掘耗时在1s以内,在数据挖掘领域具有良好的应用前景。 展开更多
关键词 机器学习算法 数据挖掘 信息增益值 随机森林去重算法 数据缺失插补技术
下载PDF
基于API函数及其参数相结合的恶意软件行为检测 被引量:17
4
作者 韩兰胜 高昆仑 +3 位作者 赵保华 赵东艳 王于波 金文德 《计算机应用研究》 CSCD 北大核心 2013年第11期3407-3410,3425,共5页
提出了一个较灵活、可扩展的方法,它是基于更细致的运行特征:API函数调用名、API函数的输入参数及两种特征的结合。抽取以上三类特征,借助信息论中的熵,定义了恶意代码信息增益值的概念,并计算相应的API及其参数在区分恶意软件和良性软... 提出了一个较灵活、可扩展的方法,它是基于更细致的运行特征:API函数调用名、API函数的输入参数及两种特征的结合。抽取以上三类特征,借助信息论中的熵,定义了恶意代码信息增益值的概念,并计算相应的API及其参数在区分恶意软件和良性软件时的信息增益值,进而选择识别率高的特征以减少特征的数目从而减少分析时间。实验表明,少量的特征选取和较高的识别率使得基于API函数与参数相结合的检测方法明显优于当前主流的基于API序列的识别算法。 展开更多
关键词 恶意软件检测 基于行为检测 API调用名 输入参数 信息增益值
下载PDF
基于加密流量分析的移动应用程序识别研究
5
作者 李雨泰 王洋 +2 位作者 陈紫儿 柳瑞春 尚智婕 《电子制作》 2021年第24期71-73,共3页
现有的移动应用程序识别算法加密数据流量特征提取效果较差,导致程序识别精度较差,因此,研究基于加密流量分析设计移动应用程序识别方法。提取加密数据流量特征,计算信息增益值与信息增益率,获得偏移矩阵激活函数,精确提取加密数据流量... 现有的移动应用程序识别算法加密数据流量特征提取效果较差,导致程序识别精度较差,因此,研究基于加密流量分析设计移动应用程序识别方法。提取加密数据流量特征,计算信息增益值与信息增益率,获得偏移矩阵激活函数,精确提取加密数据流量特征;设计移动应用程序识别算法,计算聚类信息簇。在对比实验中,分别计算三种识别算法的精度,在实验结果中,加密流量分析算法的Accuracy值、Recall值和Precision值均高于其他两种算法,可知该算法精度更高,识别效果更好。 展开更多
关键词 加密流量分析 移动应用 信息增益值 应用程序识别 加密流量
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部