-
题名基于信息增益的文本特征选择方法
被引量:31
- 1
-
-
作者
任永功
杨荣杰
尹明飞
马名威
-
机构
辽宁师范大学计算机与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第11期127-130,共4页
-
基金
国家自然科学基金项目(60603047)
教育部留学回国人员科研启动基金资助项目
+2 种基金
辽宁省科技计划项目(2008216014)
辽宁省教育厅高等学校科研基金(L2010229)
大连市优秀青年科技人才基金(2008J23JH026)资助
-
文摘
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
-
关键词
特征选择
文本分类
信息增益值
冗余特征
不平衡数据集
-
Keywords
Feature selection
Text classification
Information gain
Redundant feature
Imbalanced dataset
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于信息增益特征关联树的文本特征选择算法
被引量:9
- 2
-
-
作者
任永功
杨雪
杨荣杰
胡志冬
-
机构
辽宁师范大学计算机与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期252-256,共5页
-
基金
辽宁省计划项目(2012232001)
辽宁省自然科学基金(201202119)资助
-
文摘
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
-
关键词
特征选择
特征关联树
信息增益值
不平衡数据集
离散度
-
Keywords
Feature selection,Feature relation tree, Information gain, Imbalanced dataset,Dispersion
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名机器学习算法在数据挖掘中的应用
被引量:2
- 3
-
-
作者
何达齐
-
机构
广州华南商贸职业学院
-
出处
《长江信息通信》
2023年第9期50-52,共3页
-
文摘
由于传统方法在数据挖掘中应用效果不佳,不仅挖掘信息增益值比较低,而且数据挖掘耗时比较长,无法达到预期的数据挖掘效果,提出机器学习算法在数据挖掘中的应用。采用随机森林去重算法对大量的已有数据进行去重抽样,采用数据缺失插补技术对随机抽取的数据样本进行插补处理,补充数据缺失值,通过数据特征规则抽取查找出数据之间的关联规则,根据关联规则利用机器学习算法对数据分类挖掘,以此完成基于机器学习算法的数据挖掘。经实验证明,设计方法挖掘信息增益值在0.9以上,数据挖掘耗时在1s以内,在数据挖掘领域具有良好的应用前景。
-
关键词
机器学习算法
数据挖掘
信息增益值
随机森林去重算法
数据缺失插补技术
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于API函数及其参数相结合的恶意软件行为检测
被引量:17
- 4
-
-
作者
韩兰胜
高昆仑
赵保华
赵东艳
王于波
金文德
-
机构
华中科技大学计算机学院信息安全研究所
中国电力科学研究院信息工程研究所
国网电力科学研究院
浙江省电力公司
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第11期3407-3410,3425,共5页
-
基金
国家自然科学基金资助项目(61272003
61272405)
-
文摘
提出了一个较灵活、可扩展的方法,它是基于更细致的运行特征:API函数调用名、API函数的输入参数及两种特征的结合。抽取以上三类特征,借助信息论中的熵,定义了恶意代码信息增益值的概念,并计算相应的API及其参数在区分恶意软件和良性软件时的信息增益值,进而选择识别率高的特征以减少特征的数目从而减少分析时间。实验表明,少量的特征选取和较高的识别率使得基于API函数与参数相结合的检测方法明显优于当前主流的基于API序列的识别算法。
-
关键词
恶意软件检测
基于行为检测
API调用名
输入参数
信息增益值
-
Keywords
malware detection behavior-based detection API calls input parameters information gain value
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于加密流量分析的移动应用程序识别研究
- 5
-
-
作者
李雨泰
王洋
陈紫儿
柳瑞春
尚智婕
-
机构
国家电网有限公司信息通信分公司
-
出处
《电子制作》
2021年第24期71-73,共3页
-
文摘
现有的移动应用程序识别算法加密数据流量特征提取效果较差,导致程序识别精度较差,因此,研究基于加密流量分析设计移动应用程序识别方法。提取加密数据流量特征,计算信息增益值与信息增益率,获得偏移矩阵激活函数,精确提取加密数据流量特征;设计移动应用程序识别算法,计算聚类信息簇。在对比实验中,分别计算三种识别算法的精度,在实验结果中,加密流量分析算法的Accuracy值、Recall值和Precision值均高于其他两种算法,可知该算法精度更高,识别效果更好。
-
关键词
加密流量分析
移动应用
信息增益值
应用程序识别
加密流量
-
分类号
TP309.7
[自动化与计算机技术—计算机系统结构]
-