期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于层次聚类的敏感信息安全过滤模型研究
1
作者 金秋 林馥 裴斐 《计算机仿真》 北大核心 2023年第10期296-299,320,共5页
若恶意信息在网络广泛传播,将严重影响网民的正常上网体验,于是提出基于层次聚类的敏感信息安全过滤模型。对敏感词拆分或者组合,将个体词语组建合成为敏感词短句,利用增量式Rocchio算法明确用户感兴趣内容,凭借层次聚类算法将用户感兴... 若恶意信息在网络广泛传播,将严重影响网民的正常上网体验,于是提出基于层次聚类的敏感信息安全过滤模型。对敏感词拆分或者组合,将个体词语组建合成为敏感词短句,利用增量式Rocchio算法明确用户感兴趣内容,凭借层次聚类算法将用户感兴趣信息划分为不同类别;计算每组类别数据集中词频和位置因子,得到目标敏感级别分为绝对禁止、一般敏感和需要审核,最后对照由词表、短句构建的敏感词库,自动识别并去除互联网信息流中的敏感部分。在仿真中,所提方法得到的敏感词分布轨迹与实际轨迹高度拟合,能够证明方法过滤信息精度高,在误判率、漏判率和过滤效率方面也展现出了绝对优势。 展开更多
关键词 层次聚类 敏感信息过滤 敏感词词表 词频因子
下载PDF
混合CHI和MI的改进文本特征选择方法 被引量:5
2
作者 王振 邱晓晖 《计算机技术与发展》 2018年第4期87-90,94,共5页
特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,... 特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,引入词频因子。考虑互信息方法倾向选择低频词的缺点,并研究特征词在不同类别文档内的分布情况对互信息方法的特征选择的影响,通过引入特征的词频因子和调节参数对卡方统计量方法和互信息方法进行改进,并混合改进后的卡方统计量方法和互信息方法,提出一种混合的特征选择算法(CHMI)。通过对CHI方法、MI方法、改进的CHI方法、改进的MI方法和CHMI方法进行实验对比,使用CHMI方法进行特征选择,使最终分类结果的查准率和F1值都有了提高,验证了CHMI方法的有效性。 展开更多
关键词 文本分类 特征选择 卡方统计 互信息 词频因子 调节参数
下载PDF
一种改进的CHI文本特征选择方法 被引量:5
3
作者 樊存佳 汪友生 王雨婷 《计算机与现代化》 2016年第11期7-11,63,共6页
特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中... 特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中普遍存在的特征项,降低人为选取比例因子带来的误差,本文在CHI中引入自适应比例因子。实验结果表明,与CHI统计方法相比,改进后的CHI特征选择方法提高了非平衡语料集上的分类准确度。 展开更多
关键词 CHI统计 词频因子 类间方差 自适应比例因子
下载PDF
一种基于类差分度的互信息特征选择方法 被引量:2
4
作者 任军 葛卫丽 陈家勇 《中国科技论文》 CAS 北大核心 2015年第20期2386-2389,共4页
通过引入类差分度,提出一种改进的互信息特征选择方法,并同时引入相对词频因子解决传统方法倾向于选择低频词的不足,合理地改善了特征选择的准确率,提高分类的精度和效率。文本分类实验结果表明,所提出方法的平均查全率和平均查准率分... 通过引入类差分度,提出一种改进的互信息特征选择方法,并同时引入相对词频因子解决传统方法倾向于选择低频词的不足,合理地改善了特征选择的准确率,提高分类的精度和效率。文本分类实验结果表明,所提出方法的平均查全率和平均查准率分别提高了11.26%和8.04%,综合评价指标平均F1值提高了18.55%。 展开更多
关键词 计算机应用 特征选择 互信息 相对词频因子 类差分度
下载PDF
改进的互信息特征选择方法在垃圾邮件检测中的应用
5
作者 王禾清 《电脑知识与技术(过刊)》 2017年第5X期163-166,共4页
随着电子邮件数据量的不断增大,特征降维成为垃圾邮件检测研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问题进行特殊化的处理。因此,该文对传统的互信息特征选择方法进行了改进。除了针对其缺... 随着电子邮件数据量的不断增大,特征降维成为垃圾邮件检测研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问题进行特殊化的处理。因此,该文对传统的互信息特征选择方法进行了改进。除了针对其缺少词频信息,引入词频因子外,还针对二分类问题,引入了特征贡献比的概念。实验证明,采用改进的互信息特征选择方法大大提高了垃圾邮件的检测效果。 展开更多
关键词 垃圾邮件检测 特征选择 互信息 词频因子 特征贡献比
下载PDF
文本分类中卡方统计特征选择算法的改进
6
作者 陈伟鸿 林伟 《有线电视技术》 2018年第12期89-92,共4页
本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡情况,筛选出在指定类中出现频率大且分布均匀的特征词项。实验结果表明,结合SVM方法,相比于传统卡方统计... 本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡情况,筛选出在指定类中出现频率大且分布均匀的特征词项。实验结果表明,结合SVM方法,相比于传统卡方统计特征提取的分类效果,改进后卡方统计方法提取的特征值能够有效地提高文本分类的准确度,证明了改进后卡方统计算法的可行性。 展开更多
关键词 卡方统计 特征词频因子 类内分布均匀因子 修正因子
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部