题名 基于词义特性的电子邮件敏感信息过滤仿真
1
作者
冯健文
林璇
机构
韩山师范学院计算机与信息工程学院
华南师范大学
出处
《计算机仿真》
北大核心
2023年第10期210-213,223,共5页
基金
中国高等教育学会高等教育科学研究“十三五”规划课题(2019SYSYB12)。
文摘
针对电子邮件敏感信息特征种类多,敏感信息过滤难度大的问题,提出一种基于决策树的过滤算法优化方法。建立电子邮件向量空间模型,给出信息对应词和所属类别向量关系,计算敏感信息中某一代表性词语与类别间的对应关系,通过词频出现概率求得所属类别,提取邮件特征。考虑到敏感信息在不同时间点的词义特性会发生变化,建立决策树,通过映射得到敏感信息与上下文信息串之间的影响关系,对电子邮件中的敏感信息项添加标签,求得属性值参数,按照参数大小设定邮件抗体的成熟度值,用于调整邮件传输通道宽度,实现精准过滤。实验数据证明,所提方法过滤精准度高,所需运算代价小,具有一定的实用价值。
关键词
决策树
电子邮件
敏感信息过滤
成熟度值
上下文信息 串
Keywords
Decision tree
E-mail
Sensitive information filtering
Maturity value
Context information string
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于决策树和DFA的老挝文敏感信息过滤算法
被引量:4
2
作者
王艺皓
丁洪伟
王丽清
李波
李浩
机构
云南大学信息学院
云南大学科技处
出处
《计算机应用与软件》
北大核心
2022年第7期241-246,274,共7页
基金
国家自然科学基金项目(61862064,61461053,61461054)
云南大学服务云南行动计划(C176240501007)
省教育厅产业化扶持项目(2016CYH03)。
文摘
通过对老挝文语言特点的分析,提出一种基于确定有穷自动机和决策树的老挝文敏感信息过滤算法。将老挝文进行词汇划分和编码化处理,合理地解决老挝文与汉语书写上的差异性以及计算机读取存储出现乱码的问题;结合决策树的特点,构建老挝文敏感信息决策树,该树不依赖于词典,且可以实现实时更新;基于确定有穷自动机模型实现了老挝文敏感信息的检测和过滤,同时也实现了实时报警。实验表明,该过滤算法针对老挝文有较高的工作效率,同时也取得了较好的查全率和查准率。
关键词
确定有穷自动机
决策树
敏感信息过滤
老挝文过滤
网络舆情
Keywords
Deterministic finite automaton
Decision tree
Filtering sensitive information
Lao filtering
Internet public opinion
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于网络文本信息的敏感信息过滤算法
被引量:32
3
作者
薛朋强
努尔布力
吾守尔.斯拉木
机构
新疆大学信息科学与工程学院
出处
《计算机工程与设计》
北大核心
2016年第9期2447-2452,共6页
基金
国家自然科学基金项目(61163052
61303231
+1 种基金
61433012)
国家自然科学基金联合基金项目(U1435215)
文摘
为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发生更新时,可以实现对敏感词的决策树的实时更新。实验结果表明,ST-DFA算法有较高的工作效率,适合当下对互联网敏感信息的检测与过滤。
关键词
敏感信息过滤
确定有穷自动机
网络文本信息
决策树
信息 检测
Keywords
sensitive information filtering
deterministic finite automaton
text information network
decision tree
information detection
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 面向维吾尔文的敏感信息过滤方法研究
被引量:6
4
作者
薛朋强
鲜英
努尔布力
吾守尔.斯拉木
机构
新疆大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2018年第5期236-241,246,共7页
基金
国家自然科学基金(No.61163052
No.61303231
No.61433012)
文摘
在这个信息量爆炸性增长的时代,网络不良信息充斥在日常生活当中。为了构建洁净的网络环境,实现对网络维吾尔文中敏感信息的检测与过滤,通过分析维吾尔文的特点,将维吾尔文进行词干提取和编码化处理,再结合DFA和决策树提出了针对维吾尔文敏感信息过滤的相应方法。维吾尔文经过词干提取、编码化处理解决了维吾尔文书写顺序和形式多样、存储易出现乱码等问题。再结合决策树的特点,将转码后的维吾尔文信息存储于决策树节点上,将决策树的子节点按照特定编码进行顺序排列。这样维吾尔文文本信息进行敏感信息过滤时可以缩小检测范围,提高算法效率。
关键词
敏感信息过滤
确定性自动机
维吾尔文过滤
决策树
Keywords
sensitive information filtering
deterministic finite automaton
Uyghur filter
decision tree
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于层次聚类的敏感信息安全过滤模型研究
被引量:1
5
作者
金秋
林馥
裴斐
机构
中原工学院计算机学院
武汉大学计算机学院
出处
《计算机仿真》
北大核心
2023年第10期296-299,320,共5页
基金
自然基金面上项目(61976162)。
文摘
若恶意信息在网络广泛传播,将严重影响网民的正常上网体验,于是提出基于层次聚类的敏感信息安全过滤模型。对敏感词拆分或者组合,将个体词语组建合成为敏感词短句,利用增量式Rocchio算法明确用户感兴趣内容,凭借层次聚类算法将用户感兴趣信息划分为不同类别;计算每组类别数据集中词频和位置因子,得到目标敏感级别分为绝对禁止、一般敏感和需要审核,最后对照由词表、短句构建的敏感词库,自动识别并去除互联网信息流中的敏感部分。在仿真中,所提方法得到的敏感词分布轨迹与实际轨迹高度拟合,能够证明方法过滤信息精度高,在误判率、漏判率和过滤效率方面也展现出了绝对优势。
关键词
层次聚类
敏感信息过滤
敏感 词词表
词频因子
Keywords
Hierarchical clustering
Sensitive information filtering
List of sensitive words
Word frequency factor
分类号
TP391
[自动化与计算机技术—计算机应用技术]