-
题名一种基于Simhash算法的重复域名数据去重方法
被引量:4
- 1
-
-
作者
侯开茂
韩庆敏
吴云峰
黄兵
张久发
柴处处
-
机构
中国电子信息产业集团有限公司第六研究所
-
出处
《信息技术与网络安全》
2022年第4期71-76,共6页
-
文摘
随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升。然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率。域名是一种存储量大而且对处理速率有极高要求的数据,为了节约域名解析系统的存储成本,提高传输效率,本文在原有数据去重技术的基础上,引入了Simhash算法,结合域名数据的结构特征,改进数据分词和指纹值计算方式,提出了一种基于Simhash算法的重复域名数据去重方法。实验结果表明,相比于传统的数据去重技术,该方法对删除重复域名数据效率更高,具有较好的实际应用价值。
-
关键词
数据去重
域名
Simhash
数据分块
-
Keywords
data deduplication
domain name
Simhash
data block
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于网络表示学习的网络安全用户发现方法
被引量:1
- 2
-
-
作者
刘向宇
燕玮
孟星妤
侯开茂
-
机构
华北计算机系统工程研究所
-
出处
《网络安全与数据治理》
2022年第7期78-82,共5页
-
基金
国防基础科研计划(JCKY2020211B005)。
-
文摘
发现社交媒体中的网络安全用户对于追踪网络安全动态有重要意义,针对这一特定领域用户的发现,提出了一种新的发现方法。首先利用社交媒体节点间的相互关注关系建立有向关系网络,然后用网络表示学习模型Node2vec生成节点的向量表示,并将收集到的网络安全关键字转化为特征向量,拼接后输入分类算法进行预测。实验结果表明,在社交媒体网络安全数据集上,所提方法的预测准确率优于现有的其他特定领域用户发现算法。
-
关键词
网络安全
Node2vec
社交媒体
二分类
自训练
-
Keywords
cyber security
Node2vec
social media
binary classification
self training
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-