-
题名基于Word的中文词频分析系统设计与实现
- 1
-
-
作者
杨鹏
张利强
贺斯慧
-
机构
内江师范学院
内江市高梁中心学校
-
出处
《企业科技与发展》
2020年第10期70-72,共3页
-
基金
内江师范学院科研项目(项目编号:18ZB03)
内江师范学院大学生创新创业训练计划项目(项目编号:X2018007)
。
-
文摘
随着互联网的飞速发展,各类网络开发平台飞速成长,供用户在网络上畅所欲言,交流学习。但是,各种垃圾信息在网络上频繁发布,违背了网络平台开发的初衷,污染了网络环境。为杜绝此类垃圾信息,各大平台都采取各种措施优化网络环境,但是效果不佳,究其原因在于文字的任意组合排列都会产生不同的信息,而在拦截垃圾信息时必须进行模板化配置拦截,这就导致垃圾信息是可变的而拦截信息却要人为操作。为解决此类问题,可以将垃圾信息细化成单独的个体,也就是对信息进行分词。
-
关键词
word分词
词频
中文分词
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名异构并行的DGA域名检测方法
- 2
-
-
作者
温雪岩
焦燕
郭云飞
赵玉茗
-
机构
东北林业大学计算机与控制工程学院
-
出处
《中国电子科学研究院学报》
北大核心
2023年第10期957-967,共11页
-
基金
国家自然科学基金资助项目(61971119)。
-
文摘
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。
-
关键词
深度学习
恶意域名
机器学习
门控循环单元网络
词向量嵌入
word
ninja分词技术
-
Keywords
deep learning
malicious domain name
machine learning
gated circulation unit network
word vector embedding
word segmentation technique of wordninja
-
分类号
TN918
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
-