期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于混合嵌入和胶囊网络的恶意URL分类模型
1
作者 于晓琪 金彦亮 《工业控制计算机》 2024年第2期114-116,共3页
作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了... 作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了一种基于混合嵌入和胶囊网络的恶意URL分类模型,引入高速网络和胶囊网络从URL的混合嵌入表示中提取区分性特征,提高了模型的分类性能。在公开数据集ISCX-URL2016上的实验结果表明,该文模型与其他基线方法相比,实现了更好的分类性能,能够有效应对混淆技术的多样性。 展开更多
关键词 恶意url分类 胶囊网络 高速网络 深度学习
下载PDF
一种基于URL分类的在线垃圾邮件过滤技术
2
作者 李洋 方滨兴 郭莉 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期240-245,共6页
垃圾邮件过滤是网络安全领域的一个经典难题.在分析了传统垃圾邮件过滤技术不足的基础上,提出并使用机器学习领域经典的最大熵模型,对最能体现垃圾邮件特性的URL链接进行分类识别,实现了一种新型的基于URL分类的在线垃圾邮件过滤技术(UR... 垃圾邮件过滤是网络安全领域的一个经典难题.在分析了传统垃圾邮件过滤技术不足的基础上,提出并使用机器学习领域经典的最大熵模型,对最能体现垃圾邮件特性的URL链接进行分类识别,实现了一种新型的基于URL分类的在线垃圾邮件过滤技术(URL-based spam filtering technique, UBSF).实验结果表明,该技术具有准确性高、误报率低以及适合实时在线处理的优点. 展开更多
关键词 网络安全 垃圾邮件过滤 机器学习 最大熵模型 url分类
下载PDF
基于AdaBoost-Bayes算法的URL分类方法
3
作者 张腾飞 张谦 刘嘉勇 《信息网络安全》 CSCD 2017年第3期66-71,共6页
为实现根据HTTP协议数据流对用户的行为进行分析,需要快速区分出用户访问资源的URL。为此文章提出一种结合规则过滤和机器学习算法的方法,用于快速识别用户访问的URL。首先将解析后的数据包根据URL后缀过滤掉资源加载类的数据包,然后根... 为实现根据HTTP协议数据流对用户的行为进行分析,需要快速区分出用户访问资源的URL。为此文章提出一种结合规则过滤和机器学习算法的方法,用于快速识别用户访问的URL。首先将解析后的数据包根据URL后缀过滤掉资源加载类的数据包,然后根据浏览器UserAgent的特有字段和在浏览器上访问网页的特性识别出浏览器UserAgent, 最后通过基于AdaBoost和Bayse算法训练好的分类器识别出用户访问URL。实验结果表明,本文方法能够在局域网数据流中高效、准确的识别出用户访问的URL。 展开更多
关键词 规则过滤 机器学习算法 url分类
下载PDF
基于改进的n-gram模型的URL分类算法研究 被引量:2
4
作者 骆聪 周城 《计算机技术与发展》 2018年第9期38-41,共4页
在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对... 在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对基于内容分析的网页分类技术在部分场景下的不足,提出仅根据网页URL信息进行网页分类。借鉴n-gram模型的思想,并将字符作为基本单位,进行URL特征的提取。考虑到URL各字段对于网页分类的区分能力不同,在剔除部分字段的同时,也为重要的path字段赋予更高的权重,在此基础上改进了n-gram模型。实验结果表明,将改进后的n-gram模型用于URL分类不仅提高了算法效率,而且网页分类的准确性也有所提升,其中训练时间减少了9.34%,网页分类结果的F1值提高了12.63%。 展开更多
关键词 大数据 网页分类 网页url N-GRAM模型 url分类
下载PDF
基于URL主题的查询分类方法 被引量:14
5
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 url分类 查询日志 伪相关反馈 统计学习
下载PDF
基于DPI的用户兴趣实时分类 被引量:4
6
作者 陈康 付华峥 +2 位作者 陈翀 张宇艺 韦誉 《电信科学》 北大核心 2016年第12期109-115,共7页
近年来,随着大数据发展热潮兴起,电信运营商能获得的DPI数据规模越来越大。如何对如此海量的DPI数据进行实时的挖掘和分类是运营商研究的热点。设计了一种基于混合n-gram特征的URL分类算法和基于Doc2Vec模型的文本分类算法相结合的DPI... 近年来,随着大数据发展热潮兴起,电信运营商能获得的DPI数据规模越来越大。如何对如此海量的DPI数据进行实时的挖掘和分类是运营商研究的热点。设计了一种基于混合n-gram特征的URL分类算法和基于Doc2Vec模型的文本分类算法相结合的DPI数据分类方法,大大提高了DPI数据的分类速度和分类准确率,为电信运营商进行精准营销提供了良好的基础。 展开更多
关键词 DPI url分类 文本分类 N-GRAM Doc2Vec
下载PDF
轻量级的自学习网页分类方法 被引量:2
7
作者 沙泓州 周舟 +1 位作者 刘庆云 秦鹏 《通信学报》 EI CSCD 北大核心 2014年第9期32-39,共8页
提出了一种自学习的轻量级网页分类方法 SLW。SLW首次引入了访问关系的概念,使其具有反馈和自学习的特点。SLW从已有的恶意网页集合出发,自动发现可信度低的用户和对应的访问关系,从而进一步利用低可信度用户对其他网页的访问关系来发... 提出了一种自学习的轻量级网页分类方法 SLW。SLW首次引入了访问关系的概念,使其具有反馈和自学习的特点。SLW从已有的恶意网页集合出发,自动发现可信度低的用户和对应的访问关系,从而进一步利用低可信度用户对其他网页的访问关系来发现未知的恶意网址集合。实验结果表明,在相同数据集上,相比于传统检测方法,SLW方法可以显著提高恶意网页检测效果,大幅降低平均检测时间。 展开更多
关键词 url分类 黑名单 访问关系 恶意网页 网页评价
下载PDF
基于URL的中文多语义名词在线语义标注
8
作者 刘一正 杨静 李强 《计算机工程》 CAS CSCD 2014年第10期150-154,共5页
中文语义标注在自然语言处理领域有广泛的应用,其目的在于挖掘并标注出中文多语义名词的多个语义。提出一种新颖的语义标注算法,通过在线URL分类目录,构建得到URL分类器。借助于URL分类器,对搜索引擎返回的多语义名词的搜索结果(包括网... 中文语义标注在自然语言处理领域有广泛的应用,其目的在于挖掘并标注出中文多语义名词的多个语义。提出一种新颖的语义标注算法,通过在线URL分类目录,构建得到URL分类器。借助于URL分类器,对搜索引擎返回的多语义名词的搜索结果(包括网页URL及摘要)进行分类,得到多语义名词的初始语义分类结果。对初始语义分类结果按其网页摘要聚类,提取聚类特征后得到多语义词的语义标注结果。该算法利用基于URL的网页分类方法,能在线对中文多语义名词进行语义标注。实验结果证明,该语义标注算法可以取得70%的准确率及80%的召回率,适用于网络热词语义标注。 展开更多
关键词 语义标注 自然语言处理 中文多语义名词 url分类 文本聚类 热词
下载PDF
面向P2P特定信息的爬虫改进技术 被引量:3
9
作者 丁军平 蔡皖东 《计算机工程与应用》 CSCD 北大核心 2011年第29期23-26,共4页
针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对... 针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对集合中的关键词设置权限信息,设置集合的分类判断阈值;将URL使用特征向量表示,计算与关键词集合的距离,对URL进行分类;对算法性能进行了详细分析。实验结果表明,所提方法在进行"元信息"获取时,与传统主题爬虫技术相比能够大幅度提高效率,在相同时间内,"元信息"获取数量可增加96.21%,完全能够满足主动监测模型对网络爬虫的性能要求。 展开更多
关键词 “元信息”获取 主题爬虫技术 url分类算法 特征向量表示 主动监测模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部