摘要
所谓暗网,指的是包含有意隐藏的内容且无法被传统搜索引擎检索的深层网络,在目前主流的暗网形态中,洋葱路由(Tor)是其中使用最广泛的一个。洋葱网站通过隐藏服务协议模糊网络IP,导致近年来大量违法犯罪活动在Tor网络上托管。在本文工作中,我们探讨了基于其文本内容自动引入外部知识在Tor暗网上识别非法活动的可能性。在对2000个隐藏服务的网页进行爬取和过滤后,我们将它们分类为6个不同的非法类别,并使用异构图神经网络模型训练了分类器。在该模型中,使用TF-IDF作为文本特征加权方法来选择对类别影响因子大的关键词。然而,由于暗网非法网页的短文本特性,经典的机器学习分类器很难在有限的语境中进行准确的语义理解。为了克服这一缺点,我们在图神经网络模型中引入了实体和主题等外部知识捕捉文本与附加信息之间的丰富关系。结果表明,用图神经网络建模代替经典机器学习模型是有效果的,在相同数据集的前提下,基于图神经网络的方法比现有的暗网文本分类方法提高了3个百分点。
出处
《网络安全技术与应用》
2021年第8期36-39,共4页
Network Security Technology & Application