网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加...网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加密流量快速分类方法 .该方法通过融合数据包和字节序列特征来完成网络流的特征表示,采用双元字节编码将所选特征扩展为双字节序列,增加了字节的上下文语义特征;通过与数据包特征处理相适应的池化方法来最大限度保留数据包的特征信息,从而使所提模型具有更强的抗噪能力和更精确的分类能力.本文方法分别在ISCX-2016和一个包含66个热门应用程序的私有数据集(ETD66)上进行验证,并与其他模型展开比较.结果表明:本文所提方法在ISCX-2016及ETD66上的测试精度和性能都明显优于其他流量分类模型,分别取得了98.2%和98.6%的识别准确率,从而证明了所提方法的特征提取能力和强泛化能力.展开更多
【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进...【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。展开更多
针对景区手写诗词存在背景纹理复杂、字体尺寸及风格多样等特点导致景区游客难以识别手写诗词的问题,首先,分析研究景区手写诗词的识别场景,设计景区诗词检测网络(detection of poetry in scenic areas-network,DPSA-Net)以提取景区手...针对景区手写诗词存在背景纹理复杂、字体尺寸及风格多样等特点导致景区游客难以识别手写诗词的问题,首先,分析研究景区手写诗词的识别场景,设计景区诗词检测网络(detection of poetry in scenic areas-network,DPSA-Net)以提取景区手写诗词不同尺度的特征,并结合手写诗词字符间的链接依赖关系实现景区手写诗词检测;其次,设计了卷积循环聚合网络(convolution recurrent aggregation network,CRA-Net)以对景区手写诗词进行识别,结合卷积神经网络(convolutional neural networks,CNN)和双向长短期记忆网络提取手写诗词图像的序列特征,并通过聚合交叉熵(aggregation cross-entropy,ACE)实现特征向文本的转换;最后,结合景区知识图谱对CRA-Net的输出进行校正,进而提高景区手写诗词的识别准确率。实验结果表明,通过景区手写诗词矫正技术对CRA-Net的识别结果矫正后,识别准确率达到了79.04%,同时,该技术具有较好的抗干扰能力和良好的应用前景。展开更多
文摘网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加密流量快速分类方法 .该方法通过融合数据包和字节序列特征来完成网络流的特征表示,采用双元字节编码将所选特征扩展为双字节序列,增加了字节的上下文语义特征;通过与数据包特征处理相适应的池化方法来最大限度保留数据包的特征信息,从而使所提模型具有更强的抗噪能力和更精确的分类能力.本文方法分别在ISCX-2016和一个包含66个热门应用程序的私有数据集(ETD66)上进行验证,并与其他模型展开比较.结果表明:本文所提方法在ISCX-2016及ETD66上的测试精度和性能都明显优于其他流量分类模型,分别取得了98.2%和98.6%的识别准确率,从而证明了所提方法的特征提取能力和强泛化能力.
文摘【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。