现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系...现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系统代码开发过程中,基于个人习惯并为了增加代码的可读性,程序员设计的请求路径代码往往存在一定的模式。因此,考虑到Web请求的模式和单词语义间的相关性,研究基于Word2vec的动态未知词表示方法DUWe(Dynamic Unknown Word Embedding),该方法通过分析Web请求路径中单词上下文的关系来赋予未知词向量的表示内容。在CSIC-2010和WAF Dataset数据集上的实验评估表明,增加未知词表示方法比仅用Word2vec静态特征提取方法具有更好的性能,同时在准确性、精准率、召回率和F1-Score方面均有提高,在训练时间上最大降低1.14倍。展开更多
【目的】高能同步辐射光源HEPS(High Energy Photon Source)是我国第一台高能量同步辐射光源,预计2025年建成。HEPS建成后,首批投入使用的15条光束线站预计每天会产生200TB实验数据。为满足不同阶段对实验数据的读写需求,会对海量实验...【目的】高能同步辐射光源HEPS(High Energy Photon Source)是我国第一台高能量同步辐射光源,预计2025年建成。HEPS建成后,首批投入使用的15条光束线站预计每天会产生200TB实验数据。为满足不同阶段对实验数据的读写需求,会对海量实验数据进行分级存储和长期备份。如何将这些数据在不同存储介质之间稳定和高效地传输是HEPS实验中需要解决的重要问题。【方法】HEPS科学数据传输系统设计了多源DAQ接口、任务调度、消息队列、集群传输、日志监控、配置管理和消息通知等功能模块。【结论】系统实现了海量数据在不同存储介质间的高效、可靠传输。【结果】系统现部署在北京同步辐射多个线站,用作HEPS数据传输的前期验证,运行稳定、效果良好,为科研人员和用户提供了良好的数据传输服务。展开更多
文摘现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系统代码开发过程中,基于个人习惯并为了增加代码的可读性,程序员设计的请求路径代码往往存在一定的模式。因此,考虑到Web请求的模式和单词语义间的相关性,研究基于Word2vec的动态未知词表示方法DUWe(Dynamic Unknown Word Embedding),该方法通过分析Web请求路径中单词上下文的关系来赋予未知词向量的表示内容。在CSIC-2010和WAF Dataset数据集上的实验评估表明,增加未知词表示方法比仅用Word2vec静态特征提取方法具有更好的性能,同时在准确性、精准率、召回率和F1-Score方面均有提高,在训练时间上最大降低1.14倍。
文摘【目的】高能同步辐射光源HEPS(High Energy Photon Source)是我国第一台高能量同步辐射光源,预计2025年建成。HEPS建成后,首批投入使用的15条光束线站预计每天会产生200TB实验数据。为满足不同阶段对实验数据的读写需求,会对海量实验数据进行分级存储和长期备份。如何将这些数据在不同存储介质之间稳定和高效地传输是HEPS实验中需要解决的重要问题。【方法】HEPS科学数据传输系统设计了多源DAQ接口、任务调度、消息队列、集群传输、日志监控、配置管理和消息通知等功能模块。【结论】系统实现了海量数据在不同存储介质间的高效、可靠传输。【结果】系统现部署在北京同步辐射多个线站,用作HEPS数据传输的前期验证,运行稳定、效果良好,为科研人员和用户提供了良好的数据传输服务。