-
题名一种面向大规模特征集的高效特征匹配算法
被引量:1
- 1
-
-
作者
张伟
薛一波
周宗伟
汪东升
-
机构
清华大学计算机系
清华大学网络安全研究中心
清华大学微处理器与片上系统研究中心
-
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2009年第6期551-557,共7页
-
基金
863计划(2007AA01Z468)资助项目
-
文摘
针对传统特征匹配(网络和信息安全系统的核心技术)算法的性能随着特征集规模的不断增大而不断下降的问题,提出了一种面向大规模特征集的高效特征匹配算法ALPM。该算法基于传统算法WM的跳跃思想,并结合硬件体系结构的特点,对预处理过程和匹配过程分别采用了不同的优化策略,如采用不同的哈希函数索引Shift表和Hash表,在预处理过程中动态截取特征标志,在匹配过程中结合Cache大小和特征集规模调整哈希函数冲突概率等,以提高匹配的性能。实验结果表明,针对大规模特征集,ALPM算法匹配性能比经典算法提高5~10倍。
-
关键词
大规模特征集
特征匹配
字符串匹配
哈希冲突
多线程技术
-
Keywords
large-scale pattern set, pattern matching, string matching, hash confliction, multi-threading
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模特征集翻译系统判别式训练方法综述
被引量:1
- 2
-
-
作者
刘宇鹏
马春光
刘水
刘乐茂
赵石磊
-
机构
哈尔滨理工大学软件学院
哈尔滨工程大学计算机学院
Baidu公司
哈尔滨工业大学计算机学院
-
出处
《哈尔滨理工大学学报》
CAS
2014年第4期100-105,共6页
-
基金
国家自然科学基金(61300115)
黑龙江省教育厅科学技术研究项目(12521073)
-
文摘
由于传统机器翻译是在小规模的开发集上进行训练的,这样不能很好的拟合数据.为了更好的完成机器翻译任务,需要在大规模数据特征集合上进行训练,而且现在主流的机器翻译训练算法是判别式的训练方法,本文从这两个角度出发,在更大机器学习的框架下对于机器翻译任务进行建模,克服了原有机器翻译模型进行建模的时候数学抽象能力不够的问题,并从四个大的方面分析了大规模特征集机器翻译系统判别式训练算法所面临的问题进行了分析,并从文献上给出了相关问题的解决方法.
-
关键词
损失函数
大规模特征集
在线算法
正则化
-
Keywords
loss function
large-scale feature
online learning
regulaization
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向大规模短特征集的字符串匹配技术
被引量:1
- 3
-
-
作者
李志文
张伟
-
机构
北京信息科技大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2014年第1期105-110,129,共7页
-
基金
北京市教育委员会科技计划面上项目(No.KM201110772014)
-
文摘
面向大规模特征集的字符串匹配技术在病毒检测、内容过滤等问题上的应用愈加广泛,而短模式串一直是阻碍性能提升的重要瓶颈。针对短模式串进行分析讨论,基于跳跃算法优化,采用了动态块大小和动态Hash处理以及Hash函数设计场景化的策略,同时探讨了多核处理器与多线程设计之间的关系。实验数据证明改进的算法策略具有支撑百万级特征集字符串匹配的能力。
-
关键词
大规模特征集
字符串匹配
短模式串
HASH函数
多线程技术
-
Keywords
large-scale pattern set
string matching
short pattern
Hash function
multi-threading technology
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-