-
题名基于马尔科夫随机场的粘连字符串切分算法
被引量:5
- 1
-
-
作者
杨庆海
卢波
颜子夜
黄沈滨
王海洁
-
机构
哈尔滨工业大学网络与信息中心
华润万东医疗装备股份有限公司
-
出处
《计算机工程》
CAS
CSCD
2013年第4期258-262,共5页
-
文摘
粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。
-
关键词
字符串切分
粘连字符串
机器学习
马尔科夫随机场
信念传播
概率图
-
Keywords
string segmentation
touched string
machine learning
Markov random filed
belief propagation
probability map
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于多信息融合的中文手写地址字符串切分与识别
被引量:7
- 2
-
-
作者
付强
丁晓青
蒋焰
-
机构
智能技术与系统国家重点实验室清华大学电子工程系
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2008年第12期2916-2920,共5页
-
基金
国家自然科学基金(60472002)
西门子公司合作项目(20030829-24022SI202)资助课题
-
文摘
该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最优的切分结果及对应的最优识别结果。其中,几何信息是根据当前字符串自身的特点统计得到,因此可适应不同书写风格的字符串。识别信息由单字分类器给出,包括10个候选识别结果及其相应的置信度;单字分类器采用MQDF分类器。语义信息用基于字的bi-gram模型进行描述,模型参数是从包含18万条地址数据的数据库中统计得到的。用3000个实际的手写地址样本做试验,单字识别正确率达到88.28%。
-
关键词
地址识别
字符串切分
手写字符串识别
-
Keywords
Address recognition
Character string segmentation
Handwritten character string recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词素特征的轻量级域名检测算法
被引量:29
- 3
-
-
作者
张维维
龚俭
刘茜
刘尚东
胡晓艳
-
机构
东南大学计算机科学与工程学院
江苏省计算机网络重点实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2016年第9期2348-2364,共17页
-
基金
国家自然科学基金(60973123)
国家科技支撑计划(2008BAH37B04)
国家重点基础研究发展计划(973)(2009 CB 320505)~~
-
文摘
对网络中DNS交互报文进行检测以发现恶意服务,是网络安全监测的一个重要手段,这种检测往往要求系统能够实时或准实时地发现监测域名中的可疑对象.面对庞大的域名集合,若对所有域名使用同样强度的监测通常开销过大.通过挖掘域名字面蕴含的词素(词根、词缀、拼音及缩写)特征,提出一种轻量级检测算法,能够快速锁定可疑域名,以便后续有针对性地进行DPI检测.实验结果表明:基于词素特征的检测算法比统计n元组频率分布的方法虽然略微增加了58.3%的内存开销,但却具备抗逃避能力以及更高的准确率(相对提高35.2%);与基于单词特征的方法相比,极大地降低了计算复杂度(相对降低64.8%),并减少了2.6%的内存开销,而准确率仅下降2.5%.
-
关键词
网络安全监测
域名检测
词素
字符串切分
C4.5分类器
-
Keywords
network security monitoring
domain name detection
morphemes
string segmentation
C4.5 classifier
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-