-
题名HCL2000手写汉字数据库的更新及相关研究
被引量:4
- 1
-
-
作者
任俊玲
郭军
-
机构
北京邮电大学信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2005年第5期97-104,共8页
-
基金
教育部跨世纪人才基金和教育部重点科研项目资助(02029)
-
文摘
HCL2000是目前最具影响力的手写汉字数据库之一,基于研究手写汉字规律的设计初衷,该数据库采用了以书写者为单位按文件形式组织和存放的方式。本文则从研究样本选择的应用角度出发,对HCL2000中的样本进行了重新组织,同时对该数据库中的错误进行了纠正,生成了一个新的手写汉字数据库HCL2004。文章最后基于HCL2004数据库和方向线素特征进行了有关训练样本数对识别性能影响的研究,给出了3755类大字符集情况下的最佳训练样本数为300的结论,同时还对识别过程中的样本选择问题进行了探讨。
-
关键词
人工智能
模式识别
HCL2000
手写汉字数据库
样本选择
hcl2004
-
Keywords
artificial intelligence
pattern recognition
HCL2000
handwritten Chinese characters database
pattern selection
hcl2004
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于广义置信度的样本选择算法
被引量:4
- 2
-
-
作者
任俊玲
-
机构
北京信息工程学院计算机信息系统系
-
出处
《中文信息学报》
CSCD
北大核心
2007年第3期106-110,共5页
-
基金
国家自然科学基金资助项目(60475007)
-
文摘
对模式识别系统而言,不同的训练样本在建立模式类模型时所起的作用不同,因此必须对训练样本进行选择。而在训练样本中,边界样本的判定方式以及训练样本中包含边界样本数量的多少对分类的精度起主要作用。为此,结合基于模板匹配的脱机手写汉字识别,定义了一种通过广义置信度判定边界样本的方法,并且在此基础上建立了基于广义置信度的训练样本选择算法。通过在脱机手写汉字数据库HCL2004上进行实验,由该算法选择出的训练样本集在训练样本数减少的同时,使得系统识别率有了较大的提高,从而证实了该算法的有效性。
-
关键词
人工智能
模式识别
广义置信度
样本选择
手写汉字识别
hcl2004
-
Keywords
artificail intelligence
pattern recognition
generalized confidence
pattern selection
handwritten Chinese characters recognition
hcl2004
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-