多文种环境下汉字内码识别算法的研究被引量：16

Research of Han Character Internal Codes Recognition Algorithm in the Multi-lingual Environment

下载PDF

导出

摘要汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题 ,并提供了多种汉字内码识别算法 ,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上 ,本文对不同的识别算法进行分析和评估。在对目标样本的测试中 ,以上算法的识别率最高可以达到 99 9%以上。 Its a general tendency that the Han Character Internal Codes used in computer should transfer to ISO/ IEC 10646, but there are multi-Han Character Internal Codes used in the computer now, and this instance will stand a long time. So how to realize the Han Character Internal Codes auto recognition is the key to build a Multi-lingual Environment. This paper mainly discusses the Han Character Internal Codes recognition algorithms in the Multi-lingual Environment, and provides four recognition algorithms, such as Internal Code Bound Recognition Algorithm, Interpunction Recognition Algorithm, Han Character Frequency Recognition Algorithm and Semantic Recognition Algorithm. This paper also evaluates the algorithms mentioned in this paper, and the rate of Recognition can reach 99.9% used these recognition algorithms on the test documents.

作者李培峰朱巧明钱培德

机构地区苏州大学计算机科学和技术学院

出处《中文信息学报》 CSCD 北大核心 2004年第2期73-79,共7页 Journal of Chinese Information Processing

基金江苏省高校自然科学基金项目资助 (0 1kjb5 2 0 0 0 1)

关键词计算机应用中文信息处理多文种环境汉字内码识别算法 computer application Chinese information processing multi-lingual environment han character internal code recognition algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张轴材.ISO/ IEC 10646-1 and Unicode标准与实现.CharacterCode amp Data To Come研讨会[R].,1996..

同被引文献101

1张玉华,周克兰.基于规则库的汉字输入法自动评测系统的设计[J].中文信息学报,2004,18(4):50-54. 被引量：5
2郝继东,田泉.古籍整理与研究现代化漫谈[J].古籍整理研究学刊,2002(5):94-96. 被引量：5
3张宇,刘挺,陈毅恒,赵世奇,李生.自然语言文本水印[J].中文信息学报,2005,19(1):56-62. 被引量：51
4林道进,周锋,章新新,蔺安稳,刘正荣,邢军,邓海光,唐建生,俞培德.GB 13000.1-BIG5汉字内码智能转换系统[J].中国传媒科技,2004(11):52-54. 被引量：3
5导夫.基于方正书版(Founder BookMaker9.X/10.X)的西夏文字处理技术研究[J].宁夏大学学报（人文社会科学版）,2005,27(2):89-94. 被引量：4
6祝佳,李生红,李建华.邮件内容过滤的中文编码盲识别算法[J].计算机工程与应用,2005,41(10):131-133. 被引量：1
7李培峰,朱巧明,钱培德.一个基于多代码页的中文屏幕实时解释引擎的设计[J].中文信息学报,2005,19(5):90-96. 被引量：2
8韩小忙.西夏文中的异体字和讹体字[J].民族语文,2005(4):58-62. 被引量：2
9江荻,严海林,孙伯君,斯钦朝克图,孟达来.《元朝秘史》电子文本检索系统的研制[J].中文信息学报,2006,20(3):36-42. 被引量：3
10赵敏之,孙星明,向华政.基于不完整语义理解的文本数字水印算法研究[J].计算机应用研究,2006,23(6):118-120. 被引量：6

引证文献16

1张玉华,周克兰.基于规则库的汉字输入法自动评测系统的设计[J].中文信息学报,2004,18(4):50-54. 被引量：5
2李培峰,朱巧明,钱培德.一个基于多代码页的中文屏幕实时解释引擎的设计[J].中文信息学报,2005,19(5):90-96. 被引量：2
3李培峰,朱巧明,钱培德.一个基于ISO/IEC10646的汉字输入模型[J].中文信息学报,2006,20(5):91-96. 被引量：4
4张玉华,杨季文,周克兰.汉字编码输入法动态评测系统的设计和实现[J].计算机工程与应用,2006,42(25):93-97. 被引量：3
5李培峰,朱巧明,钱培德.一个应用于手持设备的汉字通用输入模型[J].计算机工程,2006,32(18):258-260. 被引量：3
6李培峰,朱巧明,钱培德.基于Pocket PC的汉字输入系统的设计与实现[J].小型微型计算机系统,2006,27(11):2167-2171. 被引量：3
7李培峰,朱巧明,钱培德.一个面向信息处理的双向文字处理算法IBidi[J].计算机应用,2007,27(6):1513-1517. 被引量：2
8韩卓平,李培峰,朱巧明,钱培德.基于Symbian的智能手机中文输入法的设计[J].计算机应用与软件,2007,24(9):85-87. 被引量：2
9郑洪静,韩卓平.统计语言模型的手机数码中文输入法研究[J].苏州市职业大学学报,2008,19(2):96-99.
10李培峰,朱巧明,钱培德.基于语义的多文种编码方案SemaCode[J].计算机应用研究,2008,25(6):1652-1656. 被引量：1

二级引证文献31

1郝继东,田泉.古籍整理与研究现代化漫谈[J].古籍整理研究学刊,2002(5):94-96. 被引量：5
2李培峰,朱巧明,钱培德.一个基于ISO/IEC10646的汉字输入模型[J].中文信息学报,2006,20(5):91-96. 被引量：4
3张玉华,杨季文,周克兰.汉字编码输入法动态评测系统的设计和实现[J].计算机工程与应用,2006,42(25):93-97. 被引量：3
4周克兰,吕强,张玉华,潘吉斯,钱培德.试论汉字数字输入法评价[J].中文信息学报,2007,21(1):67-73. 被引量：8
5周卫华,裴亚军.基于汉字构形学的非键盘汉字输入法探讨[J].重庆科技学院学报（社会科学版）,2007(2):102-103. 被引量：1
6李培峰,朱巧明,钱培德.基于语义的多文种编码方案SemaCode[J].计算机应用研究,2008,25(6):1652-1656. 被引量：1
7李培峰,朱巧明,钱培德.语义为核心的多文种信息处理平台的模型[J].计算机工程与设计,2008,29(16):4335-4339.
8汤步洲,王晓龙,王轩,张强.语句级汉字拼音输入技术评估方法的研究[J].中文信息学报,2008,22(5):51-55. 被引量：3
9吴晓春,吴娴,李培峰,朱巧明.一个手机整句输入算法的研究与实现[J].中文信息学报,2008,22(5):114-120. 被引量：1
10买合木提·买买提,吐尔根·依布拉音,艾山·吾买尔.“突厥语大词典”电子词典的设计与实现[J].电脑知识与技术,2009,5(4):2649-2651. 被引量：1

1米吉提.阿布力米提,库尔班.吾布力.在多文种环境下的维吾尔语文字校对系统的开发研究[J].系统工程理论与实践,2003,23(5):117-124. 被引量：14
2安见才让.多编码环境下藏字内码识别算法的研究[J].微处理机,2009,30(5):69-71. 被引量：2
3张民,郑建立.基于符号特征的QR码识别算法[J].计算机工程,2011,37(4):278-280. 被引量：20
4尤杰,堵爱平.物料编码在信息系统中统一技术的研究与实现[J].信息技术,2012,36(11):167-170. 被引量：2
5贾小军.基于BP网的手写数字符号识别[J].嘉兴学院学报,2006,18(6):89-91.
6马永进.基于符号特征的隐马模型在WEB信息提取中的应用[J].计算机应用与软件,2009,26(5):281-284. 被引量：1
7我国将开始构建物联网编码统一标识体系[J].中国防伪报道,2012(10):65-65. 被引量：1
8朱仁欢,卢一相,孙冬.符号特征QR码定位和校正算法[J].中国测试,2015,41(2):88-90. 被引量：3
9宋豫江.编码统一管控实现油运企业信息化集成[J].中国信息化,2010(16):70-71.
10胡燕,吴韦.IUC算法及其在Web编码中的应用研究[J].武汉理工大学学报,2009,31(3):150-153.

中文信息学报

2004年第2期

浏览历史

内容加载中请稍等...

多文种环境下汉字内码识别算法的研究被引量：16

参考文献1

同被引文献101

引证文献16

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

多文种环境下汉字内码识别算法的研究 被引量：16

参考文献1

同被引文献101

引证文献16

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

多文种环境下汉字内码识别算法的研究被引量：16