中文的同形异码字问题被引量：1

Duplicate Encoding of Chinese Characters

下载PDF

导出

摘要同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况。该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括(a)私人造字公有化所形成的同形异码字,(b)兼容编码所形成的同形异码字,(c)建立专门的笔画部首表而形成的同形异码字,(d)半宽和全宽字形分别编码而造成的同形异码字等,并探讨解决问题的方法。 A duplicate-encoded character is a character which has been assigned two or more code points in a coding system such as Unicode. When output in distinct codes, the glyphs of a duplicate.encoded character appear the same to human users, while in the computer, they are different characters. Such a human-computer inconsistency would cause confusion in language information processing, resulting in incomplete information retrieval, inaccurate statistic calculation, and inferior quality of data sorting and categorizing. This paper discusses duplicate encoding of Chinese characters in Unicode, MS Office and the WWW, including （a） duplicate encoding arising from new code assign- ment in the Unihan public area to characters already encoded in the private use area, （b） duplicate encoding caused by compatibility encoding, （c） duplicate encoding brought forward by building dedicated lists for CJK strokes and radicals, and （d） duplicate encoding of characters in half-width and full-width forms. Some effective solutions to the problems are also suggested.

作者张小衡

机构地区香港理工大学中文及双语学系

出处《中文信息学报》 CSCD 北大核心 2015年第4期144-150,共7页 Journal of Chinese Information Processing

基金 PolyU RGC Direct Allocation Fund.Project Account Code A-PK14

关键词中文字符同形异码 UNICODE Chinese characters duplicate encoding unicode

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1曾荫权.中华人民共和国香港特别行政区政府二零一一至一二年施政报告:继往开来[R].http://www.policyaddress.gov.hk/11-12/chi/pdf/Policy11-12.pdf.2011.
2香港政府资讯科技总监办公室(2008).香港增补字符集[S].香港:政府资讯科技总监办公室http://www.ogcio.gov.hk/tc/business/tech_promotion/ccli/hkscs/.
3陈壮.中国在ISO/IEC JTC1/SC2的活动与中文编码的国际标准化[J].中文信息学报,2007,21(4):122-128. 被引量：2
4Google.Unicode Over 60 Percent of the Web [EB].Posted on Google Official Blog by Mark Davis,International Software Architect,http://googleblog.blogspot.hk/2012/02/unicode-over-60-percent-of-web.html 2012.
5崔世安.中华人民共和国澳门特别行政区政府二○一二年财政年度施政报告[R].http://portal.gov.mo/web/guest/info_detail?infoid=134838.2011.
6The Unicode Consortium (2012a).The Unicode Standard,Version 6.2.0 [S],Mountain View,CA:The Unicode Consortium,http://www.unicode.org/versions/Unicode6.2.0/.
7The Unicode Consortium (2012b).CJK Radicals,the Unicode Standard 6.2.0 [S].http://www.unicode.org/charts/PDF/U2F00.pdf.
8The Unicode Consortium (2012c).CJK Radicals Supplement,the Unicode Standard 6.2.0 [S].http://www.unicode.org/charts/PDF/U2E80.pdf.
9The Unicode Consortium (2012d).CJK Strokes,the Unicode Standard 6.2.0 [S].http://www.unicode.org/charts/PDF/U31C0.pdf.
10Zhang,X.Computer Input of Non-ASCII Non-Hanzi Chinese Characters [J].The Journal of Modernization of Chinese Language Education (中文教学现代化学报),2012(2).

二级参考文献9

1傅永和.汉字简化五十年回顾[J].中国语文,2005(6):537-539. 被引量：12
2傅永和.二十世纪的汉语言文字规范工作[M].北京:北京大学出版社,1998.
3傅永和.当代中国的文字改革(第二章)[M].北京:当代中国出版社,1995.
4国家语委办公室.文字改革和现代汉语规范化工作40周年纪念手册[Z].北京:语文出版社,1996.
5ISO/IEC 10646:2003 Information technology-Universal Multiple-Octet Coded Character Set (UCS)[S].
6Amendments 1,2 and 3 of ISO/IEC 10646[S].2003.
7ISO/IEC JTC1/SC2[DB/OL] http://std.dkuug.dk/jtc1/sc2/.
8Unicode Consortium[DB/OL] http://www.unicode.org.
9Joseph D.Becker,Unicode 88,[J/OL] http://www.unicode.org/history/Unicode88.pdf,1988-08-29.

共引文献7

1郑泽芝.字母词语与汉语文字系统[J].厦门大学学报（哲学社会科学版）,2010,60(6):121-128. 被引量：1
2查晓芳,张积家.文字发展规律与汉字规范工作[J].华南师范大学学报（社会科学版）,2011(4):14-20. 被引量：5
3王琳琳,王振来.公共场所用字不规范现象研究[J].辽宁医学院学报（社会科学版）,2015,13(4):115-117.
4周美玲.中小学语文教材落实汉字结构规范标准情况的调查研究[J].语言文字应用,2016(2):21-30. 被引量：3
5董军,蒋同海,艾孜麦提.艾尼瓦尔,程力,徐春.一种改进的哈萨克文编码字符处理方法[J].中文信息学报,2017,31(4):94-99.
6杜晶晶.两岸汉字规范标准对比研究[J].语言文字应用,2018(3):11-20. 被引量：1
7程荣.《新华字典》部首法研究[J].中国语文,2019(6):748-760. 被引量：1

同被引文献7

1侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8
2那顺乌日图.蒙古文词根、词干、词尾的自动切分系统[J].内蒙古大学学报（哲学社会科学版）,1997,29(2):53-57. 被引量：15
3应玉龙,李淼,乌达巴拉,朱海.基于条件随机场的蒙古语词性标注方法[J].计算机应用,2010,30(8):2038-2040. 被引量：9
4赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
5姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
6白双成,张劲松,呼斯勒.蒙古文输入法输入码方案研究[J].中文信息学报,2013,27(6):169-174. 被引量：6
7苏传捷,侯宏旭,杨萍,员华瑞.基于统计翻译框架的蒙古文自动拼写校对方法[J].中文信息学报,2013,27(6):175-179. 被引量：10

引证文献1

1白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1

二级引证文献1

1娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.

1梁金宏,刘威,赵利民,廉诗阳.软件系统黑盒测试方法研究[J].电子世界,2016,0(22):139-140. 被引量：5
2肖新光.谷歌和百度的安全交汇点[J].程序员,2010(2):24-24.
3周立力.极限编程的质量保证分析[J].计算机应用与软件,2010,27(4):167-168. 被引量：2
4谌力.金山：从办公自动化到银行业务应用安全[J].新金融世界,2013(12):82-82.
5李黎,刘向东,侯朝桢.压电陶瓷执行器Preisach模型的分类排序实现[J].压电与声光,2007,29(5):544-547. 被引量：8
6最近文档任我看[J].计算机应用文摘,2004(15):78-78.
7张旭峰,闫焕景.运用Excel实现CAXA电子图板明细表的分类排序[J].机械工程师,2007(12):82-83.
8冰川冼剑.最近的文档随意看[J].大众软件,2004(22):86-87.
9引火虫.管理iPhone照片也要按月分类[J].电脑迷,2012(09S):49-49.
10谢膺白.不同计算机间数据内部代码的相互转换研究及其在软件移植中的应用[J].渭南师专学报（自然科学版）,1994,9(2):17-27.

中文信息学报

2015年第4期

浏览历史

内容加载中请稍等...

中文的同形异码字问题被引量：1

参考文献15

二级参考文献9

共引文献7

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

中文的同形异码字问题 被引量：1

参考文献15

二级参考文献9

共引文献7

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

中文的同形异码字问题被引量：1