-
题名编码字符集中子集的完整性
被引量:3
- 1
-
-
作者
许寿椿
-
机构
中央民族学院计算机系
-
出处
《中文信息学报》
CSCD
1991年第4期56-62,共7页
-
基金
国家科学基金
-
文摘
本文提出编码字符集中的完整性问题。(一)中给出两类编码实例。一类严格遵从“一个字符只分配给一个码位“或”任何字符都不重复分配码位”(简称一符一码)的节约原则。另一类以一符两码可多码的方式,以码位的牺牲换取子集的完整性。(二)中解释了子集完整性概念和意义。说明了有意义的子集通常是现实中某子系统的反映。多文种编码字符集的许多子集往往与某自然语言系统相关联,这种子集的完整性,也就与相应语言文字的系统性相关联。据此提出了完整性条件,此较了完整性得失,说明了完整性的某种相对性。(三)中指出不少字符集,含ISO 10646 DP版及DIS版,的一符一码原则损害了若干子集的完整性。在那里,拉丁文字圈中除英文以外的各国家、各民族的文字字符子集大多被肢解了,只有字母表是英文字母表(含元素2×26=52个)子集者例外。斯拉夫文字圈、阿拉伯文字圈情况相似。文中指出汉语拼音字母子集,无论在汉字编码的中国国家标准中还是国际标准10646中被严重肢解了。 本文是作者另文《字符集的序性》[9]的续编。本文的讨论仍除外汉文及藏文。
-
关键词
编码字符集
子集
完整性
信息处理
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名字符集的序性
被引量:1
- 2
-
-
作者
许寿椿
-
机构
中央民族学院计算机系
-
出处
《中文信息学报》
CSCD
1991年第1期28-35,共8页
-
基金
中国自然科学基金
-
文摘
国际标准ISO/DP 10646中,把文字规定为用于书写语言的图形字符的完备集。本文作者认为,这个完备集应该是有序完备集。词典中的词以及其它类型的字符串习惯上总按确定的顺序排列。本文讨论了英文、拉丁壮文、欧洲拉丁字母系文字、蒙文、阿拉伯文和维吾尔文,朝鲜文的序性。讨论着重于编码字符串的序性与传统词典顺序的一致性。不幸的是,除英文外,前述的许多文字缺少这种一致性。字符集的序性在许多编码标准中被忽视了。实际上,除藏文外的文字,编码字符串与传统词典序的一致性大多可以通过合理编码获得。
-
关键词
字符集
计算机处理
序性
ASCII
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-