摘要
随着语料库的建设和发展,基于语料库的语言研究已经成为当代语言学研究的重要方法,但是由于缺乏满足文字学研究需要的字料库,基于字料库的文字学研究还是一片空白。首次提出的字料库的概念,是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础。字料库的性质和特点与语料库有四种不同之处。建设汉字字料库、开展基于汉字字料库的汉字整理与研究的设想,不仅丰富和深化了语料库理论,也为汉字研究与规范提供了新的方法,开拓了新的领域,对汉字的理论研究和汉字整理与规范的实践具有重要的理论意义和实践价值。
The corpus--based language study today, along the corpus construction and advancement worldwide, has become the mainstream study of modern linguistics and applied linguistics. However, for lack of support from a large scale of Chinese character database, the Chinese character study and the relevant criterion has relatively lagged behind. The authors in the present paper put forward the basic ideas for building a Chinese character database. That is, the Chinese character database should be an ordered congregation based on a large scale of Chinese characters in all forms from real texts, the goal of which is to serve the relevant theoretical research and social applications in terms of digitized technology. The paper demonstrates the necessity and feasibility.
出处
《北京师范大学学报(社会科学版)》
CSSCI
北大核心
2009年第5期48-53,共6页
Journal of Beijing Normal University(Social Sciences)
基金
北京师范大学文学院"211"三期工程项目资助
北京师范大学创新团队支持计划资助
关键词
字料库
语料库
字形
汉字形体
Chinese character database
corpus
font
Chinese character form