摘要
本文讨论了《信息处理用现代汉语常用词表》(以下简称《常用词表》)的制订方法。提出按照《信息处理用现代汉语分词规范》,以定量原则为主,定性原则为辅的原则进行选词,《常用词表》首次提出选词函数的术语,并创造性地使用两个不同选词函数共同选词,使所选词条均匀分布性更好;以定量为原则的收词方法客观真实地反映了社会实际用词的规律,尽可能地避免了传统主观方法建立词典时的不足;采用联想的定性方法做为定量标准的补充,使《常用词表》中词条更加完整避免和减小了在词频统计中由于分类、选材、抽样、分词等引起的背景干扰。《常用词表》收词规范、收词频率高、覆盖率高,为“现代”各个时期、各个专业所通用。经验证,覆盖率在98.5%以上。
出处
《中文信息学报》
CSCD
1991年第3期26-37,25,共13页
Journal of Chinese Information Processing