摘要
在中文信息处理领域,缩略语识别是研究中很重要的一个方面。针对缩略语词典资源稀少的现状,提出一种在生语料中自动抽取现代汉语缩略语的方法。首先获取候选缩略语的源短语候选集,然后利用基于上下文的源短语与缩略语配对方法,可自动生成一部缩略语词典,实验结果证明,该方法是一种相对"智能"的方法。
Identification of modem Chinese abbreviation is a very important study in Chinese information processing. Because of being short of abbreviation dictionary now, an approach is proposed, which would realize the automatic identification of modem Chinese ab- breviation. First abbreviation candidate is gained, then the abbreviation dictionary is automatically produced based on the context. The experiment show the approach is a relatively "smart" approach.
出处
《计算机工程与设计》
CSCD
北大核心
2007年第16期4052-4054,共3页
Computer Engineering and Design
基金
国家自然科学基金项目(60473139)
山西省自然科学基金项目(20051034)
山西大学青年基金项目(2006011)
关键词
源短语
缩略语
上下文
余弦相似度
未登录词
source phrase
abbreviation
context
cosine similarity
unknown words