期刊文献+

基于渐进式丰富词典的分词方法研究 被引量:1

Word Segmentation Method Research Based on Enriching Dictionary Gradually
下载PDF
导出
摘要 由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来。由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频的方法记录下来,如果词频达到一定阈值,就可以把它认为是新词,可以把它加入到词典中,使得词典动态的增加。实验证明,该方法在保证分词速度不受影响的基础上,可以提高分词的精度。 With the fast development of modern society,many new words appear continuously.In the existing word segmentation methods based on matching strings,most of them dictionaries are changeless.If a new word appears,it can't be recognized accurately.So this paper puts forward the method of enriching words to dictionary gradually.It registers the strings of being segmented mistakenly by statistics method.If the word frequency exceeds the threshold,it can be taken for a new word and it will be put into the dictionary.Then the dictionary can be enriched dynamically.Experiment shows this method can improve the segmentation accuracy while retaining its speed.
出处 《计算机工程与应用》 CSCD 北大核心 2006年第32期164-166,共3页 Computer Engineering and Applications
基金 河北省科技攻关计划项目(05213573) 河北省教育厅科研计划项目(2004406)。
关键词 渐进式丰富词典 字符串匹配分词方法 统计分词方法 enriching dictionary gradually the matching method the statistic method
  • 相关文献

参考文献3

二级参考文献14

  • 1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量:66
  • 2关英春,中文信息学报,1996年,1期
  • 3揭春雨,中文信息学报,1989年,1期
  • 4赵珀璋,计算机中文信息处理,1989年
  • 5黄昌宁,语言信息处理专论,1996年
  • 6Li Junjie,J Harbin Inst Technol,1995年,2卷,2期
  • 7何克抗,中文信息学报,1995年,5卷,2期,1,28页
  • 8李俊杰,博士学位论文,1995年
  • 9刘源,信息处理用现代汉语分词规范及自动分词方法,1994年
  • 10姚天顺,中文信息学报,1990年,4卷,1期

共引文献177

同被引文献2

引证文献1

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部