期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于trigram语体特征分类的语言模型自适应方法 被引量:6
1
作者 梁奇 郑方 +1 位作者 徐明星 吴文虎 《中文信息学报》 CSCD 北大核心 2006年第4期68-74,共7页
本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元... 本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%。 展开更多
关键词 计算机应用 中文信息处理 统计语言模型 trigram 自适应 语体 插值算法
下载PDF
基于中文机构名简称的检索方法研究 被引量:7
2
作者 钟良伍 郑方 《中文信息学报》 CSCD 北大核心 2007年第1期38-42,共5页
对于是否是中文机构名或机构名简称的自动判别,已经有广泛和深入的研究;但是对机构名简称和全称的匹配,目前鲜有研究成果。本文针对基于中文机构名简称的检索方法,研究了机构名的结构特征,总结出两种规则,定制了一个基于关键词类的分词... 对于是否是中文机构名或机构名简称的自动判别,已经有广泛和深入的研究;但是对机构名简称和全称的匹配,目前鲜有研究成果。本文针对基于中文机构名简称的检索方法,研究了机构名的结构特征,总结出两种规则,定制了一个基于关键词类的分词工具,提出简称和全称匹配的一种算法,并且结合多级索引技术,实现了基于中文机构名简称的检索系统。实验结果表明,本文所提方法的准确性较好,首选准确率达到近95%,在全称机构名总数达到51万的情况下,检索平均耗时约0.21秒,达到实用要求。 展开更多
关键词 计算机应用 中文信息处理 多级索引 模糊匹配 分词算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部