期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Skip-ngram模型解决数据稀疏问题的研究 被引量:2
1
作者 鲁一冰 刘驰 《自动化技术与应用》 2015年第3期35-37 46,46,共4页
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,... 本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,提升句子识别正确率。 展开更多
关键词 自然语言处理 ngram语言模型 数据稀疏 skip-ngram语言模型
下载PDF
基于局部上下文特征的组合的中文真词错误自动校对研究 被引量:8
2
作者 刘亮亮 曹存根 《计算机科学》 CSCD 北大核心 2016年第12期30-35,共6页
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆... 中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。 展开更多
关键词 真词错误 混淆集 上下文特征 ngram模型
下载PDF
一种传统蒙古文拼写检查系统的实现 被引量:1
3
作者 斯·劳格劳 白斯勤 白庆格勒图 《中央民族大学学报(哲学社会科学版)》 CSSCI 北大核心 2021年第1期158-168,共11页
文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面... 文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面的技术不能满足蒙古文需求。本文在借鉴中文、英文、阿拉伯文、印度文等多种语言拼写检查技术的基础上,介绍了一种基于混合策略的蒙古文非词检查及纠错建议生成方法。在非词检查阶段融合正字法词典和相关语法规则,研制了蒙古文有限状态自动机,大大提高了词语识别速度和非词查准率。在纠错建议生成阶段,首先以3500万词文本语料为基础,构建蒙古文全词词典,并解决了动词纠错建议的生成问题。之后以上述文本语料为基础,构建了蒙古文Ngram模型,并将最小编辑距离和词根Bigram融合,研制了六种候选词排序算法。经试验,本文提出的基于字符相似度的编辑距离计算方法以及与Bigram值加权融合的排序算法表现最好,正确候选词排在第一位和前三位的准确率分别达到了92.01%和96.51%,并且已实现在商业化校对软件Mongolian Editor Version 6.0中。 展开更多
关键词 传统蒙古文 文本校对 有限自动机 N元模型 编辑距离
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部