期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于逆向最大匹配分词算法的汉盲翻译系统 被引量:7
1
作者 杨文珍 徐豪杰 +4 位作者 汪文妃 宣建强 赵维 吴新丽 潘海鹏 《计算机应用与软件》 北大核心 2021年第10期84-91,共8页
汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战。构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词... 汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战。构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词连写结果,有效提高了汉盲翻译的准确率。该系统基于词库可以区分出大多数多音字,能够得到较符合盲文分词连写规则的分词结果,并可向词库自主添加未登录词,进而提高中文分词的准确率。实验结果表明该系统能够降低因中文分词错误引起的语句歧义,减少因多音字混淆引起的翻译错误,避免因音节结构分散导致的盲文方数繁多,具有一定的开放性和实用性。 展开更多
关键词 汉盲翻译 中文分词 未登录词 逆向最大匹配
下载PDF
中文分词算法研究综述 被引量:10
2
作者 汪文妃 徐豪杰 +1 位作者 杨文珍 吴新丽 《成组技术与生产现代化》 2018年第3期1-8,共8页
针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈,归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法的研究内容.基于词典的分词算法以提高时间和空间效率为目标,通过改进词典结构来提高分词效率.双字哈希结... 针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈,归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法的研究内容.基于词典的分词算法以提高时间和空间效率为目标,通过改进词典结构来提高分词效率.双字哈希结构是目前查词性能较好的词典机制,但对于歧义消除和未登录词识别的贡献度有限.基于统计的分词算法通过改进统计语言概率模型,在一定程度上可消除中文分词的歧义,较好地识别出未登录词.条件随机场模型(CRF)综合了隐马尔科夫模型(HMM)和最大熵模型(ME)的特征,是目前基于统计分词算法的主流训练模型.随着神经网络的研究应用,基于语义理解的分词算法对歧义消除和未登录词识别表现出较好的性能,能够提高中文分词的正确率.未来中文分词算法将更多地围绕上下文语义开展研究,运用深度学习技术进一步提升歧义消除和未登录词识别的能力,从而提高中文分词的正确率. 展开更多
关键词 中文分词 歧义消除 未登录词识别 词典机制 语义理解 深度学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部