期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种词法分析与字标注分词结合的方法 被引量:1
1
作者 黄小斌 余悦蒙 《电脑知识与技术(过刊)》 2012年第3X期1814-1817,1820,共5页
提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训... 提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。该文将隐马模型中的viterbi算法修改成N-viterbi算法,采用N-viterbi算法可以实现查找分词图中的前N条最大概率路径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。 展开更多
关键词 分词 词法分析 字标注 n-viterbi 隐马模型 一体化
下载PDF
基于贝叶斯网络的二元语法中文分词模型 被引量:8
2
作者 刘丹 方卫国 周泓 《计算机工程》 CAS CSCD 北大核心 2010年第1期12-14,共3页
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率... 提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74800字。 展开更多
关键词 中文分词 贝叶斯网络 VITERBI算法 N元语法
下载PDF
基于音节首字母匹配的音译单元对齐方法 被引量:1
3
作者 赵明明 梁颖红 +1 位作者 周美玲 姚建民 《江南大学学报(自然科学版)》 CAS 2009年第6期639-642,共4页
音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于... 音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。 展开更多
关键词 音译单元 机器音译 VITERBI算法 N—gram模型
下载PDF
基于N-gram语言模型的汉字识别后处理研究 被引量:5
4
作者 董广宇 吕学强 +1 位作者 王涛 施水才 《微计算机信息》 2009年第10期276-278,共3页
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率... 为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。 展开更多
关键词 N元语言模型 维特比算法 汉字识别 后处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部