期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
限定领域语言模型训练语料的词类扩展方法 被引量:1
1
作者 黄韵竹 韦玮 +1 位作者 罗杨宇 李成荣 《计算机系统应用》 2011年第11期55-58,共4页
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半... 限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半自动扩展的方法。该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计。实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率。 展开更多
关键词 语料扩展 互信息 语言模型 语音识别 词类
下载PDF
濒危语言与汉语平行语料库动态构建技术研究 被引量:2
2
作者 于重重 曹帅 +3 位作者 张青川 尹蔚彬 孙沁瑶 刘畅 《计算机应用与软件》 北大核心 2018年第9期63-66,91,共5页
利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足。以濒危语言——吕苏语的语料作... 利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足。以濒危语言——吕苏语的语料作为被扩展对象,首先提取吕苏语的关键词,然后依据提取的关键词在静态网页下爬虫获取大量的中文文本,最后通过基于最小哈希的Jaccard算法来计算吕苏语语料与获取的中文文本之间的相似度,将相似度较高的中文文本作为吕苏语的汉语平行扩展语料。这一过程有效地解决了濒危语言在机器翻译过程中的语料不足问题。 展开更多
关键词 濒危语言 吕苏语 语料扩展 平行语料
下载PDF
实际场景语料和FSN语料的平衡方法 被引量:1
3
作者 熊军军 李成荣 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期730-734,共5页
为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语... 为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语料,称为FSN语料。该文重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器关键词检出率从55%提高到77%,音节错误率从39%降到30%。 展开更多
关键词 语料扩展 语言模型 有限状态网络(finitestatenetwork) 关键词概率
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部