期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一个面向广播语音识别的语言模型自适应框架
1
作者 王晓瑞 丁鹏 +1 位作者 梁家恩 徐波 《中文信息学报》 CSCD 北大核心 2007年第4期73-79,共7页
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一... 语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。 展开更多
关键词 计算机应用 中文信息处理 语言模型自适应 新词提取 开放式词典
下载PDF
统计机器翻译中基于双语数据筛选的语言模型自适应方法
2
作者 卢世祥 雷晓江 杨劲锋 《电子技术与软件工程》 2014年第20期201-202,共2页
统计机器翻译中,语言模型的性能受限于训练数据的数量和质量。为提高其性能,通常采用数据筛选的方法筛选合适的训练数据。本文对基于双语数据筛选的方法进行了全面综述和分析,并对各类方法进行了比较和总结。
关键词 统计机器翻译 双语数据筛选 语言模型自适应
下载PDF
基于动态自适应语言模型的中文输入系统的设计与实现
3
作者 孙晓 李培峰 刁红军 《苏州大学学报(自然科学版)》 CAS 2011年第2期29-35,共7页
首先介绍采用平滑算法构建通用语言模型、领域语言模型和用户语言模型的方法;然后提出了一种模型融合方法,形成了一个动态自适应语言模型.最后,将此模型与输入系统实现技术相结合,实现了一个基于动态自适应语言模型的中文输入系统.实验... 首先介绍采用平滑算法构建通用语言模型、领域语言模型和用户语言模型的方法;然后提出了一种模型融合方法,形成了一个动态自适应语言模型.最后,将此模型与输入系统实现技术相结合,实现了一个基于动态自适应语言模型的中文输入系统.实验表明,应用该模型的输入系统不仅降低了平均码长,而且显著提高了首字命中率. 展开更多
关键词 领域语言模型 用户语言模型 模型融合 动态自适应语言模型 中文输入系统
下载PDF
领域语言模型及其在中文输入系统中的应用
4
作者 孙晓 李培峰 《计算机应用与软件》 CSCD 北大核心 2012年第8期46-48,81,共4页
提出一种构建领域语言模型的策略,并基于余弦相似度提出一种模型融合的方法,以便将领域语言模型融入动态自学习语言模型,该语言模型可应用于中文输入系统。实验表明,加载了领域语言模型的中文输入系统不仅降低了平均码长,而且显著提高... 提出一种构建领域语言模型的策略,并基于余弦相似度提出一种模型融合的方法,以便将领域语言模型融入动态自学习语言模型,该语言模型可应用于中文输入系统。实验表明,加载了领域语言模型的中文输入系统不仅降低了平均码长,而且显著提高了首字命中率。 展开更多
关键词 领域语言模型 相似度 模型融合 动态自适应语言模型 中文输入系统
下载PDF
一种利用校对信息的汉字识别自适应后处理方法 被引量:6
5
作者 李元祥 刘长松 丁晓青 《中文信息学报》 CSCD 北大核心 2001年第1期46-52,共7页
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应... 后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。 展开更多
关键词 汉字识别 修正候选字集 自适应语言模型 文本平均错误率 动态识别特性 校对信息
下载PDF
一种应用于体育节目中的关键词检测与比赛分类系统
6
作者 卢鲤 徐燃 +1 位作者 赵庆卫 颜永红 《微计算机应用》 2009年第11期38-43,共6页
提出一种应用于体育节目音频分析中的关键词检索系统框架,并利用关键词检索结果对比赛实现了体育类别的自动判断。采用一种基于距离测算和基于模型选择融合的前端音频处理模块,实现了对复杂音频流中语音的高效提取;采用基于LVCSR系统的... 提出一种应用于体育节目音频分析中的关键词检索系统框架,并利用关键词检索结果对比赛实现了体育类别的自动判断。采用一种基于距离测算和基于模型选择融合的前端音频处理模块,实现了对复杂音频流中语音的高效提取;采用基于LVCSR系统的关键词系统框架,利用少量体育节目语音数据,对声学模型进行了自适应,构建体育类语言模型同时提出一种针对特定关键词词频分布的语言模型自适应,较大幅度提高了关键词系统的检出性能;针对不同体育比赛选择特征关键词,并利用关键词系统检索结果实现了比赛类别的自动判定,在由七种体育共15场比赛构成的测试集中,判定正确率达到100%。 展开更多
关键词 系统 音频分段 语言模型自适应 体育比赛分类
下载PDF
IBM GALE中文识别系统
7
作者 张世磊 施勤 +4 位作者 秦勇 刘文 CHU StephenM KUO Hong-Kwang MANGU Lidia 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期1249-1253,共5页
为解决中文音频自动转成文字问题,IBM开发了GALE中文识别系统。该系统采用区分性声学模型训练方法和新颖的基于主题的语言模型自适应技术;为获得最优的识别性能,系统采用多遍解码的识别策略。该文还给出该系统在3个测试集上的识别结果:... 为解决中文音频自动转成文字问题,IBM开发了GALE中文识别系统。该系统采用区分性声学模型训练方法和新颖的基于主题的语言模型自适应技术;为获得最优的识别性能,系统采用多遍解码的识别策略。该文还给出该系统在3个测试集上的识别结果:包括广播新闻和广播访谈节目,结果显示,IBM GALE中文识别系统取得了很好的识别性能;此外,该文还分析了特殊声学现象对识别结果的影响,结果显示,对识别率影响最大的3种声学现象为说话人语速过快、语音交叠和口音问题,这指示了系统下一步的改进方向。 展开更多
关键词 语音识别 区分型模型训练 语言模型自适应 多遍解码
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部