期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
限定领域语言模型训练语料的词类扩展方法
被引量:
1
1
作者
黄韵竹
韦玮
+1 位作者
罗杨宇
李成荣
《计算机系统应用》
2011年第11期55-58,共4页
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半...
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半自动扩展的方法。该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计。实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率。
展开更多
关键词
语料扩展
互信息
语言模型
语音识别
词类
下载PDF
职称材料
濒危语言与汉语平行语料库动态构建技术研究
被引量:
2
2
作者
于重重
曹帅
+3 位作者
张青川
尹蔚彬
孙沁瑶
刘畅
《计算机应用与软件》
北大核心
2018年第9期63-66,91,共5页
利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足。以濒危语言——吕苏语的语料作...
利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足。以濒危语言——吕苏语的语料作为被扩展对象,首先提取吕苏语的关键词,然后依据提取的关键词在静态网页下爬虫获取大量的中文文本,最后通过基于最小哈希的Jaccard算法来计算吕苏语语料与获取的中文文本之间的相似度,将相似度较高的中文文本作为吕苏语的汉语平行扩展语料。这一过程有效地解决了濒危语言在机器翻译过程中的语料不足问题。
展开更多
关键词
濒危语言
吕苏语
语料扩展
平行
语料
库
下载PDF
职称材料
实际场景语料和FSN语料的平衡方法
被引量:
1
3
作者
熊军军
李成荣
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期730-734,共5页
为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语...
为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语料,称为FSN语料。该文重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器关键词检出率从55%提高到77%,音节错误率从39%降到30%。
展开更多
关键词
语料扩展
语言模型
有限状态网络(finitestatenetwork)
关键词概率
原文传递
题名
限定领域语言模型训练语料的词类扩展方法
被引量:
1
1
作者
黄韵竹
韦玮
罗杨宇
李成荣
机构
中国科学院自动化研究所
出处
《计算机系统应用》
2011年第11期55-58,共4页
文摘
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半自动扩展的方法。该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计。实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率。
关键词
语料扩展
互信息
语言模型
语音识别
词类
Keywords
corpus expansion
mutual information
language modal
speech recognition
word classes
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
濒危语言与汉语平行语料库动态构建技术研究
被引量:
2
2
作者
于重重
曹帅
张青川
尹蔚彬
孙沁瑶
刘畅
机构
北京工商大学计算机与信息工程学院
中国社会科学院民族学与人类学研究所
出处
《计算机应用与软件》
北大核心
2018年第9期63-66,91,共5页
基金
国家社会科学基金重大项目(14ZDB156)
教育部人文社会科学研究规划基金项目(16YJAZH072)
北京工商大学青年教师科研启动基金项目(QNJJ2017-16)
文摘
利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径。濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足。以濒危语言——吕苏语的语料作为被扩展对象,首先提取吕苏语的关键词,然后依据提取的关键词在静态网页下爬虫获取大量的中文文本,最后通过基于最小哈希的Jaccard算法来计算吕苏语语料与获取的中文文本之间的相似度,将相似度较高的中文文本作为吕苏语的汉语平行扩展语料。这一过程有效地解决了濒危语言在机器翻译过程中的语料不足问题。
关键词
濒危语言
吕苏语
语料扩展
平行
语料
库
Keywords
Endangered language
Lizu language
Corpous extension
Parallel corpus
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
实际场景语料和FSN语料的平衡方法
被引量:
1
3
作者
熊军军
李成荣
机构
中国科学院自动化研究所
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期730-734,共5页
文摘
为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语料,称为FSN语料。该文重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器关键词检出率从55%提高到77%,音节错误率从39%降到30%。
关键词
语料扩展
语言模型
有限状态网络(finitestatenetwork)
关键词概率
Keywords
corpus expansion
language model
FSN(finite state network)
key words probabilities
分类号
TN912.34 [电子电信—通信与信息系统]
原文传递
题名
作者
出处
发文年
被引量
操作
1
限定领域语言模型训练语料的词类扩展方法
黄韵竹
韦玮
罗杨宇
李成荣
《计算机系统应用》
2011
1
下载PDF
职称材料
2
濒危语言与汉语平行语料库动态构建技术研究
于重重
曹帅
张青川
尹蔚彬
孙沁瑶
刘畅
《计算机应用与软件》
北大核心
2018
2
下载PDF
职称材料
3
实际场景语料和FSN语料的平衡方法
熊军军
李成荣
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部