-
题名语音图文信息处理中的深度学习方法进展专刊序言
被引量:3
- 1
-
-
作者
柯登峰
俞栋
贾珈
-
机构
中国科学院自动化研究所
微软雷德蒙研究院
清华大学
-
出处
《自动化学报》
EI
CSCD
北大核心
2016年第6期805-806,共2页
-
文摘
最近几年来,深度学习赚足了世人的眼球.如果说,前几年深度学习在工业界受到狂热追捧的话,那么今年开春以来,深度学习则是受到普通老百姓的百般青睐.随着阿法狗(AlphaGo)采用深度学习技术打败了围棋冠军李世石的消息传开,街头巷尾男女老少都在津津乐道于深度学习技术与人工智能的未来.深度学习技术本质上是深度神经网络技术,是神经网络发展的重要阶段.它在历史上经历了许多挫折和磨难,才成就了如今的辉煌.
-
关键词
神经网络
学习规则
图文信息
李世石
生物物理
感知机
图像识别
罗森布拉特
学习率
基音检测
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向第二语言学习的口语大规模智能评估技术研究
被引量:7
- 2
-
-
作者
王士进
李宏言
柯登峰
李鹏
高鹏
徐波
-
机构
中国科学院自动化研究所数字内容技术与系统研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期142-148,共7页
-
基金
国家863计划资助项目(2006AA010103)
-
文摘
探索英语学习以及少数民族汉语学习的有效方法是中国语言教育面临的重大问题。研究客观公正的口语智能评估与诊断技术,对于促进计算机辅助语言教学(CALL)具有重要意义。根据近年来大规模中学英语以及少数民族汉语水平考试(MHK)中口语评估的应用需求,该文总结了中国科学院自动化研究所在口语内容识别与确认、口语发音评估、口语流利度评估、口语韵律评估等几个方面的研究进展。
-
关键词
中文信息处理
口语评估
发音评估
流利度评估
韵律评估
-
Keywords
chinese information process
CALL
pronunciation assessment
fluency assessment
rhythm assessment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词汇评分的汉语作文自动评分
被引量:8
- 3
-
-
作者
彭星源
柯登峰
赵知
陈振标
徐波
-
机构
中国科学院自动化研究所数字内容技术研究中心
中国科学院自动化研究所国家模式识别实验室
-
出处
《中文信息学报》
CSCD
北大核心
2012年第2期102-108,共7页
-
基金
视听觉信息的认知计算(90820303)
汉语考试中海量作文多层面全自动评分技术(61103152)
-
文摘
该文研究了通过作文词汇评分来实现汉语作文自动评分的新算法。在作文评分应与词汇评分高度相关的假设基础上,实现了这种关系的量化计算。该文从通用词表方法、常规方法以及提出的三种改进算法上进行方法性能的比较,并对比了E-rater作文评分系统中同样采用基于词汇方法的性能。实验结果表明,基于新的词汇评分的作文评分方法相关度①接近0.7的水平,高于E-rater中采用的基于词汇的方法的相关度。同时,这一方法的结果已经接近于人工作文评分的相关度。
-
关键词
词汇评分
作文自动评分
-
Keywords
word scores
automated essay scoring
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多领域条件生成的语音情感转换
- 4
-
-
作者
姚文翰
柯登峰
黄良杰
胡睿欣
项敏特
张劲松
-
机构
北京语言大学信息科学学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2023年第5期67-72,共6页
-
基金
汉考国际科研基金项目(HT-202011-374)。
-
文摘
语音情感转换是在不改变话者声纹、语义的情况下,将一种情感语音转换成另一种情感语音的技术,本质是实现语音的风格迁移。主流的风格迁移技术有对抗生成技术(如CycleGAN,StarGAN)和实例规一化技术(如IN,CIN)。CIN相对于IN添加了均值方差选择性模块,具有更强的风格迁移能力。提出了将StarGAN和CIN结合的语音情感转换模型CIN-StarGAN,将CIN模块嵌入到StarGAN生成器。在ESD数据集上的实验结果表明,CINStarGAN比基于CycleGAN的情感转换模型收敛速度快28%,具有较好的风格转换能力。在多领域情感转换方法上具有潜在研究价值。
-
关键词
语音情感转换
域转换
条件实例归一化
生成对抗网络
-
Keywords
emotional speech conversion
domain transfer
conditional instance normalization
generator adversarial network
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名互联网时代语音识别基本问题
被引量:14
- 5
-
-
作者
柯登峰
徐波
-
机构
中国科学院自动化研究所
-
出处
《中国科学:信息科学》
CSCD
2013年第12期1578-1597,共20页
-
基金
国家重点基础研究发展计划(批准号:2013CB329302)资助项目
-
文摘
语音识别技术经过半个世纪的积累,于近年来达到大规模商用水平.本文概括了统计语音识别理论的发展状况,并单独介绍了深度神经网络在声学建模、语言建模、多语言共享、语义识别等方面的卓越性能.深度神经网络的性能优势引起了我们强烈的兴趣.通过回顾类人听觉信息处理对深度神经网络的改进作用,我们意识到,深度神经网络与类人听觉信息处理相结合,必将推进语音识别技术的进一步发展.反过来,深度神经网络技术在语音识别中的进步,也必将推动类人听觉信息处理技术的进步.语音识别技术后续发展的重点是对深度神经网络的结构和训练算法的改进使之更好地实现类人听觉.最后,我们分析了采用深度神经网络模拟人类听觉的抗噪修复机理和听觉关注机理的可能性.
-
关键词
信号处理
语音识别
神经网络
深度神经网络
类人听觉
-
Keywords
signal processing, speech recognition, neural networks, deep neural network, human-like auditory
-
分类号
TN912.34
[电子电信—通信与信息系统]
-