智能语音技术端到端框架模型分析和趋势研究被引量：5

Analysis and Trend Research of End-to-End Framework Model of Intelligent Speech Technology

下载PDF

导出

摘要端到端(End-to-End)框架是一种基于深度神经网络可直接预测语音信号和目标语言字符的概率模型,从原始的数据输入到结果输出,中间的处理过程和神经网络成一体化,可脱离人类主观偏见,直接提取特征,从而充分挖掘数据信息,简化任务处理步骤。近几年,注意力机制的引入,辅助端到端架构实现了多模态间的相互映射,进一步提高了技术的整体性能。通过对近几年端到端技术在智能语音领域技术和应用的调研,端到端架构为语音模型算法提供了新的思想和方法,但也存在混合框架无法有效地平衡和兼顾单一技术特点,模型内部逻辑复杂使得人工介入调试困难、定制可扩展性减弱等问题。未来端到端一体化模型在语音领域应用方面还将有进一步的发展,一方面是前端到后端的模块端到端,忽略前端语音增强和后端语音识别中涉及多项输入的假设,将语音增强和声学建模一体化,另一方面是交互信息载体的端到端,聚焦于语音信号数据本身的信息提取和处理,使得人机交互更贴近真实人类语言的沟通方式。 The end-to-end framework is a probability model based on the depth neural network which can directly predict the speech signal and the target language character.From the original data input to the result output,the intermediate processing process and neural network are integrated,which can be separated from human subjective bias,directly extract the features,fully mine the data information,and simplify the task processing steps.In recent years,with the introduction of attention mechanism,the auxiliary end-to-end architecture realizes the mutual mapping between multimode,further improving the overall performance of the technology.Through the research on the technology and application of end-to-end technology in the field of intelligent speech in recent years,the end-to-end architecture provides a new idea and method for speech model algorithm,but there are also problems such as the mixed framework can not effectively balance and take into account the single technical characteristics,the complexity of the internal logic of the model makes it difficult for human intervention debugging,and the customization scalability is weakened.In the future,there will be further development in the application of the end-to-end integrated model in the field of speech.On the one hand,the front-end to back-end modules ignore the multiple input assumptions in front-end speech enhancement and back-end speech recognition to integrate speech enhancement and acoustic modeling.On the other hand,the end-to-end interactive information carrier focuses on the information extraction and processing of speech signal data itself the human-compu-ter interaction is closer to the real human language communication.

作者李荪曹峰 LI Sun;CAO Feng(China Academy of Information and Communications Technology,Beijing 100191,China)

机构地区中国信息通信研究院

出处《计算机科学》 CSCD 北大核心 2022年第S01期331-336,共6页 Computer Science

关键词端到端模型智能语音混合框架人机交互 End-to-end model Intelligent voice Hybrid framework Human-computer interaction

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016,37(1):186-192. 被引量：29

二级参考文献8

1杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
2朱维彬.语音合成中的语言学计算模型:现状及展望[J].当代语言学,2009,11(2):159-166. 被引量：5
3章森,刘磊,刁麓弘.大规模语音语料库及其在TTS中应用的几个问题[J].计算机学报,2010,33(4):687-696. 被引量：12
4倪崇嘉,张爱英,刘文举.基于声学相关特征与词典语法相关特征的汉语重音检测[J].计算机学报,2011,34(9):1638-1649. 被引量：8
5王敬华,刘建银,张国燕,赵新想.情感语音合成中韵律参数的基频研究[J].小型微型计算机系统,2013,34(9):2047-2050. 被引量：2
6韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：168
7戴礼荣,张仕良.深度语音信号与信息处理:研究进展与展望[J].数据采集与处理,2014,29(2):171-179. 被引量：32
8周志华,陈世福.神经网络集成[J].计算机学报,2002,25(1):1-8. 被引量：245

共引文献28

1崔鑫彤.语音合成技术专利分析[J].电子技术与软件工程,2018(4):142-142. 被引量：4
2童新,姚莉,倪波.基于物联网的Cortex-A53智能云镜系统的设计与实现[J].物联网技术,2018,8(5):48-50. 被引量：3
3白海莉.情感语音合成技术或对声纹鉴定准确性产生影响[J].科技创新与应用,2018,8(36):24-24. 被引量：6
4王峥.语音合成技术在声音修复上的尝试[J].现代电影技术,2019,0(7):46-50. 被引量：2
5张学军,董晓辉.高中人工智能课程项目案例资源设计与开发[J].电化教育研究,2019,40(8):87-95. 被引量：20
6张轶秋,王卫民,唐洋,张健.基于状态机的手语动画自动生成技术[J].计算机与数字工程,2020,48(1):217-220. 被引量：2
7付婧,罗建,龙彦霖,苗晨,程玉勤.前馈序列记忆网络在语音识别中的应用综述[J].内江师范学院学报,2020,35(4):41-51. 被引量：4
8张学军,董晓辉.高中人工智能课程项目案例资源设计与开发[J].复印报刊资料（中学政治及其他学科教与学）,2019(12):15-22.
9张媛媛,宋海荣,杨少魁,郜慧斌.智能机器人语音交互专利技术分析[J].河南科技,2020(9):153-160. 被引量：1
10姜泽玮.AI播音与人工播音的语音差异性考察——以新华社APP智能语音新闻播报为个案[J].新闻世界,2020(9):49-54. 被引量：7

同被引文献28

1吴青聪,张祖国.基于屏障Lyapunov函数的上肢康复机器人自适应主动交互训练控制[J].仪器仪表学报,2022,43(2):216-224. 被引量：4
2程淑红,程彦龙,杨镇豪.基于手势多特征融合及优化Multiclass-SVC的手势识别[J].仪器仪表学报,2020(6):225-232. 被引量：13
3孙昊,刘贺洋,仲维灿,祖丽楠,徐勤奇.基于主动探测的移动机器人声源目标距离测定方法[J].北京工业大学学报,2015,41(1):37-41. 被引量：2
4赵京,卫沅.机器人实验教学系统创新实践方法及应用[J].实验室研究与探索,2015,34(11):210-212. 被引量：14
5王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11. 被引量：75
6陈畅,陈亮,周雪峰.基于自然手势交互的工业机器人示教系统设计与实现[J].制造业自动化,2018,40(2):21-25. 被引量：9
7赵义鹏,李勇斌,郭士杰,李铁军.基于视听信息融合的噪声源定位研究[J].仪器仪表学报,2018,39(2):89-99. 被引量：7
8柯显信,张文朕,杨阳,温雷.仿人机器人多传感器定位系统[J].浙江大学学报（工学版）,2018,52(7):1247-1252. 被引量：9
9王雅平,魏光辉,潘晓东,万浩江,李伟,尚在飞.通信电台带外双频干扰预测模型与试验[J].电子学报,2019,47(4):826-831. 被引量：10
10宋一凡,张鹏,刘立波.基于视觉手势识别的人机交互系统[J].计算机科学,2019,46(S11):570-574. 被引量：37

引证文献5

1占宏,吴碧霄,杨辰光.基于视觉手势识别的人机交互实验平台[J].实验室研究与探索,2022,41(7):23-25. 被引量：3
2李丹.基于SpeechBrain的语音识别在语音问答中的应用探索[J].科技视界,2023(2):34-39. 被引量：1
3滕思航,王烈,李雅.融合音字特征转换的非自回归Transformer中文语音识别[J].计算机科学,2023,50(8):111-117. 被引量：1
4高春艳,赖光金,吕晓玲,白祎扬,张明路.基于卷积神经网络的移动机器人声源定位方法综述[J].科学技术与工程,2024,24(7):2617-2624.
5姚瑶,杨吉斌,张雄伟,李毅豪,宋宫琨琨.面向电台通信的CLU-Net语音增强网络[J].计算机科学,2024,51(9):338-345.

二级引证文献5

1何玮,周雨湉,俞阳,康雨萌,朱萌,钱旭盛.蜣螂优化算法下“互联网+营销服务”虚拟机器人应用模型[J].西安工程大学学报,2024,38(1):113-120. 被引量：1
2谈会领,卢阳,张捷.警用智能货架控制系统的升级与实现[J].移动信息,2024,46(2):181-184.
3张建寰,徐益鑫,邓连钧,徐周毅,张陈涛.有机凝胶肌电电极制备及其在动态手势识别的应用[J].中南大学学报（自然科学版）,2024,55(6):2153-2161.
4梁腊梅.基于AI技术的智能党史问答系统构建与实现[J].电脑知识与技术,2024,20(20):15-18.
5彭杨,徐健,卓嘎,付好,邢立佳.基于递归神经网络的藏语语音转文本应用研究[J].互联网周刊,2024(17):23-25.

1韩春雷,范文新,杨清,黄泽宇,陈美燕.基于边缘计算的物联网混合区块链架构[J].物联网技术,2022,12(5):65-68. 被引量：1
2首届高新视频创新应用大赛一等奖获奖结果[J].广播与电视技术,2021,48(7):11-13.
3卢宁,张玉晓,杨宏伟,夏建.井震联合深层区域勘探构造建模技术研究[J].地质论评,2021,67(S01):259-260. 被引量：1
4岳国华,邢晓利.基于卷积神经网络和校正网络相结合的遥感图像配准方法研究[J].计算机应用与软件,2021,38(11):185-190. 被引量：6
5黄兵,谭斌,罗鉴,郭勇.面向业务和网络协同的未来IP网络架构演进[J].电信科学,2021,37(10):39-46. 被引量：5
6刘敏.基于大数据的安全防护与预测总体架构[J].中国安全防范技术与应用,2021(5):43-48. 被引量：2
7刘旭婷,王丹茝,刘佳芸,徐懿能,倪媛媛.健康焦虑、互联网使用与老年人健康[J].时代人物,2022(11):61-63.
8杨勇.物联网智能家居发展探究[J].网络安全技术与应用,2022(5):133-134. 被引量：4
9孙永鸣.赋能的亲子沟通,助力孩子高效学习[J].中小学心理健康教育,2022(17):78-80.
10朱钊.新媒体时代下手机报的现状与未来[J].新丝路（中旬）,2022(5):0250-0252.

计算机科学

2022年第S01期

浏览历史

内容加载中请稍等...

智能语音技术端到端框架模型分析和趋势研究被引量：5

参考文献1

二级参考文献8

共引文献28

同被引文献28

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

智能语音技术端到端框架模型分析和趋势研究 被引量：5

参考文献1

二级参考文献8

共引文献28

同被引文献28

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

智能语音技术端到端框架模型分析和趋势研究被引量：5