期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
实时视频传输的帧级别前向纠错信道编码 被引量:4
1
作者 柳粟杰 杨秀芝 +1 位作者 陈平平 王琳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期964-971,共8页
针对5G通信中低时延、高可靠传输需求,在视频编码传输系统中,给定传输带宽的条件下,提出了视频帧级别的应用层前向纠错(FEC)信道编码的优化方案.联合考虑视频有损压缩失真和信道丢包,选取量化参数(QP)和视频帧FEC码率,优化压缩和FEC编... 针对5G通信中低时延、高可靠传输需求,在视频编码传输系统中,给定传输带宽的条件下,提出了视频帧级别的应用层前向纠错(FEC)信道编码的优化方案.联合考虑视频有损压缩失真和信道丢包,选取量化参数(QP)和视频帧FEC码率,优化压缩和FEC编码的冗余分配,改进视频重构效果.又因视频重构图像组(GOP)中,帧内编码(I帧)和靠近它的帧间编码(P帧)具有相似的重要性,所以在给定QP后进一步提出帧级别的动态FEC方案,动态分配I帧和P帧的冗余.随机丢包的仿真传输系统结果表明:1)QP分别为25,30和40时,视频重构在QP为30时效果最好;2)当QP为30,丢包率(PLR)为5%时,相比于传统FEC方案,帧间动态FEC方案可有效提高视频峰值信噪比(PSNR);3)在实际高清需求中通过端到端传输的5G远程驾驶,表明所提出的动态FEC方案可保证路况视频的实时传输. 展开更多
关键词 视频传输 5G通信 帧级别信道编码 前向纠错
下载PDF
基于象素级别和帧级别的背景更新算法研究及实现验证
2
作者 郑芹 《嘉应学院学报》 2011年第11期26-31,共6页
讨论在复杂动态环境中基于象素级别和帧级别的背景更新算法及其实现验证.该算法可以对多种复杂的背景进行累积更新,通过实验验证表明该算法具有计算量小、运行速度快等优点;同时可以克服许多恶劣条件,包括虚影、摄像机的晃动和急剧的光... 讨论在复杂动态环境中基于象素级别和帧级别的背景更新算法及其实现验证.该算法可以对多种复杂的背景进行累积更新,通过实验验证表明该算法具有计算量小、运行速度快等优点;同时可以克服许多恶劣条件,包括虚影、摄像机的晃动和急剧的光线变化等.而且该算法可以用于实时监控跟踪领域,有效提高实时监控跟踪效率,也可以用于其他计算机视觉和视频分析应用领域. 展开更多
关键词 背景更新 象素级别 帧级别 运动检测
下载PDF
基于端到端语音识别的关键词检索技术研究 被引量:10
3
作者 杨润延 程高峰 刘建 《计算机科学》 CSCD 北大核心 2022年第1期53-58,共6页
近十年来,端到端的语音识别框架发展迅速。区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能。因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的... 近十年来,端到端的语音识别框架发展迅速。区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能。因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架。针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提出了一种基于端到端语音识别和帧级别对齐的关键词检索框架,并在越南语数据集上进行了实验验证。首先,使用端到端语音识别模型解码待测语句,得到N-最佳假设;然后,从一个与上述识别模型联合训练的音素分类器中获得逐帧音素概率,使用一个基于动态规划的对齐算法为检出的N-最佳假设和逐帧音素概率进行对齐,进而得到N-最佳假设中各个单词的时间起止点和置信度;最后,在N-最佳假设中匹配关键词,并利用时间起止点和置信度合并重复匹配的关键词,得到最终检索结果。在一个越南语自由交谈数据集上的实验表明,提出的关键词检索系统的F1值可以达到77.6%,相对于传统的基于隐马尔可夫模型的关键词检索系统的F1值提升了7.8%,而且可以提供可靠的关键词置信度。 展开更多
关键词 检索 语音识别 端到端 帧级别对齐
下载PDF
Multi-head attention-based long short-term memory model for speech emotion recognition 被引量:1
4
作者 Zhao Yan Zhao Li +3 位作者 Lu Cheng Li Sunan Tang Chuangao Lian Hailun 《Journal of Southeast University(English Edition)》 EI CAS 2022年第2期103-109,共7页
To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model ... To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model uses frame-level features and takes the temporal information of emotion speech as the input of the LSTM layer.Here,a multi-head time-dimension attention(MHTA)layer was employed to linearly project the output of the LSTM layer into different subspaces for the reduced-dimension context vectors.To provide relative vital information from other dimensions,the output of MHTA,the output of feature-dimension attention,and the last time-step output of LSTM were utilized to form multiple context vectors as the input of the fully connected layer.To improve the performance of multiple vectors,feature-dimension attention was employed for the all-time output of the first LSTM layer.The proposed model was evaluated on the eNTERFACE and GEMEP corpora,respectively.The results indicate that the proposed model outperforms LSTM by 14.6%and 10.5%for eNTERFACE and GEMEP,respectively,proving the effectiveness of the proposed model in SER tasks. 展开更多
关键词 speech emotion recognition long short-term memory(LSTM) multi-head attention mechanism frame-level features self-attention
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部