期刊文献+
共找到148篇文章
< 1 2 8 >
每页显示 20 50 100
基于扩张卷积和Transformer的视听融合语音分离方法
1
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
下载PDF
Partition-Time Masking:一种唇语识别数据增强方法
2
作者 胡宇 殷继彬 《计算机科学》 CSCD 北大核心 2024年第S02期473-478,共6页
提出了一种唇语识别数据增强方法Partition-Time Masking。该方法直接作用于输入数据,通过将输入划分为多个子序列再分别进行Mask操作最后再将各子序列按序拼接,使得模型能对部分帧缺失的输入具有更强的鲁棒性,从而增强泛化能力。实验... 提出了一种唇语识别数据增强方法Partition-Time Masking。该方法直接作用于输入数据,通过将输入划分为多个子序列再分别进行Mask操作最后再将各子序列按序拼接,使得模型能对部分帧缺失的输入具有更强的鲁棒性,从而增强泛化能力。实验前根据划分的子序列数目与掩码值来源不同而设计了5种增强策略,并与唇语识别研究中最重要的数据增强方法Time Masking进行了对比实验。实验在LRW数据集和LRW1000数据集上进行,实验结果表明Partition-Time Masking方法对模型性能提升的效果要优于Time Masking方法,其中子序列数目为3、掩码值选择各子序列平均帧时为最优策略,该策略使得目前最佳的唇语识别模型DC-TCN的性能从89.6%提高到90.0%。 展开更多
关键词 唇语识别 Time Making 数据增强 视觉语音识别 DC-TCN
下载PDF
深度视觉语音生成研究进展与展望
3
作者 刘丽 隋金坪 +3 位作者 丁丁 赵凌君 匡纲要 盛常冲 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第2期123-138,共16页
为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战;在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对... 为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战;在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对近期主流方法进行了梳理、归类和评述;最后探讨视觉语音生成研究潜在的问题和可能的研究方向。 展开更多
关键词 视觉语音生成 深度学习 计算机视觉 计算机图形学
下载PDF
三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果分析
4
作者 韦慧敏 李丽 张玉梅 《中国医刊》 CAS 2024年第8期887-890,共4页
目的探讨三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果。方法选取2022年7月至2023年10月首都医科大学附属北京天坛医院收治的80例脑卒中后构音障碍患者为研究对象,在组间基线特征可比的原则上,采用随机数字表法分为对照组... 目的探讨三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果。方法选取2022年7月至2023年10月首都医科大学附属北京天坛医院收治的80例脑卒中后构音障碍患者为研究对象,在组间基线特征可比的原则上,采用随机数字表法分为对照组(41例)和观察组(39例)。对照组患者给予常规康复训练,观察组患者给予常规康复训练联合三维可视化言语康复训练,两组患者均连续治疗2周。比较分析两组患者治疗前后的构音障碍严重程度[Frenchay构音障碍评估量表(FDA)评分]、语音清晰度以及声学参数[共振峰F1、共振峰F2、音高、音强、元音空间面积(VSA)、元音清晰度指数(VAI)、共振峰集中率(FCR)、下颌距]。结果治疗前,两组患者的FDA评分、语音清晰度、共振峰F1、共振峰F2、音高、音强、VSA、VAI、FCR、下颌距比较差异均无统计学意义(P>0.05);治疗2周后,两组患者的FDA评分、语音清晰度、共振峰F2、音高、音强、VAI与治疗前比较均显著升高,且观察组优于对照组,差异均有统计学意义(P<0.05);两组患者的FCR与治疗前比较均降低,且观察组低于对照组,差异均有统计学意义(P<0.05)。结论三维可视化言语康复训练可显著减轻患者的构音障碍严重程度,提高语音清晰度,改善声学参数,从而促进患者的康复。 展开更多
关键词 三维可视化言语康复训练 脑卒中 构音障碍 语音清晰度 声学参数
下载PDF
噪声下学龄孤独症谱系障碍儿童视听双通道下语音理解能力特征研究
5
作者 郑力瑾 李凡 肖永涛 《中国医药科学》 2024年第10期4-7,55,共5页
目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组... 目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组,取同期于萧山湘湖小学就读的年龄、性别匹配的健康儿童29例为对照组。将录制好的包含5个噪声下视听条件的测试材料导入E-Prime3.0进行测试,并对反应时、反应率和正确率进行统计分析。结果 两组反应时在面部和口部条件下比较,差异有统计学意义(P <0.05),正确率在所有条件下比较,差异均有统计学意义(P <0.05),反应率在纯听条件下比较,差异有统计学意义(P <0.05)。观察组内面部、口部条件下的反应率和正确率与其他3个条件比较,差异有统计学意义(P <0.05),反应率在听+面部条件下与纯听条件比较,差异有统计学意义(P <0.05)。对照组内所有参数均在口部、面部条件下与其他3个条件比较,差异有统计学意义(P <0.05)。结论 学龄ASD儿童噪声下视听双通道语音理解能力存在缺陷,主要表现在对关键信息的提取能力、处理速度和稳定性上。面部信息对学龄ASD儿童的言语整合存在促进作用。 展开更多
关键词 孤独症谱系障碍 视听双通道 语音理解 学龄
下载PDF
基于卷积神经网络的嵌入式视觉感知交互系统设计与实现 被引量:1
6
作者 陶金 王智勇 +1 位作者 林鸿生 周怡伶 《科技创新与应用》 2024年第3期35-39,共5页
针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、... 针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、利用卷积神经网络技术完成识别,采用基于图分割截块的算法进行目标分割。实验结果表明,系统性能良好,能够实现对周围环境的视觉感知并进行语音交互。 展开更多
关键词 卷积神经网络 视觉感知 嵌入式 语音识别 图分割截块
下载PDF
基于多重视觉注意力的唇语识别
7
作者 谢胤岑 薛峰 曹明伟 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期73-84,共12页
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视... 唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性. 展开更多
关键词 唇语识别 视觉语音识别 注意力机制 深度神经网络 特征提取
下载PDF
基于音频匹配的藏语驱动视觉语音合成算法研究
8
作者 韩西 梁凯 岳宇 《吉林大学学报(信息科学版)》 CAS 2024年第3期509-515,共7页
为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以... 为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。 展开更多
关键词 音频匹配 短时自相关函数 时空分析模型 主成分分析法 视觉语音合成
下载PDF
动态调整语义的词性加权多模态情感分析模型
9
作者 花强 陈卓 +1 位作者 张峰 董春茹 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第3期283-292,共10页
为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模... 为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模型.该模型以自然语言为主体,分别使用基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers,BERT)模型、广义自回归预训练(generalized autoregressive pretraining for language understanding,XLNet)模型和一种鲁棒优化的BERT预训练(robustly optimized BERT pretraining approach,RoBERTa)模型为文本模态做词嵌入编码;创建动态调整语义模块将自然语言和非自然语言信息有效结合;设计词性加权模块,提取单词词性并赋权以优化情感判别.与张量融合网络和低秩多模态融合等当前先进模型的对比实验结果表明,PW-DS模型在公共数据集CMU-MOSI和CMU-MOSEI上的平均绝对误差分别达到了0.607和0.510,二分类准确率分别为89.02%和86.93%,优于对比模型.通过消融实验分析了不同模块对模型效果的影响,验证了模型的有效性. 展开更多
关键词 人工智能 多模态情感分析 动态调整语义 词性加权 多模态向量位置可视化 词性加权可视化
下载PDF
言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响
10
作者 单秀梅 《反射疗法与康复医学》 2024年第1期122-125,共4页
目的探讨言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响.方法选取我院2021年1月—2022年12月收治的72例语言发育迟缓患儿为研究对象,根据随机数字表法分为对照组与研究组,各36例.对照组患儿开展视听觉综... 目的探讨言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响.方法选取我院2021年1月—2022年12月收治的72例语言发育迟缓患儿为研究对象,根据随机数字表法分为对照组与研究组,各36例.对照组患儿开展视听觉综合康复训练,研究组患儿在对照组基础上联合开展言语训练,两组均持续干预6个月.比较两组患儿的康复效果、语言功能、发育商、生活质量及患儿家长满意度.结果研究组康复总有效率为100.00%,高于对照组的80.56%,差异有统计学意义(P﹤0.05).干预后,研究组S-S语言发育迟缓评价法与语言行为评估量表评分均高于对照组,组间差异有统计学意义(P﹤0.05);研究组格赛尔婴幼儿发育量表中的语言、个人社交、适应性评分均高于对照组,组间差异有统计学意义(P﹤0.05),但两组精细动作和大运动评分比较,组间差异无统计学意义(P﹥0.05);研究组儿童生存质量测定量表各项评分均高于对照组,组间差异有统计学意义(P﹤0.05).研究组家长总满意度为97.22%,高于对照组的77.78%,差异有统计学意义(P﹤0.05).结论对语言发育迟缓患儿实施言语训练配合视听觉综合康复训练可有效促进语言功能恢复,提高发育商水平,对改善患儿生活质量、提高家长满意度具有积极意义. 展开更多
关键词 语言发育迟缓 言语训练 视听觉综合康复训练 语言功能 发育商 生活质量
下载PDF
我国言语社区研究现状与趋势的可视化分析——基于CNKI与WoS文献数据的对比
11
作者 苏锦河 汪磊 《中国语言战略》 2024年第1期212-222,共11页
以1998—2022年中国知网期刊数据库210篇、WebofScience核心合集296篇言语社区文献为研究对象,借助CiteSpace软件从研究人员、研究机构、关键词、突现词等方面对我国当前言语社区的理论建设和调查实践现状进行分析,同时对比分析国外研... 以1998—2022年中国知网期刊数据库210篇、WebofScience核心合集296篇言语社区文献为研究对象,借助CiteSpace软件从研究人员、研究机构、关键词、突现词等方面对我国当前言语社区的理论建设和调查实践现状进行分析,同时对比分析国外研究现状,以期为国内言语社区相关研究提供参考。研究显示,我国研究人员在言语社区的理论探索和调查实践方面已形成了稳定的合作网络;研究主题主要集中在言语社区要素的关系与层次、地域方言和社会方言的语言变异或语言变体、大华语社区等方面。由此提出,未来的研究可以借鉴国外热点,着力发展具有我国特色的言语社区理论。同时,我国言语社区研究仍需加强新生人才培养、理论创新和高校合作网络拓展等。 展开更多
关键词 言语社区 CiteSpace 可视化分析 文献研究
下载PDF
基于自然语言处理的铁路客运营销分析智能对话系统研究
12
作者 李仕旺 江琳 王桂林 《铁路计算机应用》 2024年第8期61-71,共11页
为提高铁路客运营销数据分析能力,研究开发了铁路客运营销分析智能对话系统,为铁路客运营销业务人员提供一种基于人机对话的数据分析工具。该系统包括语音识别、自然语言文本处理、智能数据挖掘、智能应答4个主要功能模块;利用语音唤醒... 为提高铁路客运营销数据分析能力,研究开发了铁路客运营销分析智能对话系统,为铁路客运营销业务人员提供一种基于人机对话的数据分析工具。该系统包括语音识别、自然语言文本处理、智能数据挖掘、智能应答4个主要功能模块;利用语音唤醒和语音识别技术采集语音数据,通过神经网络模型将语音数据转换成自然语言文本;建立自然语言文本预处理模型,完成基于规则的词法句法分析方法,使用长短期记忆神经网络实现语义理解,确定用户意图;基于Bert模型的Text-to-SQL技术,将自然语言文本数据转换成数据查询SQL语句,构建智能Agent完成数据挖掘分析,生成数据分析结果;最后,运用语音合成技术和数据可视化技术,将数据分析结果转换为用户应答信息。 展开更多
关键词 客运营销分析 智能对话系统 自然语言处理 语音识别 深度学习 语义理解 数据挖掘 语音合成 数据可视化
下载PDF
大词汇量环境噪声下的多模态视听语音识别方法 被引量:4
13
作者 吴兰 杨攀 +1 位作者 李斌全 王涵 《广西科学》 CAS 北大核心 2023年第1期52-60,共9页
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听... 视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。 展开更多
关键词 注意力机制 多模态 视听语音识别 唇读 语音识别
下载PDF
从斜目而视到斯芬克斯之口——对生成式人工智能与认知中心化的反思 被引量:3
14
作者 吴静 《苏州大学学报(哲学社会科学版)》 CSSCI 北大核心 2023年第3期21-29,共9页
技术对人类的认知范式起着重要的影响。从数据可视化到生成式人工智能的互动在不同维度上挑战甚至重塑着人类的认知能力及框架。数据可视化本质上是一种视觉认知范式,它强化了人类认识论领域中的视觉中心主义传统,由此导致以视觉为中心... 技术对人类的认知范式起着重要的影响。从数据可视化到生成式人工智能的互动在不同维度上挑战甚至重塑着人类的认知能力及框架。数据可视化本质上是一种视觉认知范式,它强化了人类认识论领域中的视觉中心主义传统,由此导致以视觉为中心的数字技术权力谱系的建立。随着以ChatGPT为代表的生成式人工智能的出现,人类的认知发生了由视觉向言说的转变。其一方面通过语言处理技术和算法模型,突破并重塑了人类的认知结构;另一方面则建立起一种以数据言说为核心的普遍性知识体系,消解了人类对经验知识背后的特殊目的乃至意义的追问。生成式人工智能带给人类认知的挑战,应从它凭借普遍理性原则造成的认知中心化趋势,以及借由对话训练方式所激发出的主体创造性两个层面加以考察。 展开更多
关键词 生成式人工智能 认知范式 视觉中心主义 言说 认知中心化
下载PDF
结合光流算法与注意力机制的U-Net网络跨模态视听语音分离 被引量:1
15
作者 兰朝凤 蒋朋威 +2 位作者 陈欢 韩闯 郭小霞 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3538-3546,共9页
目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠... 目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-视听语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征。为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合视听特征,最后融合视听特征经过U-Net分离网络得到分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及源失真比(SDR)评价指标,在AVspeech数据集进行实验测试。研究表明,该文所提方法与纯语音分离网络和仅采用特征拼接的视听分离网络相比,性能上分别提高了2.23 dB和1.68 dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。 展开更多
关键词 视听语音分离 视听融合 跨模态注意力 光流算法
下载PDF
基于CiteSpace对我国功能性构音障碍研究的计量分析 被引量:2
16
作者 郭楠楠 朱楠 《中国听力语言康复科学杂志》 2023年第6期646-650,共5页
目的了解我国功能性构音障碍领域的研究热点与趋势,对未来该领域的研究进行初步展望。方法使用Cite Space计量分析软件对中国知网数据库中检索的147篇功能性构音障碍研究文献进行可视化分析,绘制发文量、作者、机构、关键词知识图谱。结... 目的了解我国功能性构音障碍领域的研究热点与趋势,对未来该领域的研究进行初步展望。方法使用Cite Space计量分析软件对中国知网数据库中检索的147篇功能性构音障碍研究文献进行可视化分析,绘制发文量、作者、机构、关键词知识图谱。结果(1)功能性构音障碍研究对象集中于儿童;(2)医科类大学、医院及妇幼保健院是功能性构音障碍的研究主力;(3)研究热点围绕致病因素、语音特征、言语干预及语音自愈等方面。结论今后我国功能性构音障碍的病因学研究、语言干预研究等需要进一步深化拓展,规范我国功能性构音障碍的诊断标准和评估工具,并加强跨学科、跨领域的合作。 展开更多
关键词 功能性构音障碍 致病因素 语音特征 言语干预 可视化分析
下载PDF
基于CiteSpace的儿童言语语言障碍研究动态可视化分析 被引量:2
17
作者 庞佳鑫 孟德玲 胡雪婵 《中国听力语言康复科学杂志》 2023年第1期105-108,共4页
目的了解儿童言语语言障碍的研究热点与方法。方法检索中国知网数据库中1990年~2021年儿童言语语言障碍相关文献,运用可视化分析工具CiteSpace,呈现关键词共现、机构合作、主要作者、发展进程等知识图谱。结果①关键词出现频率较高的是... 目的了解儿童言语语言障碍的研究热点与方法。方法检索中国知网数据库中1990年~2021年儿童言语语言障碍相关文献,运用可视化分析工具CiteSpace,呈现关键词共现、机构合作、主要作者、发展进程等知识图谱。结果①关键词出现频率较高的是自闭症儿童、听障儿童;②发文量最为活跃的机构是中国听力语言康复研究中心;③主要作者是孙喜斌和梁巍,最高发文量为24篇;④“聚类#0”听障儿童和“聚类#1”自闭症儿童涵盖了1990~2021的时间跨度,是最大主题领域。结论目前研究成果丰硕,相关研究机构合作越来越密切,随着我国儿童言语语言障碍研究的不断深入,仍需加强专业化、规范化、个性化的研究,提升言语治疗质量。 展开更多
关键词 儿童言语语言障碍 热点分析 可视化分析
下载PDF
基于神经网络的视觉语音识别系统
18
作者 张晋宁 《电声技术》 2023年第11期101-104,共4页
视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Networ... 视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Network,RNN)的AVSR系统。该系统由音频特征提取模块、视觉特征提取模块以及音频和视觉特征联合模块3部分组成。特征联合模块利用RNN将基于梅尔频率倒谱系数的音频特征与OpenCV库中的Haar级联检测提取的视觉信息相结合,以提高系统识别率。实验结果表明,在低信噪比条件下,所提系统的正确识别率保持在89%左右。 展开更多
关键词 视觉语音识别 循环神经网络(RNN) 梅尔频率倒谱系数(MFCC) 信噪比(SNR)
下载PDF
视觉语音合成技术在身份认证中的应用
19
作者 曹义东 胡征慧 《电脑与信息技术》 2023年第1期31-32,64,共3页
文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语... 文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语音与原声源的频谱距离实现基于视觉语音合成的身份认证技术。 展开更多
关键词 唇语识别 视觉语音合成 身份认证
下载PDF
基于多模态融合的端到端中文唇读识别研究
20
作者 陈焯辉 林绰雅 +3 位作者 刘奕显 王茗琛 梁思敏 陈灵 《科学技术创新》 2023年第10期85-88,共4页
为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字... 为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字符错误率。与之前的唇语识别模型相比,它在融合图像特征和音频特征方面表现出了良好的性能。 展开更多
关键词 端到端音视觉语音识别结构体系 多模态融合 唇语识别
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部