期刊文献+
共找到2,665篇文章
< 1 2 134 >
每页显示 20 50 100
Rethinking multi-spatial information for transferable adversarial attacks on speaker recognition systems
1
作者 Junjian Zhang Hao Tan +2 位作者 Le Wang Yaguan Qian Zhaoquan Gu 《CAAI Transactions on Intelligence Technology》 SCIE EI 2024年第3期620-631,共12页
Adversarial attacks have been posing significant security concerns to intelligent systems,such as speaker recognition systems(SRSs).Most attacks assume the neural networks in the systems are known beforehand,while bla... Adversarial attacks have been posing significant security concerns to intelligent systems,such as speaker recognition systems(SRSs).Most attacks assume the neural networks in the systems are known beforehand,while black-box attacks are proposed without such information to meet practical situations.Existing black-box attacks improve trans-ferability by integrating multiple models or training on multiple datasets,but these methods are costly.Motivated by the optimisation strategy with spatial information on the perturbed paths and samples,we propose a Dual Spatial Momentum Iterative Fast Gradient Sign Method(DS-MI-FGSM)to improve the transferability of black-box at-tacks against SRSs.Specifically,DS-MI-FGSM only needs a single data and one model as the input;by extending to the data and model neighbouring spaces,it generates adver-sarial examples against the integrating models.To reduce the risk of overfitting,DS-MI-FGSM also introduces gradient masking to improve transferability.The authors conduct extensive experiments regarding the speaker recognition task,and the results demonstrate the effectiveness of their method,which can achieve up to 92%attack success rate on the victim model in black-box scenarios with only one known model. 展开更多
关键词 speaker recognition spoofing attacks
下载PDF
An Efficient Text-Independent Speaker Identification Using Feature Fusion and Transformer Model
2
作者 Arfat Ahmad Khan Rashid Jahangir +4 位作者 Roobaea Alroobaea Saleh Yahya Alyahyan Ahmed H.Almulhi Majed Alsafyani Chitapong Wechtaisong 《Computers, Materials & Continua》 SCIE EI 2023年第5期4085-4100,共16页
Automatic Speaker Identification(ASI)involves the process of distinguishing an audio stream associated with numerous speakers’utterances.Some common aspects,such as the framework difference,overlapping of different s... Automatic Speaker Identification(ASI)involves the process of distinguishing an audio stream associated with numerous speakers’utterances.Some common aspects,such as the framework difference,overlapping of different sound events,and the presence of various sound sources during recording,make the ASI task much more complicated and complex.This research proposes a deep learning model to improve the accuracy of the ASI system and reduce the model training time under limited computation resources.In this research,the performance of the transformer model is investigated.Seven audio features,chromagram,Mel-spectrogram,tonnetz,Mel-Frequency Cepstral Coefficients(MFCCs),delta MFCCs,delta-delta MFCCs and spectral contrast,are extracted from the ELSDSR,CSTRVCTK,and Ar-DAD,datasets.The evaluation of various experiments demonstrates that the best performance was achieved by the proposed transformer model using seven audio features on all datasets.For ELSDSR,CSTRVCTK,and Ar-DAD,the highest attained accuracies are 0.99,0.97,and 0.99,respectively.The experimental results reveal that the proposed technique can achieve the best performance for ASI problems. 展开更多
关键词 speaker identification signal processing ARABIC deep learning TRANSFORMER
下载PDF
Optical Ciphering Scheme for Cancellable Speaker Identification System
3
作者 Walid El-Shafai Marwa A.Elsayed +5 位作者 Mohsen A.Rashwan Moawad I.Dessouky Adel S.El-Fishawy Naglaa F.Soliman Amel A.Alhussan Fathi EAbd El-Samie 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期563-578,共16页
Most current security and authentication systems are based on personal biometrics.The security problem is a major issue in the field of biometric systems.This is due to the use in databases of the original biometrics.... Most current security and authentication systems are based on personal biometrics.The security problem is a major issue in the field of biometric systems.This is due to the use in databases of the original biometrics.Then biometrics will forever be lost if these databases are attacked.Protecting privacy is the most important goal of cancelable biometrics.In order to protect privacy,therefore,cancelable biometrics should be non-invertible in such a way that no information can be inverted from the cancelable biometric templates stored in personal identification/verification databases.One methodology to achieve non-invertibility is the employment of non-invertible transforms.This work suggests an encryption process for cancellable speaker identification using a hybrid encryption system.This system includes the 3D Jigsaw transforms and Fractional Fourier Transform(FrFT).The proposed scheme is compared with the optical Double Random Phase Encoding(DRPE)encryption process.The evaluation of simulation results of cancellable biometrics shows that the algorithm proposed is secure,authoritative,and feasible.The encryption and cancelability effects are good and reveal good performance.Also,it introduces recommended security and robustness levels for its utilization for achieving efficient cancellable biometrics systems. 展开更多
关键词 Cancellable biometrics jigsaw transform FrFT DRPE speaker identification
下载PDF
Voice Response Questionnaire System for Speaker Recognition Using Biometric Authentication Interface
4
作者 Chang-Yi Kao Hao-En Chueh 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期913-924,共12页
The use of voice to perform biometric authentication is an importanttechnological development,because it is a non-invasive identification methodand does not require special hardware,so it is less likely to arouse user... The use of voice to perform biometric authentication is an importanttechnological development,because it is a non-invasive identification methodand does not require special hardware,so it is less likely to arouse user disgust.This study tries to apply the voice recognition technology to the speech-driveninteractive voice response questionnaire system aiming to upgrade the traditionalspeech system to an intelligent voice response questionnaire network so that thenew device may offer enterprises more precise data for customer relationshipmanagement(CRM).The intelligence-type voice response gadget is becominga new mobile channel at the current time,with functions of the questionnaireto be built in for the convenience of collecting information on local preferencesthat can be used for localized promotion and publicity.Authors of this study propose a framework using voice recognition and intelligent analysis models to identify target customers through voice messages gathered in the voice response questionnaire system;that is,transforming the traditional speech system to anintelligent voice complex.The speaker recognition system discussed hereemploys volume as the acoustic feature in endpoint detection as the computationload is usually low in this method.To correct two types of errors found in the endpoint detection practice because of ambient noise,this study suggests ways toimprove the situation.First,to reach high accuracy,this study follows a dynamictime warping(DTW)based method to gain speaker identification.Second,it isdevoted to avoiding any errors in endpoint detection by filtering noise from voicesignals before getting recognition and deleting any test utterances that might negatively affect the results of recognition.It is hoped that by so doing the recognitionrate is improved.According to the experimental results,the method proposed inthis research has a high recognition rate,whether it is on personal-level or industrial-level computers,and can reach the practical application standard.Therefore,the voice management system in this research can be regarded as Virtual customerservice staff to use. 展开更多
关键词 Biometric authentication customer relationship management speaker recognition QUESTIONNAIRE
下载PDF
Efficiency in Teaching Speaker and Listener Repertoires:Comparing Three Instructional Sequences in Autistic Children
5
作者 Daniel Carvalho de Matos Pollianna Galvão Soares de Matos +1 位作者 Neylla Cristina Pereira Cordeiro Katiane Reis da Silva 《Psychology Research》 2023年第6期235-245,共11页
Previous studies have investigated the efficiency in teaching listener and speaker repertoires in children diagnosed with autism spectrum disorder(ASD).Some investigations focused on listener responding by function,fe... Previous studies have investigated the efficiency in teaching listener and speaker repertoires in children diagnosed with autism spectrum disorder(ASD).Some investigations focused on listener responding by function,feature,and class(LRFFC)and intraverbal by function,feature,and class(FFC).For some children,teaching intraverbal FFC was more efficient because it resulted in a better emergence effect of a related untaught repertoire(LRFFC).For other children,teaching LRFFC along with tacting pictures was more efficient,resulting in a better emergence effect of a related untaught repertoire(intraverbal FFC).In these cases,it is not clear whether the tact increased the efficiency of LRFFC training because a comparison with a condition in which tacts were not required was not conducted.This investigation consisted of a replication with two children diagnosed with ASD.Three instructional sequences were compared:teaching LRFFC-probing intraverbal;teaching LRFFC+tacts-probing intraverbal;teaching intraverbal-probing LRFFC.For a child,all sequences were equally efficient because all related untaught repertoires emerged without errors.However,the acquisition of intraverbals during training occurred with variability.In the case of the second child,the most efficient sequence consisted of teaching intraverbals,resulting in the emergence of LRFFC without errors.In both cases of teaching LRFFC,the emergence of related intraverbals was partial and acquisition of the trained repertoires occurred with variability.The case that did not demand tact responses was slightly more efficient.Data were discussed in the sense that the best instructional sequence may vary from learner to learner. 展开更多
关键词 autism spectrum disorder listener repertoire speaker repertoire EFFICIENCY
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
6
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
多说话人分离与目标说话人提取的研究现状与展望
7
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 多说话人分离 目标说话人提取 深度学习
下载PDF
融合信息扰动与特征解耦的单样本语音转换
8
作者 王光 刘宗泽 +1 位作者 董浩 姜彦吉 《计算机应用研究》 CSCD 北大核心 2024年第10期3081-3086,共6页
单样本语音转换的特性是利用单条目标说话人的语音样本即可实现身份的转换,但由于声学特征呈现复杂的相互作用和动态变化,现有方法难以充分将单样本语音中的说话人音色与其他声学特征解耦,导致转换音频在听觉上仍与源说话人的音色特征相... 单样本语音转换的特性是利用单条目标说话人的语音样本即可实现身份的转换,但由于声学特征呈现复杂的相互作用和动态变化,现有方法难以充分将单样本语音中的说话人音色与其他声学特征解耦,导致转换音频在听觉上仍与源说话人的音色特征相似,存在说话人音色泄露情况。为此提出一种融合信息扰动与特征解耦的单样本语音转换模型,即IPFD-VC模型。首先,引入信息扰动模块对语音信号进行三次扰动操作,去除输入内容和韵律编码器中的冗余信息;其次,将处理后的语音信号送入各编码器,并结合最小化互信息策略进一步解耦声学特征,降低不同特征与说话人音色特征的相关性;最后通过解码器及声码器输出转换音频。实验结果表明:IPFD-VC模型转换音频的语音自然度和说话人相似度分别达到3.72和3.68,与目前先进的UUVC模型相比,梅尔倒谱失真降低0.26 dB。该模型能够有效对声学特征进行解耦,捕获目标说话人音色特征,同时保持源语言内容和韵律变化,降低说话人音色泄露风险。 展开更多
关键词 单样本语音转换 信息扰动 特征解耦 说话人音色泄露
下载PDF
说话人音频攻击与对抗技术研究综述
9
作者 孙知信 赵杰 +3 位作者 王恩良 刘晨磊 范连成 刘畅 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期17-29,共13页
文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖... 文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖的攻击技术分为3类,分别是基础音频攻击、重放攻击和深度伪造攻击。系统地阐述了音频攻击与对抗技术的最新研究成果,并分析比较了各算法在不同条件下的优劣,同时还介绍了音频技术常用的数据集。最后结合该领域目前的研究现状,提出了说话人音频攻防对抗技术研究中亟待关注与研究的问题。 展开更多
关键词 说话人音频 音频伪造 音频鉴伪 音频数据集 深度学习
下载PDF
语篇主观性表征研究
10
作者 彭兵转 姚梓萌 《哈尔滨师范大学社会科学学报》 2024年第3期117-121,共5页
基于语言主观性理论,本研究重点考察语篇的主观性表征。研究发现,语篇主观性表征有词汇、句法和语用等方面,它们共同承载着说写者的情感、态度、认识等主观自我成分。本研究与语言主观性现象的微观研究互补,为语篇层面语言主观性现象的... 基于语言主观性理论,本研究重点考察语篇的主观性表征。研究发现,语篇主观性表征有词汇、句法和语用等方面,它们共同承载着说写者的情感、态度、认识等主观自我成分。本研究与语言主观性现象的微观研究互补,为语篇层面语言主观性现象的整体研究提供研究思路,有利于深入挖掘说写者隐藏在语篇中的主观自我表征方式。 展开更多
关键词 语篇 语言主观性 语篇主观性 表征 说写者
下载PDF
科技领域的中国合规管理推动者研究——基于2018—2023年公开会议报告人分析
11
作者 陈峰 闫甜甜 《中国科技资源导刊》 2024年第1期59-68,108,共11页
设定会议内容包含科技内容的就是科技领域合规管理会议,会议报告人即为合规管理推动者。根据此设定,收集确认2018—2023年55个中国本土举行的属于科技领域合规管理会议,并对确认的55个会议的高频次报告人、高频次报告人所在单位及属性... 设定会议内容包含科技内容的就是科技领域合规管理会议,会议报告人即为合规管理推动者。根据此设定,收集确认2018—2023年55个中国本土举行的属于科技领域合规管理会议,并对确认的55个会议的高频次报告人、高频次报告人所在单位及属性、高频次报告人所在企业与行业、会议报告人报告内容主题等进行计量分析。研究聚焦科技领域,求解合规管理领域的领军人物、主要机构、主要研究成果与工作内容等问题,较为全面地展示目前中国国内聚焦科技领域的合规管理推动者、研究与服务工作现状和重点,为合规管理领域情报研究与服务提供参考。 展开更多
关键词 科技情报 合规管理 推动者 公开会议 报告人分析
下载PDF
基于分布式自适应UKF的说话人跟踪方法
12
作者 陈阳 蔡翔宇 王睿 《声学技术》 CSCD 北大核心 2024年第5期734-742,共9页
针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭... 针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭代估计局部状态转移噪声协方差矩阵和测量噪声协方差矩阵,然后利用一致性滤波融合得到全局的状态转移噪声协方差矩阵,随着卡尔曼滤波器的迭代,逐渐逼近状态转移噪声协方差矩阵和测量噪声协方差矩阵的真实值,从而提高DUKF说话人跟踪精度。实验结果表明,即使在较差的噪声和混响条件下,分布式自适应无迹卡尔曼滤波方法相较于常规的DUKF方法仍具有更好的跟踪性能,在节点损坏条件下的鲁棒性更强,能够获得更准确的说话人位置信息。 展开更多
关键词 分布式无迹卡尔曼滤波(DUKF) 说话人跟踪 分布式麦克风网络 自适应策略
下载PDF
基于可供性的智能音箱与用户互动的扎根研究
13
作者 何国平 罗诗睿 《新媒体与社会》 2024年第1期245-262,399,共19页
基于ICTs与AI演进和对网络内容生态、生活服务生态和物联网智能家居生态三大生态的链接,智能音箱实现与互联网、物理空间与个人行动的连接,在家庭生活网络中具有中心枢纽功能。本研究以可供性为理论框架,以24名智能音箱活跃用户的半结... 基于ICTs与AI演进和对网络内容生态、生活服务生态和物联网智能家居生态三大生态的链接,智能音箱实现与互联网、物理空间与个人行动的连接,在家庭生活网络中具有中心枢纽功能。本研究以可供性为理论框架,以24名智能音箱活跃用户的半结构化深度访谈为主要原始资料,导入Nvivo12软件,通过扎根理论的程序化法展开质化分析。分析结果表明,智能音箱与用户的互动行为主要表现在三大层面:互动功能层,技术可供性驱动互动行为发生;互动行为层,想象可供性赋能人性化交互;互动情感层,用户触发情感可供性。 展开更多
关键词 智能音箱 用户 互动 可供性 扎根理论
下载PDF
“把个”句的意外类型及“个”的信息标记调整功能
14
作者 黄婧 《新疆大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第3期143-149,共7页
传统语法研究认为,“把个”句表示发生不如意的事或意外,“个”是无定宾语标记,属于句法标记范畴。文章在对事件表述空间二分和意外类型三分的基础上,验证了“把个”句是典型的言者意外句,事件表述的命题空间与交际空间之间事件信息的... 传统语法研究认为,“把个”句表示发生不如意的事或意外,“个”是无定宾语标记,属于句法标记范畴。文章在对事件表述空间二分和意外类型三分的基础上,验证了“把个”句是典型的言者意外句,事件表述的命题空间与交际空间之间事件信息的不一致是引发言者意外的基础语义条件。其中,“个”是言者意外标记,而非无定宾语标记,属于信息标记范畴。“个”的添加还使句子由包含信息焦点和位置可变的对比焦点的双焦点结构,转化为位置固定的信息焦点、对比焦点与话题焦点共存的双层事件空间多焦点结构。 展开更多
关键词 “把个”句 事件表述空间 言者意外 信息标记 焦点
下载PDF
基于正则化声压匹配法的舱室声场复现
15
作者 王海涛 陈克安 +2 位作者 曾向阳 董宁娟 高南沙 《航空科学技术》 2024年第8期14-20,共7页
舱室噪声控制、声品质设计等研究通常需开展大量的声场测试试验,由于舱室实际试验成本较高,因此通过声场复现的方式在舱室模拟舱中复现所需求的声学环境,对于降低研究成本、开展重复性试验具有重要意义。本文面向舱室声环境复现需求,以... 舱室噪声控制、声品质设计等研究通常需开展大量的声场测试试验,由于舱室实际试验成本较高,因此通过声场复现的方式在舱室模拟舱中复现所需求的声学环境,对于降低研究成本、开展重复性试验具有重要意义。本文面向舱室声环境复现需求,以经典声压匹配法为基础,建立了基于扬声器阵列输出的多目标点位协同复现算法,通过引入正则化技术,使算法对实际测试中的各类噪声具有更强的鲁棒性。在一个实际舱室模拟舱环境中搭建了复现系统,复现试验表明,本文算法可在指定舱内的多个点位上协同复现目标频响曲线,在宽频范围内相对误差小于5%,具有良好的精度,在舱室声环境复现应用中具有良好的前景。 展开更多
关键词 舱室 声场复现 声压匹配 扬声器阵列 正则化
下载PDF
基于主动交互的适老家居语音交互设计——以智能音箱为例
16
作者 祝莹 甄皓然 《创意与设计》 2024年第1期38-47,共10页
从主动交互发展及应用现状出发,对老年用户的认知特征进行分析,探索将主动交互应用在智能家居产品语音交互的设计途径。针对传统语音交互下老年用户的认知负担,明确主动交互对于老年用户的价值。通过对老年用户的实际调研,收窄智能音箱... 从主动交互发展及应用现状出发,对老年用户的认知特征进行分析,探索将主动交互应用在智能家居产品语音交互的设计途径。针对传统语音交互下老年用户的认知负担,明确主动交互对于老年用户的价值。通过对老年用户的实际调研,收窄智能音箱语音功能的范围,基于主动交互进行语音交互的创新设计,提出主动交互下适老化智能音箱的交互策略,解决了老年人在传统被动交互中存在的认知成本高、负荷大的问题,同时为智能家居语音交互提供了设计思路与流程参考。 展开更多
关键词 主动交互 语音交互 适老化 智能音箱
下载PDF
基于概率球面判别分析的说话人识别信道补偿算法
17
作者 景维鹏 肖庆欣 罗辉 《计算机应用》 CSCD 北大核心 2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能... 在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。 展开更多
关键词 说话人识别 i-vector 概率球面判别分析 信道补偿 冯·米塞斯-费希尔分布 长度归一化
下载PDF
“不知道”的句法语义多角度研究
18
作者 郭力铭 《河北科技师范学院学报(社会科学版)》 2024年第3期83-89,共7页
基于“不知道”进行多角度观察,主要讨论句法主语、言者主语和两解时的句法语义限制因素:第一,不同的句法层级对语义解读有着不同影响,其中语气>时体>句法成分。第二,主语、状语、宾语、谓词、固定结构及句式构成的事件能否表达... 基于“不知道”进行多角度观察,主要讨论句法主语、言者主语和两解时的句法语义限制因素:第一,不同的句法层级对语义解读有着不同影响,其中语气>时体>句法成分。第二,主语、状语、宾语、谓词、固定结构及句式构成的事件能否表达强认识性或者[+控制性]是言者主语语义识解的关键因素;宾语小句的叙实性影响语义解读;不同的语气范畴倾向解读为不同的语义。第三,在叙实/非叙实框架下,“不知道”作为焦点敏感算子,与其他焦点敏感算子在句法语义各层面因素共同作用是这类特殊“S+不知道+VP”单解/歧解的必要条件,而充分条件或者内在动因则是信息结构的“完形重塑”。 展开更多
关键词 “不知道” 言者主语 限制因素 前景/背景
下载PDF
基于分层注意力特征融合的说话人识别
19
作者 赵宏 高楠 +1 位作者 王伟杰 杨昌东 《计算机工程与设计》 北大核心 2024年第11期3413-3419,共7页
为缓解现有说话人识别模型提取的说话人特征可靠性不强,融合特征时不同尺度特征关联性不高的问题,研究一种基于分层注意力特征融合网络(hierarchical attention feature fusion network,HAFF-Net)的说话人识别算法。利用卷积和池化操作... 为缓解现有说话人识别模型提取的说话人特征可靠性不强,融合特征时不同尺度特征关联性不高的问题,研究一种基于分层注意力特征融合网络(hierarchical attention feature fusion network,HAFF-Net)的说话人识别算法。利用卷积和池化操作对经过预处理的语音特征进行下采样,降低特征的维度;将提取的特征输入到分层注意力特征融合模块(hiera-rchical attention feature fusion block,HAFFB)中,利用平均协调注意力(mean coordinate attention,MCA)增强说话人特征的可靠性,利用注意力特征融合模块(attention feature fusion,AFF)捕获多尺度互补特征;采用统计池化和全连接层提取说话人的嵌入特征,应用附加角裕度损失函数(AAM-Softmax)端到端优化模型。研究结果表明,所提算法可以有效增强特征表达的可靠性,成功捕获了多尺度特征之间的差异,提高了说话人识别的性能。 展开更多
关键词 说话人识别 分层注意力 平均协调注意力 注意力特征融合 多尺度特征 附加角裕度损失函数 端到端
下载PDF
说话人感知的交叉注意力说话人提取网络
20
作者 李卓璋 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第3期91-101,共11页
目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音... 目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。 展开更多
关键词 语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
下载PDF
上一页 1 2 134 下一页 到第
使用帮助 返回顶部