期刊文献+
共找到2,621篇文章
< 1 2 132 >
每页显示 20 50 100
An Efficient Text-Independent Speaker Identification Using Feature Fusion and Transformer Model
1
作者 Arfat Ahmad Khan Rashid Jahangir +4 位作者 Roobaea Alroobaea Saleh Yahya Alyahyan Ahmed H.Almulhi Majed Alsafyani Chitapong Wechtaisong 《Computers, Materials & Continua》 SCIE EI 2023年第5期4085-4100,共16页
Automatic Speaker Identification(ASI)involves the process of distinguishing an audio stream associated with numerous speakers’utterances.Some common aspects,such as the framework difference,overlapping of different s... Automatic Speaker Identification(ASI)involves the process of distinguishing an audio stream associated with numerous speakers’utterances.Some common aspects,such as the framework difference,overlapping of different sound events,and the presence of various sound sources during recording,make the ASI task much more complicated and complex.This research proposes a deep learning model to improve the accuracy of the ASI system and reduce the model training time under limited computation resources.In this research,the performance of the transformer model is investigated.Seven audio features,chromagram,Mel-spectrogram,tonnetz,Mel-Frequency Cepstral Coefficients(MFCCs),delta MFCCs,delta-delta MFCCs and spectral contrast,are extracted from the ELSDSR,CSTRVCTK,and Ar-DAD,datasets.The evaluation of various experiments demonstrates that the best performance was achieved by the proposed transformer model using seven audio features on all datasets.For ELSDSR,CSTRVCTK,and Ar-DAD,the highest attained accuracies are 0.99,0.97,and 0.99,respectively.The experimental results reveal that the proposed technique can achieve the best performance for ASI problems. 展开更多
关键词 speaker identification signal processing ARABIC deep learning TRANSFORMER
下载PDF
Optical Ciphering Scheme for Cancellable Speaker Identification System
2
作者 Walid El-Shafai Marwa A.Elsayed +5 位作者 Mohsen A.Rashwan Moawad I.Dessouky Adel S.El-Fishawy Naglaa F.Soliman Amel A.Alhussan Fathi EAbd El-Samie 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期563-578,共16页
Most current security and authentication systems are based on personal biometrics.The security problem is a major issue in the field of biometric systems.This is due to the use in databases of the original biometrics.... Most current security and authentication systems are based on personal biometrics.The security problem is a major issue in the field of biometric systems.This is due to the use in databases of the original biometrics.Then biometrics will forever be lost if these databases are attacked.Protecting privacy is the most important goal of cancelable biometrics.In order to protect privacy,therefore,cancelable biometrics should be non-invertible in such a way that no information can be inverted from the cancelable biometric templates stored in personal identification/verification databases.One methodology to achieve non-invertibility is the employment of non-invertible transforms.This work suggests an encryption process for cancellable speaker identification using a hybrid encryption system.This system includes the 3D Jigsaw transforms and Fractional Fourier Transform(FrFT).The proposed scheme is compared with the optical Double Random Phase Encoding(DRPE)encryption process.The evaluation of simulation results of cancellable biometrics shows that the algorithm proposed is secure,authoritative,and feasible.The encryption and cancelability effects are good and reveal good performance.Also,it introduces recommended security and robustness levels for its utilization for achieving efficient cancellable biometrics systems. 展开更多
关键词 Cancellable biometrics jigsaw transform FrFT DRPE speaker identification
下载PDF
Voice Response Questionnaire System for Speaker Recognition Using Biometric Authentication Interface
3
作者 Chang-Yi Kao Hao-En Chueh 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期913-924,共12页
The use of voice to perform biometric authentication is an importanttechnological development,because it is a non-invasive identification methodand does not require special hardware,so it is less likely to arouse user... The use of voice to perform biometric authentication is an importanttechnological development,because it is a non-invasive identification methodand does not require special hardware,so it is less likely to arouse user disgust.This study tries to apply the voice recognition technology to the speech-driveninteractive voice response questionnaire system aiming to upgrade the traditionalspeech system to an intelligent voice response questionnaire network so that thenew device may offer enterprises more precise data for customer relationshipmanagement(CRM).The intelligence-type voice response gadget is becominga new mobile channel at the current time,with functions of the questionnaireto be built in for the convenience of collecting information on local preferencesthat can be used for localized promotion and publicity.Authors of this study propose a framework using voice recognition and intelligent analysis models to identify target customers through voice messages gathered in the voice response questionnaire system;that is,transforming the traditional speech system to anintelligent voice complex.The speaker recognition system discussed hereemploys volume as the acoustic feature in endpoint detection as the computationload is usually low in this method.To correct two types of errors found in the endpoint detection practice because of ambient noise,this study suggests ways toimprove the situation.First,to reach high accuracy,this study follows a dynamictime warping(DTW)based method to gain speaker identification.Second,it isdevoted to avoiding any errors in endpoint detection by filtering noise from voicesignals before getting recognition and deleting any test utterances that might negatively affect the results of recognition.It is hoped that by so doing the recognitionrate is improved.According to the experimental results,the method proposed inthis research has a high recognition rate,whether it is on personal-level or industrial-level computers,and can reach the practical application standard.Therefore,the voice management system in this research can be regarded as Virtual customerservice staff to use. 展开更多
关键词 Biometric authentication customer relationship management speaker recognition QUESTIONNAIRE
下载PDF
Efficiency in Teaching Speaker and Listener Repertoires:Comparing Three Instructional Sequences in Autistic Children
4
作者 Daniel Carvalho de Matos Pollianna Galvão Soares de Matos +1 位作者 Neylla Cristina Pereira Cordeiro Katiane Reis da Silva 《Psychology Research》 2023年第6期235-245,共11页
Previous studies have investigated the efficiency in teaching listener and speaker repertoires in children diagnosed with autism spectrum disorder(ASD).Some investigations focused on listener responding by function,fe... Previous studies have investigated the efficiency in teaching listener and speaker repertoires in children diagnosed with autism spectrum disorder(ASD).Some investigations focused on listener responding by function,feature,and class(LRFFC)and intraverbal by function,feature,and class(FFC).For some children,teaching intraverbal FFC was more efficient because it resulted in a better emergence effect of a related untaught repertoire(LRFFC).For other children,teaching LRFFC along with tacting pictures was more efficient,resulting in a better emergence effect of a related untaught repertoire(intraverbal FFC).In these cases,it is not clear whether the tact increased the efficiency of LRFFC training because a comparison with a condition in which tacts were not required was not conducted.This investigation consisted of a replication with two children diagnosed with ASD.Three instructional sequences were compared:teaching LRFFC-probing intraverbal;teaching LRFFC+tacts-probing intraverbal;teaching intraverbal-probing LRFFC.For a child,all sequences were equally efficient because all related untaught repertoires emerged without errors.However,the acquisition of intraverbals during training occurred with variability.In the case of the second child,the most efficient sequence consisted of teaching intraverbals,resulting in the emergence of LRFFC without errors.In both cases of teaching LRFFC,the emergence of related intraverbals was partial and acquisition of the trained repertoires occurred with variability.The case that did not demand tact responses was slightly more efficient.Data were discussed in the sense that the best instructional sequence may vary from learner to learner. 展开更多
关键词 autism spectrum disorder listener repertoire speaker repertoire EFFICIENCY
下载PDF
科技领域的中国合规管理推动者研究——基于2018—2023年公开会议报告人分析
5
作者 陈峰 闫甜甜 《中国科技资源导刊》 2024年第1期59-68,108,共11页
设定会议内容包含科技内容的就是科技领域合规管理会议,会议报告人即为合规管理推动者。根据此设定,收集确认2018—2023年55个中国本土举行的属于科技领域合规管理会议,并对确认的55个会议的高频次报告人、高频次报告人所在单位及属性... 设定会议内容包含科技内容的就是科技领域合规管理会议,会议报告人即为合规管理推动者。根据此设定,收集确认2018—2023年55个中国本土举行的属于科技领域合规管理会议,并对确认的55个会议的高频次报告人、高频次报告人所在单位及属性、高频次报告人所在企业与行业、会议报告人报告内容主题等进行计量分析。研究聚焦科技领域,求解合规管理领域的领军人物、主要机构、主要研究成果与工作内容等问题,较为全面地展示目前中国国内聚焦科技领域的合规管理推动者、研究与服务工作现状和重点,为合规管理领域情报研究与服务提供参考。 展开更多
关键词 科技情报 合规管理 推动者 公开会议 报告人分析
下载PDF
基于主动交互的适老家居语音交互设计——以智能音箱为例
6
作者 祝莹 甄皓然 《创意与设计》 2024年第1期38-47,共10页
从主动交互发展及应用现状出发,对老年用户的认知特征进行分析,探索将主动交互应用在智能家居产品语音交互的设计途径。针对传统语音交互下老年用户的认知负担,明确主动交互对于老年用户的价值。通过对老年用户的实际调研,收窄智能音箱... 从主动交互发展及应用现状出发,对老年用户的认知特征进行分析,探索将主动交互应用在智能家居产品语音交互的设计途径。针对传统语音交互下老年用户的认知负担,明确主动交互对于老年用户的价值。通过对老年用户的实际调研,收窄智能音箱语音功能的范围,基于主动交互进行语音交互的创新设计,提出主动交互下适老化智能音箱的交互策略,解决了老年人在传统被动交互中存在的认知成本高、负荷大的问题,同时为智能家居语音交互提供了设计思路与流程参考。 展开更多
关键词 主动交互 语音交互 适老化 智能音箱
下载PDF
基于概率球面判别分析的说话人识别信道补偿算法
7
作者 景维鹏 肖庆欣 罗辉 《计算机应用》 CSCD 北大核心 2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能... 在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。 展开更多
关键词 说话人识别 i-vector 概率球面判别分析 信道补偿 冯·米塞斯-费希尔分布 长度归一化
下载PDF
基于多尺度卷积编码器的说话人验证网络
8
作者 刘小湖 陈德富 +3 位作者 李俊 周旭文 胡姗 周浩 《计算机科学》 CSCD 北大核心 2024年第S01期75-80,共6页
说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱... 说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱,难以提取有效的说话人嵌入特征,因此Transformer模型在说话人验证领域的性能难以超越以往的基于卷积网络的模型。为了提高Transformer对局部特征的提取能力,文中提出了一种新的自注意力机制用于Transformer编码器,称为多尺度卷积自注意力编码器(Multi-scale Convolutional Self-Attention Encoder,MCAE)。利用不同尺度的卷积操作来提取多时间尺度信息,并通过融合时域和频域的特征,使模型获得更丰富的局部特征表示,这样的编码器设计对于说话人验证是更有效的。通过实验表明,在3个公开的测试集上,所提方法的综合性能表现更佳。与传统的Transformer编码器相比,MCAE也是更轻量级的,这更有利于模型的应用部署。 展开更多
关键词 说话人验证 说话人嵌入 自注意力机制 Transformer编码器 多尺度卷积
下载PDF
基于Conformer的实时多场景说话人识别模型 被引量:1
9
作者 宣茜 韩润萍 高静欣 《计算机工程与应用》 CSCD 北大核心 2024年第7期147-156,共10页
为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Co... 为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进,其具有新颖有效的声学特征提取器,以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练;开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上,以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力;并且在声纹嵌入码提取器的可训练参数(Params)和推理速度(RTF)方面,PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。 展开更多
关键词 说话人确认 MFA-Conformer Sub-center AAM-Softmax 声纹嵌入码 声学特征提取
下载PDF
基于密集连接时延神经网络的说话人识别算法
10
作者 和椿皓 常铁原 +1 位作者 潘立冬 王珺 《应用声学》 CSCD 北大核心 2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说... 说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。 展开更多
关键词 说话人识别 深度学习 神经网络 密集连接 注意力机制
下载PDF
面向抑郁症群体的情感化智能音箱设计与实现
11
作者 张楠 蔡莉 +1 位作者 杨文洁 余治国 《计算机仿真》 2024年第3期334-341,371,共9页
长期抑郁对患者的身心健康危害极大,严重时可能发生自残、自杀等行为。近年来,智能音箱已经成为人们喜爱的一种商品,而面向抑郁症群体的智能音箱设计不多,主要存在普及度低、情感化缺失与智能家居兼容性差等问题。为此,以树莓派作为硬... 长期抑郁对患者的身心健康危害极大,严重时可能发生自残、自杀等行为。近年来,智能音箱已经成为人们喜爱的一种商品,而面向抑郁症群体的智能音箱设计不多,主要存在普及度低、情感化缺失与智能家居兼容性差等问题。为此,以树莓派作为硬件支撑,在心理学的指导下,基于自然语言处理、语音识别和物联网等技术,设计了一款面向抑郁症群体的物联网情感化智能音箱原型——“云齐”。实验结果表明,上述音箱不仅能有效地识别用户情绪及抑郁状态,控制家居系统创建适合抑郁症患者的居家环境,并且还能通过抑郁症语料库在一定程度上对用户进行心理疏导,从而缓解其紧张和焦虑的情绪,减少身体的不适感,改善其抑郁症状。 展开更多
关键词 智能音箱 抑郁症 语音处理 树莓派 智能家居
下载PDF
特征注意力Transformer模块在3D唇语序列身份识别中的应用
12
作者 骈鑫洋 王瑜 张洁 《计算机工程与应用》 CSCD 北大核心 2024年第7期141-146,共6页
唇语行为是一种新兴起的生物特征识别技术,三维(three-dimensional,3D)唇语点云序列因包含真实嘴唇空间结构和运动信息,已成为个体身份识别的重要生物特征。但是,3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此,提出一... 唇语行为是一种新兴起的生物特征识别技术,三维(three-dimensional,3D)唇语点云序列因包含真实嘴唇空间结构和运动信息,已成为个体身份识别的重要生物特征。但是,3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此,提出一种深度学习网络模型,用于3D唇语序列身份识别。该网络采用四层改进的PointNet++作为网络骨干,以分层方式抽取特征,为了学习到更多包含身份信息的时空特征,设计一种动态唇特征注意力Transformer模块,连接于PointNet++网络每一层之后,可以学习到不同特征图之间的相关信息,有效捕捉视频序列不同帧的上下文信息。与其他注意力机制构建的Transformer相比,提出的Transformer模块具有较少的参数,在S3DFM-FP和S3DFM-VP数据集上进行的实验表明,提出网络模型在3D唇语点云序列的身份识别任务中效果显著,即使在不受姿态约束的S3DFM-VP数据集中也表现出良好的性能。 展开更多
关键词 说话人识别 TRANSFORMER PointNet++ 三维唇语点云
下载PDF
基于噪声破坏和波形重建的声纹对抗样本防御方法
13
作者 魏春雨 孙蒙 +2 位作者 张雄伟 邹霞 印杰 《信息安全学报》 CSCD 2024年第1期71-83,共13页
语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点... 语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自注意力和层间交叉注意力机制,使改进后的模型更有助于防御声纹对抗样本攻击。实验表明,提出的防御方法不依赖于特定声纹识别系统和对抗样本攻击方式,在两种典型的声纹识别系统下对多种类型对抗样本攻击的防御效果均优于其他预处理防御方法。 展开更多
关键词 声纹识别 噪声破坏 语音增强 对抗样本防御
下载PDF
基于自注意力机制的音频对抗样本生成方法
14
作者 李珠海 郭武 《数据采集与处理》 CSCD 北大核心 2024年第2期416-423,共8页
随着个人语音数据在网络上的传播以及自动说话人识别算法的发展,个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下,使得自动说话人识别算法失效,从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法... 随着个人语音数据在网络上的传播以及自动说话人识别算法的发展,个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下,使得自动说话人识别算法失效,从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法FoolHD模型的基础上引入了自注意力机制来改进对抗样本生成,该方法称为FoolHD-MHSA。首先,使用卷积神经网络作为编码器来提取输入音频频谱的对抗扰动谱图;然后利用自注意力机制从全局角度提取扰动谱不同部分特征的关联特征,同时将网络聚焦到扰动谱中的关键信息、抑制无用信息;最后,使用解码器将处理后的扰动谱隐写到输入频谱中得到对抗样本频谱。实验结果表明,FoolHD-MHSA方法生成的对抗样本相比FoolHD方法有着更高的攻击成功率和平均客观语音质量评估(Perceptual evaluation of speech quality,PESQ)得分。 展开更多
关键词 自注意力机制 对抗样本 说话人识别 深度神经网络
下载PDF
基于元学习自适应的小样本语音合成
15
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
下载PDF
Global collaboration of eye research--personal experience
16
作者 Chi-Chao Chan 《International Journal of Ophthalmology(English edition)》 SCIE CAS 2024年第6期985-990,共6页
On December 9,2023,I was privileged to be honored and participate in the Dr.Chi Chao Chan Symposium on Global Collaboration of Eye Research as the Global Eye Genetic Consortium(GEGC)session,which was held in the 16th ... On December 9,2023,I was privileged to be honored and participate in the Dr.Chi Chao Chan Symposium on Global Collaboration of Eye Research as the Global Eye Genetic Consortium(GEGC)session,which was held in the 16th Congress of the Asia-Pacific Vitreo-Retina Society(APVRS)in Hong Kong.Along with my talk on“Global collaboration of eye research:personal experience”,other prominent international speakers provided their own perspectives on opportunities for networking,collaboration,and exchange of ideas with global leaders and experts in ophthalmic practice,research,and education. 展开更多
关键词 speakerS COLLABORATION GLOBAL
下载PDF
言者介词“凭”的语义建构和情态选择
17
作者 钱坤 《汉语学习》 北大核心 2024年第2期33-43,共11页
介词“凭”是介引对某一先行言行进行评价理据的言者介词,其语法意义是“择据评行”。“凭”的语义建构过程可构拟为“择据赋值—按律得常—较行验值”三步,句法组配规律为介词选择“高值条件”和“低值条件”两类宾语,分别对应“合常... 介词“凭”是介引对某一先行言行进行评价理据的言者介词,其语法意义是“择据评行”。“凭”的语义建构过程可构拟为“择据赋值—按律得常—较行验值”三步,句法组配规律为介词选择“高值条件”和“低值条件”两类宾语,分别对应“合常”和“反常”后续小句。情态选择限制是要求介词句主语言行体现“意志自由、过程自信、结果自立”的“自主性”。从方法论角度说,“凭”的语义建构和情态选择显示了介词语义的关联性。 展开更多
关键词 言者介词 介词“凭” 语义建构 情态选择 语义语法
下载PDF
基于深度学习的声纹识别身份验证系统设计
18
作者 张海龙 王利恒 吉昕冉 《自动化与仪表》 2024年第4期130-134,共5页
该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获... 该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获取FBank特征谱。预处理后的音频数据将通过ECAPA-TDNN声纹识别模型进行嵌入特征向量提取,从而获得具有辨识度的嵌入特征向量。嵌入特征向量经过在已注册特征数据库中搜寻并计算两者之间的余弦相似度,通过与阈值进行比较,从而获得待验证人员的身份信息。最后,根据预设的身份权限信息,执行相对应的操作。通过实验验证,当余弦相似度阈值设置为0.3时,能够获得很好的验证效果,因此证明了该系统在实际部署的可行性。 展开更多
关键词 声纹识别 RK3568芯片 深度学习 AI模型部署
下载PDF
“把个”句的意外类型及“个”的信息标记调整功能
19
作者 黄婧 《新疆大学学报(哲学社会科学版)》 北大核心 2024年第3期143-149,共7页
传统语法研究认为,“把个”句表示发生不如意的事或意外,“个”是无定宾语标记,属于句法标记范畴。文章在对事件表述空间二分和意外类型三分的基础上,验证了“把个”句是典型的言者意外句,事件表述的命题空间与交际空间之间事件信息的... 传统语法研究认为,“把个”句表示发生不如意的事或意外,“个”是无定宾语标记,属于句法标记范畴。文章在对事件表述空间二分和意外类型三分的基础上,验证了“把个”句是典型的言者意外句,事件表述的命题空间与交际空间之间事件信息的不一致是引发言者意外的基础语义条件。其中,“个”是言者意外标记,而非无定宾语标记,属于信息标记范畴。“个”的添加还使句子由包含信息焦点和位置可变的对比焦点的双焦点结构,转化为位置固定的信息焦点、对比焦点与话题焦点共存的双层事件空间多焦点结构。 展开更多
关键词 “把个”句 事件表述空间 言者意外 信息标记 焦点
下载PDF
多模型融合的VoxSRC22说话人日志系统
20
作者 杜雨轩 周若华 《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)... 为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。 展开更多
关键词 说话人日志 语音活动检测 声纹嵌入 说话人聚类 结果融合
下载PDF
上一页 1 2 132 下一页 到第
使用帮助 返回顶部