期刊文献+
共找到222篇文章
< 1 2 12 >
每页显示 20 50 100
Exploring Sequential Feature Selection in Deep Bi-LSTM Models for Speech Emotion Recognition
1
作者 Fatma Harby Mansor Alohali +1 位作者 Adel Thaljaoui Amira Samy Talaat 《Computers, Materials & Continua》 SCIE EI 2024年第2期2689-2719,共31页
Machine Learning(ML)algorithms play a pivotal role in Speech Emotion Recognition(SER),although they encounter a formidable obstacle in accurately discerning a speaker’s emotional state.The examination of the emotiona... Machine Learning(ML)algorithms play a pivotal role in Speech Emotion Recognition(SER),although they encounter a formidable obstacle in accurately discerning a speaker’s emotional state.The examination of the emotional states of speakers holds significant importance in a range of real-time applications,including but not limited to virtual reality,human-robot interaction,emergency centers,and human behavior assessment.Accurately identifying emotions in the SER process relies on extracting relevant information from audio inputs.Previous studies on SER have predominantly utilized short-time characteristics such as Mel Frequency Cepstral Coefficients(MFCCs)due to their ability to capture the periodic nature of audio signals effectively.Although these traits may improve their ability to perceive and interpret emotional depictions appropriately,MFCCS has some limitations.So this study aims to tackle the aforementioned issue by systematically picking multiple audio cues,enhancing the classifier model’s efficacy in accurately discerning human emotions.The utilized dataset is taken from the EMO-DB database,preprocessing input speech is done using a 2D Convolution Neural Network(CNN)involves applying convolutional operations to spectrograms as they afford a visual representation of the way the audio signal frequency content changes over time.The next step is the spectrogram data normalization which is crucial for Neural Network(NN)training as it aids in faster convergence.Then the five auditory features MFCCs,Chroma,Mel-Spectrogram,Contrast,and Tonnetz are extracted from the spectrogram sequentially.The attitude of feature selection is to retain only dominant features by excluding the irrelevant ones.In this paper,the Sequential Forward Selection(SFS)and Sequential Backward Selection(SBS)techniques were employed for multiple audio cues features selection.Finally,the feature sets composed from the hybrid feature extraction methods are fed into the deep Bidirectional Long Short Term Memory(Bi-LSTM)network to discern emotions.Since the deep Bi-LSTM can hierarchically learn complex features and increases model capacity by achieving more robust temporal modeling,it is more effective than a shallow Bi-LSTM in capturing the intricate tones of emotional content existent in speech signals.The effectiveness and resilience of the proposed SER model were evaluated by experiments,comparing it to state-of-the-art SER techniques.The results indicated that the model achieved accuracy rates of 90.92%,93%,and 92%over the Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS),Berlin Database of Emotional Speech(EMO-DB),and The Interactive Emotional Dyadic Motion Capture(IEMOCAP)datasets,respectively.These findings signify a prominent enhancement in the ability to emotional depictions identification in speech,showcasing the potential of the proposed model in advancing the SER field. 展开更多
关键词 Artificial intelligence application multi features sequential selection speech emotion recognition deep Bi-LSTM
下载PDF
Exploring Latent Semantic Information for Textual Emotion Recognition in Blog Articles 被引量:3
2
作者 Xin Kang Fuji Ren Yunong Wu 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2018年第1期204-216,共13页
Understanding people's emotions through natural language is a challenging task for intelligent systems based on Internet of Things(Io T). The major difficulty is caused by the lack of basic knowledge in emotion ex... Understanding people's emotions through natural language is a challenging task for intelligent systems based on Internet of Things(Io T). The major difficulty is caused by the lack of basic knowledge in emotion expressions with respect to a variety of real world contexts. In this paper, we propose a Bayesian inference method to explore the latent semantic dimensions as contextual information in natural language and to learn the knowledge of emotion expressions based on these semantic dimensions. Our method synchronously infers the latent semantic dimensions as topics in words and predicts the emotion labels in both word-level and document-level texts. The Bayesian inference results enable us to visualize the connection between words and emotions with respect to different semantic dimensions. And by further incorporating a corpus-level hierarchy in the document emotion distribution assumption, we could balance the document emotion recognition results and achieve even better word and document emotion predictions. Our experiment of the wordlevel and the document-level emotion predictions, based on a well-developed Chinese emotion corpus Ren-CECps, renders both higher accuracy and better robustness in the word-level and the document-level emotion predictions compared to the state-of-theart emotion prediction algorithms. 展开更多
关键词 Bayesian inference emotion-topic model emotion recognition multi-label classification natural language understanding
下载PDF
Multi-modal Gesture Recognition using Integrated Model of Motion, Audio and Video 被引量:3
3
作者 GOUTSU Yusuke KOBAYASHI Takaki +4 位作者 OBARA Junya KUSAJIMA Ikuo TAKEICHI Kazunari TAKANO Wataru NAKAMURA Yoshihiko 《Chinese Journal of Mechanical Engineering》 SCIE EI CAS CSCD 2015年第4期657-665,共9页
Gesture recognition is used in many practical applications such as human-robot interaction, medical rehabilitation and sign language. With increasing motion sensor development, multiple data sources have become availa... Gesture recognition is used in many practical applications such as human-robot interaction, medical rehabilitation and sign language. With increasing motion sensor development, multiple data sources have become available, which leads to the rise of multi-modal gesture recognition. Since our previous approach to gesture recognition depends on a unimodal system, it is difficult to classify similar motion patterns. In order to solve this problem, a novel approach which integrates motion, audio and video models is proposed by using dataset captured by Kinect. The proposed system can recognize observed gestures by using three models. Recognition results of three models are integrated by using the proposed framework and the output becomes the final result. The motion and audio models are learned by using Hidden Markov Model. Random Forest which is the video classifier is used to learn the video model. In the experiments to test the performances of the proposed system, the motion and audio models most suitable for gesture recognition are chosen by varying feature vectors and learning methods. Additionally, the unimodal and multi-modal models are compared with respect to recognition accuracy. All the experiments are conducted on dataset provided by the competition organizer of MMGRC, which is a workshop for Multi-Modal Gesture Recognition Challenge. The comparison results show that the multi-modal model composed of three models scores the highest recognition rate. This improvement of recognition accuracy means that the complementary relationship among three models improves the accuracy of gesture recognition. The proposed system provides the application technology to understand human actions of daily life more precisely. 展开更多
关键词 gesture recognition multi-modal integration hidden Markov model random forests
下载PDF
面向机器智能的情感分析 被引量:2
4
作者 彭俊杰 《自然杂志》 CAS 2024年第2期150-156,共7页
大模型的兴起,尤其是以大模型为基础的人工智能技术的发展与应用引起了全社会对人工智能技术的广泛关注。人工智能技术已经在很多方面达到甚至超越人类,可以替代人工完成一些技艺要求较高的工作。不过,在人工智能迈向人类智慧的道路上,... 大模型的兴起,尤其是以大模型为基础的人工智能技术的发展与应用引起了全社会对人工智能技术的广泛关注。人工智能技术已经在很多方面达到甚至超越人类,可以替代人工完成一些技艺要求较高的工作。不过,在人工智能迈向人类智慧的道路上,仍然有许多难题亟待克服与解决,其中一个重要的问题就是情感分析与理解问题,如让机器准确理解人类的情感。针对该问题,文章从情感的定义与分类入手,对情感分析研究需要解决的问题,研究方向、研究现状、面临的挑战、应用前景与展望等进行了讨论。 展开更多
关键词 机器智能 情感分析 多模态 信息融合 特征提取
下载PDF
多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别 被引量:1
5
作者 孙强 陈远 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期574-587,共14页
在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题:(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性。为此,提出了... 在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题:(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性。为此,提出了多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别模型。一方面,为从EEG信号中获得更具显著性的情感语义特征,设计了多层次时空特征自适应集成模块。该模块首先通过双流结构捕捉EEG信号的时空特征,再通过特征相似度加权并集成各层次的特征,最后利用门控机制自适应地学习各层次相对重要的情感特征。另一方面,为挖掘EEG信号与人脸图像之间的情感语义一致性与互补性,设计了特有-共享特征融合模块,通过特有特征的学习和共享特征的学习来联合学习情感语义特征,并结合损失函数实现各模态特有语义信息和模态间共享语义信息的自动提取。在DEAP和MAHNOB-HCI两种数据集上,采用跨实验验证和5折交叉验证两种实验手段验证了提出模型的性能。实验结果表明,该模型取得了具有竞争力的结果,为基于EEG信号与人脸图像的双模态情感识别提供了一种有效的解决方案。 展开更多
关键词 双模态情感识别 脑电 人脸图像 多层次时空特征 特征融合
下载PDF
基于混合特征提取与跨模态特征预测融合的情感识别模型
6
作者 李牧 杨宇恒 柯熙政 《计算机应用》 CSCD 北大核心 2024年第1期86-93,共8页
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合... 为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本−语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI(CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83、2.64和3.05个百分点,验证了该模型情感识别的有效性。 展开更多
关键词 特征提取 多模态融合 情感识别 跨模态融合 注意力机制
下载PDF
基于知识图谱增强的领域多模态实体识别
7
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 多模态 领域 知识图谱 跨模态特征融合 注意力机制
下载PDF
脑电情感识别中多上下文向量优化的卷积递归神经网络
8
作者 晁浩 封舒琪 刘永利 《计算机应用》 CSCD 北大核心 2024年第7期2041-2046,共6页
目前的脑电(EEG)情感识别模型忽略了不同时段情感状态的差异性,未能强化关键的情感信息。针对上述问题,提出一种多上下文向量优化的卷积递归神经网络(CR-MCV)。首先构造脑电信号的特征矩阵序列,通过卷积神经网络(CNN)学习多通道脑电的... 目前的脑电(EEG)情感识别模型忽略了不同时段情感状态的差异性,未能强化关键的情感信息。针对上述问题,提出一种多上下文向量优化的卷积递归神经网络(CR-MCV)。首先构造脑电信号的特征矩阵序列,通过卷积神经网络(CNN)学习多通道脑电的空间特征;然后利用基于多头注意力的递归神经网络生成多上下文向量进行高层抽象特征提取;最后利用全连接层进行情感分类。在DEAP(Database for Emotion Analysis using Physiological signals)数据集上进行实验,CR-MCV在唤醒和效价维度上分类准确率分别为88.09%和89.30%。实验结果表明,CR-MCV在利用电极空间位置信息和不同时段情感状态显著性特征基础上,能够自适应地分配特征的注意力并强化情感状态显著性信息。 展开更多
关键词 多通道脑电信号 情感识别 多上下文向量 卷积递归神经网络 多头注意力
下载PDF
多模态数据融合的加工作业动态手势识别方法
9
作者 张富强 曾夏 +1 位作者 白筠妍 丁凯 《郑州大学学报(工学版)》 CAS 北大核心 2024年第5期30-36,共7页
为了解决单模态数据所提供的特征信息缺乏而导致的识别准确率难以提高、模型鲁棒性较低等问题,提出了面向人机交互的加工作业多模态数据融合动态手势识别策略。首先,采用C3D网络模型并在视频的空间维度和时间维度对深度图像和彩色图像... 为了解决单模态数据所提供的特征信息缺乏而导致的识别准确率难以提高、模型鲁棒性较低等问题,提出了面向人机交互的加工作业多模态数据融合动态手势识别策略。首先,采用C3D网络模型并在视频的空间维度和时间维度对深度图像和彩色图像两种模态数据进行特征提取;其次,将两种模态数据识别结果在决策层按最大值规则进行融合,同时,将原模型使用的Relu激活函数替换为Mish激活函数优化梯度特性;最后,通过3组对比实验得到6种动态手势的平均识别准确率为96.8%。结果表明:所提方法实现了加工作业中动态手势识别的高准确率和高鲁棒性的目标,对人机交互技术在实际生产场景中的应用起到推动作用。 展开更多
关键词 多模态数据融合 加工作业 动态手势识别 C3D Mish激活函数 人机交互
下载PDF
联合多模态与多跨度特征的嵌套命名实体识别
10
作者 邱云飞 邢浩然 +1 位作者 于智龙 张文文 《计算机科学与探索》 CSCD 北大核心 2024年第6期1613-1626,共14页
嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学... 嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学为研究背景,融合语料感知词典的垂直领域NNER模型。首先,结合点互信息、词频逆文本频率算法与注意力机制自动集成语料感知词典,同时扩展锚文本知识提升模型的训练精度。其次,从共享视角出发,设计三种多模态信息的融合策略,训练编码器学习字符、字形、词汇的扩展向量表示,通过三重积运算和切片注意力机制,筛选整合由多层感知机捕捉到的私有表征,缩小异质特征的空间差距。再次,以自底向上的层级架构确定跨度间的上下文关联,生成建议跨度集合,以双仿射机制和线性分类器获得目标跨度与相邻跨度、目标跨度内部表征、目标跨度边界等特征。最后,为目标跨度分配对应的实体类型标签。在六项数据集上的实验结果表明,相比于基线模型,提出的方法实现了显著的性能提升,能有效提升低资源场景下的NNER任务效果。 展开更多
关键词 嵌套命名实体识别 多模态 多任务 远程监督 矿物学
下载PDF
结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别
11
作者 孙强 王姝玉 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期588-601,共14页
大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任... 大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任务和3个单模态任务,分别学习多模态特征间的情感语义一致性信息和各个模态所含情感语义的差异性信息。首先,为了学习情感语义一致性信息,提出了一种基于多层循环神经网络的时间注意力机制(TAM),通过赋予时间序列特征向量不同的权重来描述情感特征的贡献度。然后,针对多模态融合,在语义空间进行了逐语义维度的细粒度特征融合。其次,为了有效学习各个模态所含情感语义的差异性信息,提出了一种基于模态间特征向量相似度的自监督单模态标签自动生成策略(ULAG)。通过在CMU-MOSI,CMU-MOSEI, CH-SIMS 3个数据集上的大量实验结果证实,提出的TAM-ULAG模型具有很强的竞争力:在分类指标(Acc_(2),F_(1))和回归指标(MAE, Corr)上与基准模型的指标相比均有所提升;对于二分类识别准确率,在CMUMOSI和CMU-MOSEI数据集上分别为87.2%和85.8%,而在CH-SIMS数据集上达到81.47%。这些研究结果表明,同时学习多模态间的情感语义一致性信息和各模态情感语义的差异性信息,有助于提高自监督多模态情感识别方法的性能。 展开更多
关键词 多模态情感识别 自监督标签生成 多任务学习 时间注意力机制 多模态融合
下载PDF
基于生成式对抗网络和多模态注意力机制的扩频与常规调制信号识别方法
12
作者 王华华 张睿哲 黄永洪 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1212-1221,共10页
针对低信噪比条件下的扩频与常规调制信号分类精度低的问题,该文提出一种基于生成式对抗网络(GAN)、卷积神经网络(CNN)和长短期记忆(LSTM)网络的多模态注意力机制信号调制识别方法。首先生成待识别信号的时频图像(TFIs),并利用GAN实现T... 针对低信噪比条件下的扩频与常规调制信号分类精度低的问题,该文提出一种基于生成式对抗网络(GAN)、卷积神经网络(CNN)和长短期记忆(LSTM)网络的多模态注意力机制信号调制识别方法。首先生成待识别信号的时频图像(TFIs),并利用GAN实现TFIs降噪处理;然后将信号的同相正交数据(I/Q data)与TFIs作为模型输入,并搭建基于CNN的TFIs识别支路和基于LSTM的I/Q数据识别支路;最后,在模型中添加注意力机制,增强I/Q数据和TFIs中重要特征对分类结果的决定作用。实验结果表明,该文所提方法相较于单模态识别模型以及其它基线模型,整体分类精度有效提升2%~7%,并在低信噪比条件下具备更强的特征表达能力和鲁棒性。 展开更多
关键词 深度学习 自动调制识别 生成对抗网络(GAN) 多模态特征 时频分布
下载PDF
多模态信息融合舰船目标识别研究进展 被引量:1
13
作者 吴文静 王中训 +1 位作者 但波 邢子杰 《探测与控制学报》 CSCD 北大核心 2024年第2期1-12,共12页
舰船目标识别的信息源主要来自现代高分辨率成像雷达形成的舰船目标信息,包括高分辨距离像、船舶自动识别系统信息以及合成孔径雷达成像。在对海探测环境相对复杂的情况下,基于单模态信息对海上舰船目标识别的能力有限,而利用多模态信... 舰船目标识别的信息源主要来自现代高分辨率成像雷达形成的舰船目标信息,包括高分辨距离像、船舶自动识别系统信息以及合成孔径雷达成像。在对海探测环境相对复杂的情况下,基于单模态信息对海上舰船目标识别的能力有限,而利用多模态信息融合将更有益于实现对海上目标高效的侦察监视和识别。首先,对单模态舰船目标识别方法进行梳理和总结,分析目前不同舰船目标识别方法存在的优势和不足;然后对多模态信息融合舰船目标识别常用数据集进行介绍,并对新方法、新模型进行了深入分析;最后对舰船目标识别未来发展趋势进行展望,为后续基于多模态信息融合的舰船目标识别方法研究提供参考。 展开更多
关键词 高分辨距离像 船舶自动识别系统 合成孔径雷达 多模态信息融合 舰船目标识别
下载PDF
融合Emoji情感分布的多标签情绪识别方法
14
作者 刘烨 刘仕鑫 +1 位作者 曾雪强 左家莉 《中文信息学报》 CSCD 北大核心 2024年第4期120-133,共14页
随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。... 随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition,EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。 展开更多
关键词 Emoji情感分布 多标签分类 情绪识别 情绪相关性
下载PDF
融合多模态数据的小样本命名实体识别方法
15
作者 张天明 张杉 +2 位作者 刘曦 曹斌 范菁 《软件学报》 EI CSCD 北大核心 2024年第3期1107-1124,共18页
作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效地完成任务.在实际生活中,由于时间和人力等成... 作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效地完成任务.在实际生活中,由于时间和人力等成本问题,命名实体识别任务常常受限于标注样本的稀缺.尽管基于文本的小样本命名实体识别方法已取得较好的泛化表现,但由于样本量有限,使得模型能提取的语义信息也十分受限,进而导致模型预测效果依然不佳.针对标注样本稀缺给基于文本的小样本命名实体识别方法带来的挑战,提出了一种融合多模态数据的小样本命名实体识别模型,借助多模态数据提供额外语义信息,帮助模型提升预测效果,进而可以有效提升多模态数据融合、建模效果.该方法将图像信息转化为文本信息作为辅助模态信息,有效地解决了由文本与图像蕴含语义信息粒度不一致导致的模态对齐效果不佳的问题.为了有效地考虑实体识别中的标签依赖关系,使用CRF框架并使用最先进的元学习方法分别作为发射模块和转移模块.为了缓解辅助模态中的噪声样本对模型的负面影响,提出一种基于元学习的通用去噪网络.该去噪网络在数据量十分有限的情况下,依然可以有效地评估辅助模态中不同样本的差异性以及衡量样本对模型的有益程度.最后,在真实的单模态和多模态数据集上进行了大量的实验.实验结果验证了该方法的预测F1值比基准方法至少提升了10%,并具有良好的泛化性. 展开更多
关键词 命名实体识别 多模态数据 小样本学习 元学习 去噪网络
下载PDF
基于三维并行多视野卷积神经网络的脑电信号情感识别
16
作者 韩新龙 高云园 马玉良 《传感技术学报》 CAS CSCD 北大核心 2024年第4期696-703,共8页
利用脑电信号识别情感状态已经成为当前的研究热门。现有的情感识别方法通常提取二维信息作样本,却忽略了包含大脑不同区域重要特征的空间信息。针对这个问题,结合脑电通道间布局和原始脑电信号中的频率相关特征,提出了基于三维并行多... 利用脑电信号识别情感状态已经成为当前的研究热门。现有的情感识别方法通常提取二维信息作样本,却忽略了包含大脑不同区域重要特征的空间信息。针对这个问题,结合脑电通道间布局和原始脑电信号中的频率相关特征,提出了基于三维并行多视野卷积神经网络(Three-dimensional Parallel Multi-field Convolutional Neural Network, TPMCNN)的脑电情感识别新方法。首先将原始脑电信号划分成多频带,并提取每个频带的微分熵(DE)特征。接着将数据按照电极传感器的位置转变成三维特征矩阵。最后采用TPMCNN网络处理所得到的矩阵。实验结果表明,利用不同频带的微分熵特征构造的三维特征矩阵,能够有效地提取多通道脑电信号中与情感识别有关的特征,所提出的并行多视野卷积神经网络能够充分发挥出深度学习的优势。实验在公开数据集DEAP上进行二分类,在唤醒和效价的准确率分别达到了97.31%和96.72%,四分类的准确率达到了97.17%,证实了所提出的方法对脑电信号情感识别的优越性能。 展开更多
关键词 情感识别 三维特征 多视野卷积神经网络 并行网络
下载PDF
基于时序感知DAG的多模态对话情绪识别模型
17
作者 沈旭东 黄贤英 邹世豪 《计算机应用研究》 CSCD 北大核心 2024年第1期51-58,共8页
针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型(MTDAG)。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因... 针对现有对话情绪识别方法中对时序信息、话语者信息、多模态信息利用不充分的问题,提出了一个时序信息感知的多模态有向无环图模型(MTDAG)。其中所设计的时序感知单元能按照时间顺序优化话语权重设置,并收集历史情绪线索,实现基于近因效应下对时序信息和历史信息更有效的利用;设计的上下文和话语者信息融合模块,通过提取上下文语境和话语者自语境的深度联合信息实现对话语者信息的充分利用;通过设置DAG(directed acyclic graph)子图捕获多模态信息并约束交互方向的方式,在减少噪声引入的基础上充分利用多模态信息。在两个基准数据集IEMOCAP和MELD的大量实验表明该模型具有较好的情绪识别效果。 展开更多
关键词 对话情绪识别 有向无环图 近因效应 特征提取 多模态交互
下载PDF
基于异质特征解构的多模态识别方法
18
作者 刘伯文 田兆楠 +2 位作者 齐跃 韩光照 王兴梅 《应用科技》 CAS 2024年第3期161-168,共8页
为了解决多模态识别模型因异构模态数据分布之间存在交叉重叠,造成在提取异质特征过程中容易出现特征冗余的问题,提出基于异质特征解构(heterogeneous feature deconstruction,HFD)的多模态识别方法,即构建异质特征解构模型,通过梯度下... 为了解决多模态识别模型因异构模态数据分布之间存在交叉重叠,造成在提取异质特征过程中容易出现特征冗余的问题,提出基于异质特征解构(heterogeneous feature deconstruction,HFD)的多模态识别方法,即构建异质特征解构模型,通过梯度下降的方式训练特性特征提取器,并以梯度反转的方式训练共性特征提取器,提取具有不同模态特质的模态特性特征,以及具有模态不变属性的模态共性特征,进一步利用共性特征增强损失,提高共性特征间的相似度,解决异质特征之间冗余度高的问题。在CMU-MOSEI数据集上的对比实验和消融实验结果验证了基于异质特征解构的多模态识别方法能够有效提升识别性能。 展开更多
关键词 多模态融合 异质特征 特征提取 梯度反转 余弦相似度 情感识别 特征解构 模态不变空间
下载PDF
人脸和步态特征注意力融合的身份识别方法
19
作者 沈澍 张文昊 +2 位作者 王汝传 沙超 丁浩 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1695-1701,共7页
真实的身份认证场景往往存在面部遮挡和远距离等难点,给人脸识别等传统识别方法带来挑战.步态识别等新型识别方法助力身份认证.步态识别适用于面部遮挡场景,且远距离时优于人脸识别.为了发挥人脸识别和步态识别在远距离遮挡下的互补作用... 真实的身份认证场景往往存在面部遮挡和远距离等难点,给人脸识别等传统识别方法带来挑战.步态识别等新型识别方法助力身份认证.步态识别适用于面部遮挡场景,且远距离时优于人脸识别.为了发挥人脸识别和步态识别在远距离遮挡下的互补作用,本文提出了一种基于人脸和步态多模态融合的身份识别方法.该方法包括面向低分辨率和有遮挡场景的人脸识别模块、基于轻量化模型GaitLight的多视角步态识别模块、融合人脸和步态特征的注意力融合模块.人脸和步态融合数据集上的实验结果表明,提出的多模态方法在面部无遮挡和面部遮挡条件下,识别率均高于单模态方法和现有的多模态方法.两种条件下识别率分别达到98.5%和98.4%,高于人脸识别算法1.2%和7.1%.多模态识别方法既能满足日常识别需求,也适用于远距离遮挡下的身份识别,识别性能优于目前应用的人脸识别方案. 展开更多
关键词 人脸识别 步态识别 注意力机制 多模态融合 身份识别 视频视觉转换器
下载PDF
基于AU的多任务学生情绪识别方法研究
20
作者 张笑云 赵晖 《计算机科学》 CSCD 北大核心 2024年第10期105-111,共7页
智能教育快速发展,运用人工智能提升教育质量和效率已成为趋势。学生作为教育的核心,其情绪状态对教育成效具有至关重要的影响。为了深入研究学生情绪,收集了课堂场景中的学生学习视频,包括听课和小组讨论两种情境,并据此建立了一个多... 智能教育快速发展,运用人工智能提升教育质量和效率已成为趋势。学生作为教育的核心,其情绪状态对教育成效具有至关重要的影响。为了深入研究学生情绪,收集了课堂场景中的学生学习视频,包括听课和小组讨论两种情境,并据此建立了一个多任务学生情绪数据库。面部作为内在情绪状态的直接外在体现,显示出AU与情绪之间的紧密关联。在此基础上,提出了一个基于多任务学习的学生情绪识别模型Multi-SER。该模型通过结合AU识别和学生情绪识别两项任务,挖掘各个AU与学生情绪之间的关联关系,进而提升模型在学生情绪识别方面的性能。在多任务实验中,Multi-SER模型的情绪识别准确率达到了80.87%,相比单情绪识别任务模型SE-C3DNet+,效果提升了3.11%。实验结果表明,通过多任务学习挖掘AU和情绪之间的关联关系,模型在分类各种情绪方面的性能得到了提升。 展开更多
关键词 学生情绪识别 多任务学习 C3D SE 面部单元
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部