针对自然语言处理(Natural Language Processing,NLP)任务中,命名实体识别(Named Entity Recognition,NER)存在实体类别样本不平衡的问题,提出一种基于改进损失函数的实体类别平衡优化算法。新算法是对神经网络模型中的损失函数进行优...针对自然语言处理(Natural Language Processing,NLP)任务中,命名实体识别(Named Entity Recognition,NER)存在实体类别样本不平衡的问题,提出一种基于改进损失函数的实体类别平衡优化算法。新算法是对神经网络模型中的损失函数进行优化处理,通过分析命名实体识别数据特点,在平衡正负样本的基础上引入平滑系数和权重系数,保证模型在梯度传递的过程更关注于实体类别较少和带有嵌套的难识别样本,同时减少对样本数较多的、易识别样本的关注。利用公共数据集ACE05、MSRA进行实验对比,结果表明改进的损失函数在数据集ACE05和MSRA上,F 1值分别提高1.53%和0.91%。上述结果表明改进的损失函数能够较好地缓解实体中正负难易样本的不平衡。展开更多
文摘目标检测方法甚高速卷积神经网络(Faster Region-based Convolutional Neural Network,Faster RCNN)在训练过程中存在负样本远多于正样本的问题,即数据集不平衡问题。针对该问题,提出了一个综合定位误差和分类误差的判别函数用于判别难正样本,基于该函数和难负样本挖掘提出了改进的自助采样法,并提出了基于该自助采样的"五步训练法"用于训练Faster RCNN。与传统的Faster RCNN训练方法相比,五步法加强了对难样本的学习,提高了网络泛化能力,减少了误判;训练出的模型在Pascal VOC 2007数据集上测试的平均正确率均值(mean Average Precision,mAP)提高了2.4%,在FDDB(Face Detection Data Set and Benchmark)相同检出率下误检率降低了3.2%,且边框拟合度更高。