针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona...针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。展开更多
电离层总电子含量(Total Electron Content,TEC)的监测与预报是空间环境研究的重要内容,对卫星通讯和导航定位等有重要意义.TEC值影响因素较多,很难确定精确物理模型来对其进行预测.本文设计了基于注意力机制的LSTM模型(Att-LSTM),采用...电离层总电子含量(Total Electron Content,TEC)的监测与预报是空间环境研究的重要内容,对卫星通讯和导航定位等有重要意义.TEC值影响因素较多,很难确定精确物理模型来对其进行预测.本文设计了基于注意力机制的LSTM模型(Att-LSTM),采用过去24小时TEC观测数据对未来TEC进行预测.选择北半球东经100°上,每2.5°纬度选择一个位置,共计36个位置来验证本文提出模型的性能,并与主流的深度学习模型如DNN、RNN、LSTM进行对比实验.取得了如下成果:(1)在选定的36个地区未来2小时单点预测上,基于本文的Att-LSTM模型的TEC预测性能明显优于其他对比模型;(2)讨论了纬度对Att-LSTM预测未来2小时TEC值时性能的影响,发现在北纬0°到60°之间,Att-LSTM预测性能随着纬度的升高而略有降低,在北纬62.5°~87.5°之间,模型预测性能出现扰动,预测效果略差;(3)讨论了磁暴期和磁静期模型的预测性能,发现无论是磁暴期还是磁静期,本文模型预测性能均较好;(4)还讨论了对未来多时点预测效果,实验结果表明,本文所提出的模型对未来2、4个小时的预测拟合度R-Square均超过0.95,预测结果比较可靠,对未来6、8、10个小时预测拟合度最高为0.7934,预测拟合度R-Square下降迅速,预测结果不可靠.展开更多
文摘针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。
文摘电离层总电子含量(Total Electron Content,TEC)的监测与预报是空间环境研究的重要内容,对卫星通讯和导航定位等有重要意义.TEC值影响因素较多,很难确定精确物理模型来对其进行预测.本文设计了基于注意力机制的LSTM模型(Att-LSTM),采用过去24小时TEC观测数据对未来TEC进行预测.选择北半球东经100°上,每2.5°纬度选择一个位置,共计36个位置来验证本文提出模型的性能,并与主流的深度学习模型如DNN、RNN、LSTM进行对比实验.取得了如下成果:(1)在选定的36个地区未来2小时单点预测上,基于本文的Att-LSTM模型的TEC预测性能明显优于其他对比模型;(2)讨论了纬度对Att-LSTM预测未来2小时TEC值时性能的影响,发现在北纬0°到60°之间,Att-LSTM预测性能随着纬度的升高而略有降低,在北纬62.5°~87.5°之间,模型预测性能出现扰动,预测效果略差;(3)讨论了磁暴期和磁静期模型的预测性能,发现无论是磁暴期还是磁静期,本文模型预测性能均较好;(4)还讨论了对未来多时点预测效果,实验结果表明,本文所提出的模型对未来2、4个小时的预测拟合度R-Square均超过0.95,预测结果比较可靠,对未来6、8、10个小时预测拟合度最高为0.7934,预测拟合度R-Square下降迅速,预测结果不可靠.