针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona...针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。展开更多
由于电离层电子密度随时间变化,且空间分布不均匀,对不同频段的无线电波产生延缓和折射,因此电离层电子密度变化是影响短波通信、卫星通信、全球导航卫星系统和其他空间通信质量的一个主要因素,本文对全球电离层电子密度(Number of elec...由于电离层电子密度随时间变化,且空间分布不均匀,对不同频段的无线电波产生延缓和折射,因此电离层电子密度变化是影响短波通信、卫星通信、全球导航卫星系统和其他空间通信质量的一个主要因素,本文对全球电离层电子密度(Number of electron,Ne)的预测工作对短波通信设备三维射线实时追踪定位提供必要条件。本文采用国际电离层参考模型提供的2016年电离层Ne数据,根据数据的三维空间时间序列特征,搭建了自编码器和卷积长短期记忆(Convolutional Long Short-Term Memory Network,Conv LSTM)网络组成的网络结构,在不引入地球自转周期之外任何先验知识的条件下,对Ne数据进行深度学习并实现预测,首先通过实验对比了SGD、Adagrad、Adadelta、Adam、Adamax和Nadam六种优化算法的性能,又对比了三种预测策略的均方根误差(Root Mean Square Error, RMSE),1h-to-1h预测策略的全球平均RMSE为1.0 NEU(最大值的0.4%),1h-to-24h和24h-to-24h预测策略的全球平均RMSE为6.3 NEU(2.6%)。由实验结果得出以下结论,一是Nadam优化算法更适合电离层Ne的深度学习,二是1h预测策略的性能与之前类似的电离层TEC预测工作(RMSE高于1.5 TECU,最大值的1%)相比有竞争力,但预测时间太短且对数据的实时性要求较高,三是两种24h预测策略虽能实现长期预测但性能不理想,要实现三维空间时间序列的长期高精度预测需要进一步改善神经网络、模型结构和预测策略。展开更多
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出...随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。展开更多
自然语言转结构化查询语句(Natural Language to SQL,NL2SQL)是信息领域一个重要课题.目前前沿的NL2SQL工作都是针对英文数据集,而处理英文数据的方法直接应用到中文上往往难以取得很好的效果.本文首先对传统的SQLNet模型进行了改进,在...自然语言转结构化查询语句(Natural Language to SQL,NL2SQL)是信息领域一个重要课题.目前前沿的NL2SQL工作都是针对英文数据集,而处理英文数据的方法直接应用到中文上往往难以取得很好的效果.本文首先对传统的SQLNet模型进行了改进,在其中融入了预训练模型,增强了其提取特征的能力;之后又分别对分类模型和条件值模型进行了改进:在分类模型中增加了LSTM进一步捕捉特征,在条件值模型中使用正则表达式等手段对特殊的条件子句进行了预处理.实验表明,本文对分类模型和条件值模型所做的改进都能有效提升模型的表达效果.展开更多
针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文...针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文本情感分析模型,以BERT模型构建词向量,利用全词掩盖方法,能够更好地表达语义信息。为搭建金融文本数据集,提出一种基于深度学习模型的主题爬虫,利用BERT+Bi-GRU(双门控循环单元)判断网页内文本主题相关性,以文本分类结果计算网页的主题相关度。实验结果表明:本文所设计的情感分析模型在做情感分析任务时取得了87.1%的准确率,能有效分析文本情感倾向。展开更多
中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类...中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。展开更多
文摘针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。
文摘由于电离层电子密度随时间变化,且空间分布不均匀,对不同频段的无线电波产生延缓和折射,因此电离层电子密度变化是影响短波通信、卫星通信、全球导航卫星系统和其他空间通信质量的一个主要因素,本文对全球电离层电子密度(Number of electron,Ne)的预测工作对短波通信设备三维射线实时追踪定位提供必要条件。本文采用国际电离层参考模型提供的2016年电离层Ne数据,根据数据的三维空间时间序列特征,搭建了自编码器和卷积长短期记忆(Convolutional Long Short-Term Memory Network,Conv LSTM)网络组成的网络结构,在不引入地球自转周期之外任何先验知识的条件下,对Ne数据进行深度学习并实现预测,首先通过实验对比了SGD、Adagrad、Adadelta、Adam、Adamax和Nadam六种优化算法的性能,又对比了三种预测策略的均方根误差(Root Mean Square Error, RMSE),1h-to-1h预测策略的全球平均RMSE为1.0 NEU(最大值的0.4%),1h-to-24h和24h-to-24h预测策略的全球平均RMSE为6.3 NEU(2.6%)。由实验结果得出以下结论,一是Nadam优化算法更适合电离层Ne的深度学习,二是1h预测策略的性能与之前类似的电离层TEC预测工作(RMSE高于1.5 TECU,最大值的1%)相比有竞争力,但预测时间太短且对数据的实时性要求较高,三是两种24h预测策略虽能实现长期预测但性能不理想,要实现三维空间时间序列的长期高精度预测需要进一步改善神经网络、模型结构和预测策略。
文摘随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。
文摘自然语言转结构化查询语句(Natural Language to SQL,NL2SQL)是信息领域一个重要课题.目前前沿的NL2SQL工作都是针对英文数据集,而处理英文数据的方法直接应用到中文上往往难以取得很好的效果.本文首先对传统的SQLNet模型进行了改进,在其中融入了预训练模型,增强了其提取特征的能力;之后又分别对分类模型和条件值模型进行了改进:在分类模型中增加了LSTM进一步捕捉特征,在条件值模型中使用正则表达式等手段对特殊的条件子句进行了预处理.实验表明,本文对分类模型和条件值模型所做的改进都能有效提升模型的表达效果.
文摘针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文本情感分析模型,以BERT模型构建词向量,利用全词掩盖方法,能够更好地表达语义信息。为搭建金融文本数据集,提出一种基于深度学习模型的主题爬虫,利用BERT+Bi-GRU(双门控循环单元)判断网页内文本主题相关性,以文本分类结果计算网页的主题相关度。实验结果表明:本文所设计的情感分析模型在做情感分析任务时取得了87.1%的准确率,能有效分析文本情感倾向。
文摘中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。