Recent advancements in natural language processing have given rise to numerous pre-training language models in question-answering systems.However,with the constant evolution of algorithms,data,and computing power,the ...Recent advancements in natural language processing have given rise to numerous pre-training language models in question-answering systems.However,with the constant evolution of algorithms,data,and computing power,the increasing size and complexity of these models have led to increased training costs and reduced efficiency.This study aims to minimize the inference time of such models while maintaining computational performance.It also proposes a novel Distillation model for PAL-BERT(DPAL-BERT),specifically,employs knowledge distillation,using the PAL-BERT model as the teacher model to train two student models:DPAL-BERT-Bi and DPAL-BERTC.This research enhances the dataset through techniques such as masking,replacement,and n-gram sampling to optimize knowledge transfer.The experimental results showed that the distilled models greatly outperform models trained from scratch.In addition,although the distilled models exhibit a slight decrease in performance compared to PAL-BERT,they significantly reduce inference time to just 0.25%of the original.This demonstrates the effectiveness of the proposed approach in balancing model performance and efficiency.展开更多
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from...针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。展开更多
识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主...识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主题,利用余弦相似度计算主题之间的相似度,构建主题演化路径;最后,基于新颖度、增长性、关注度、影响力构建前沿主题识别指标体系,识别具有前沿性的学科交叉研究主题。以图书情报学(Library and Information Science,LIS)为例展开研究,研究结果显示,2004—2023年该学科领域的交叉研究主题呈现出逐渐细化和深入的特点,主要集中在信息挖掘与知识发现、互联网信息行为、医疗信息学3个方面;现阶段学科交叉研究前沿主题为医疗数据模型、舆情治理与情感分析、机器学习与深度学习;基于信息技术的研究方法和其在不同领域的应用研究具有良好的应用前景,有可能成为未来LIS领域的核心研究主题。展开更多
古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模...古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%.展开更多
事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的...事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的需求及事故隐患特征,提出了一种基于BERT-BiLSTM的分类模型,用于油田安全生产隐患文本的主题自动分类,通过基于Transformer的双向编码器表示(bidirectionalencoder representations from Transformer,BERT)模型提取输入文本的字符级特征,生成全局文本信息的向量表示,再通过双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)模型对局部关键信息和上下文深层次特征进行特征提取,进而通过Softmax激活函数进行概率计算得到分类结果。通过与传统分类方法的比较表明,BERT-BiLSTM分类模型在加权平均准确率、加权平均召回率和加权平均F_(1)等指标方面均有所改善,模型与油田企业现有安全管理信息系统的有机融合将为进一步提升油田企业的事故隐患管理针对性,推动企业安全管理从事后被动反应向事前主动预防转变提供重要的技术支撑。展开更多
基金supported by Sichuan Science and Technology Program(2023YFSY0026,2023YFH0004).
文摘Recent advancements in natural language processing have given rise to numerous pre-training language models in question-answering systems.However,with the constant evolution of algorithms,data,and computing power,the increasing size and complexity of these models have led to increased training costs and reduced efficiency.This study aims to minimize the inference time of such models while maintaining computational performance.It also proposes a novel Distillation model for PAL-BERT(DPAL-BERT),specifically,employs knowledge distillation,using the PAL-BERT model as the teacher model to train two student models:DPAL-BERT-Bi and DPAL-BERTC.This research enhances the dataset through techniques such as masking,replacement,and n-gram sampling to optimize knowledge transfer.The experimental results showed that the distilled models greatly outperform models trained from scratch.In addition,although the distilled models exhibit a slight decrease in performance compared to PAL-BERT,they significantly reduce inference time to just 0.25%of the original.This demonstrates the effectiveness of the proposed approach in balancing model performance and efficiency.
文摘针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。
文摘识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主题,利用余弦相似度计算主题之间的相似度,构建主题演化路径;最后,基于新颖度、增长性、关注度、影响力构建前沿主题识别指标体系,识别具有前沿性的学科交叉研究主题。以图书情报学(Library and Information Science,LIS)为例展开研究,研究结果显示,2004—2023年该学科领域的交叉研究主题呈现出逐渐细化和深入的特点,主要集中在信息挖掘与知识发现、互联网信息行为、医疗信息学3个方面;现阶段学科交叉研究前沿主题为医疗数据模型、舆情治理与情感分析、机器学习与深度学习;基于信息技术的研究方法和其在不同领域的应用研究具有良好的应用前景,有可能成为未来LIS领域的核心研究主题。
文摘古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%.
文摘事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的需求及事故隐患特征,提出了一种基于BERT-BiLSTM的分类模型,用于油田安全生产隐患文本的主题自动分类,通过基于Transformer的双向编码器表示(bidirectionalencoder representations from Transformer,BERT)模型提取输入文本的字符级特征,生成全局文本信息的向量表示,再通过双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)模型对局部关键信息和上下文深层次特征进行特征提取,进而通过Softmax激活函数进行概率计算得到分类结果。通过与传统分类方法的比较表明,BERT-BiLSTM分类模型在加权平均准确率、加权平均召回率和加权平均F_(1)等指标方面均有所改善,模型与油田企业现有安全管理信息系统的有机融合将为进一步提升油田企业的事故隐患管理针对性,推动企业安全管理从事后被动反应向事前主动预防转变提供重要的技术支撑。