为缓解旅游领域知识分散、信息碎片化的问题,提出一种基于ChatGLM(chat generative language model)和提示微调的实体关系抽取模型ChatGLM-ppt(ChatGLM with prompt and p-tuning)。该模型借助ChatGLM以对话形式完成实体关系抽取任务,...为缓解旅游领域知识分散、信息碎片化的问题,提出一种基于ChatGLM(chat generative language model)和提示微调的实体关系抽取模型ChatGLM-ppt(ChatGLM with prompt and p-tuning)。该模型借助ChatGLM以对话形式完成实体关系抽取任务,并通过P-Tuning v2微调和添加提示模板的方法应对实体关系抽取中错误传播、实体冗余和关系重叠等问题。实验建立在自建的旅游领域数据集上,结果表明:在旅游领域实体关系抽取问题上ChatGLM-ppt模型F 1为92.19%,在处理重叠关系问题中F 1均大于90%,优于目前主流的实体关系抽取模型,证明该模型可有效提高实体关系抽取的准确率。进一步运用Neo4j图数据库构建旅游知识图谱,整合分散的旅游信息资源,对促进旅游业的数字化转型和智能化发展具有一定的参考意义。展开更多
古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模...古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%.展开更多
缝纫设备的智能运维与管理,关键在于解决非结构化文本的信息挖掘及语言模型构建问题。这对于加快设备缺陷和故障诊断速度、提高诊断准确性及实现设备检修的智能辅助决策,具有重要意义。该研究提出了通过基于BERT的条件随机场(bidirectio...缝纫设备的智能运维与管理,关键在于解决非结构化文本的信息挖掘及语言模型构建问题。这对于加快设备缺陷和故障诊断速度、提高诊断准确性及实现设备检修的智能辅助决策,具有重要意义。该研究提出了通过基于BERT的条件随机场(bidirectional encoder representations from transformers-conditional random field,BERT-CRF)的实体抽取模型抽取关键实体信息,如设备名称、属性等,再通过基于双向门控循环单元注意力机制(bidirectional gated recurrent unit-attention,BiGRU-Attention)的关系抽取模型有效捕捉实体之间的语义关联,为缝纫设备知识图谱的构建提供支持。针对缝纫设备文本分析场景,模型在缝纫设备文本实体识别、信息抽取和故障诊断等任务场景进行了专门的训练和优化。与现有的深度学习算法相比,该研究所提方法在验证集和测试集上实现了20%到30%的性能提升,体现了其在召回率和精确度上的显著优势。缝纫设备知识的非结构化文本信息挖掘,可为平缝设备数据集成、设备故障运维、平缝工艺路线设计等方面的知识图谱构建提供参考。展开更多
现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and...现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。展开更多
随着网络攻防对抗日益激烈,威胁情报的深度挖掘与有效利用成为提升网络安全防御策略的关键。针对传统信息抽取技术在训练数据构建和模型泛化能力方面的局限性,提出了一种基于大语言模型(Large Language Models,LLMs)的威胁情报实体及其...随着网络攻防对抗日益激烈,威胁情报的深度挖掘与有效利用成为提升网络安全防御策略的关键。针对传统信息抽取技术在训练数据构建和模型泛化能力方面的局限性,提出了一种基于大语言模型(Large Language Models,LLMs)的威胁情报实体及其相互关系抽取框架。借助LLMs的深度语义理解能力,通过提示工程技术准确抽取威胁实体及其相互关系,同时辅以LangChain扩展抽取广度。此外,通过搜索引擎集成提高情报挖掘的时效性和准确性。实验结果显示,该框架在少样本或零样本情境下表现出色,有效减少了误导信息的生成,实现了实时高效的情报知识提取。总体而言,引入一种灵活高效的威胁情报智能化挖掘方法,优化了威胁情报的知识融合过程,提升了网络防御的主动性与先进性。展开更多
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉...针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。展开更多
文摘为缓解旅游领域知识分散、信息碎片化的问题,提出一种基于ChatGLM(chat generative language model)和提示微调的实体关系抽取模型ChatGLM-ppt(ChatGLM with prompt and p-tuning)。该模型借助ChatGLM以对话形式完成实体关系抽取任务,并通过P-Tuning v2微调和添加提示模板的方法应对实体关系抽取中错误传播、实体冗余和关系重叠等问题。实验建立在自建的旅游领域数据集上,结果表明:在旅游领域实体关系抽取问题上ChatGLM-ppt模型F 1为92.19%,在处理重叠关系问题中F 1均大于90%,优于目前主流的实体关系抽取模型,证明该模型可有效提高实体关系抽取的准确率。进一步运用Neo4j图数据库构建旅游知识图谱,整合分散的旅游信息资源,对促进旅游业的数字化转型和智能化发展具有一定的参考意义。
文摘古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%.
文摘缝纫设备的智能运维与管理,关键在于解决非结构化文本的信息挖掘及语言模型构建问题。这对于加快设备缺陷和故障诊断速度、提高诊断准确性及实现设备检修的智能辅助决策,具有重要意义。该研究提出了通过基于BERT的条件随机场(bidirectional encoder representations from transformers-conditional random field,BERT-CRF)的实体抽取模型抽取关键实体信息,如设备名称、属性等,再通过基于双向门控循环单元注意力机制(bidirectional gated recurrent unit-attention,BiGRU-Attention)的关系抽取模型有效捕捉实体之间的语义关联,为缝纫设备知识图谱的构建提供支持。针对缝纫设备文本分析场景,模型在缝纫设备文本实体识别、信息抽取和故障诊断等任务场景进行了专门的训练和优化。与现有的深度学习算法相比,该研究所提方法在验证集和测试集上实现了20%到30%的性能提升,体现了其在召回率和精确度上的显著优势。缝纫设备知识的非结构化文本信息挖掘,可为平缝设备数据集成、设备故障运维、平缝工艺路线设计等方面的知识图谱构建提供参考。
文摘现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。
文摘随着网络攻防对抗日益激烈,威胁情报的深度挖掘与有效利用成为提升网络安全防御策略的关键。针对传统信息抽取技术在训练数据构建和模型泛化能力方面的局限性,提出了一种基于大语言模型(Large Language Models,LLMs)的威胁情报实体及其相互关系抽取框架。借助LLMs的深度语义理解能力,通过提示工程技术准确抽取威胁实体及其相互关系,同时辅以LangChain扩展抽取广度。此外,通过搜索引擎集成提高情报挖掘的时效性和准确性。实验结果显示,该框架在少样本或零样本情境下表现出色,有效减少了误导信息的生成,实现了实时高效的情报知识提取。总体而言,引入一种灵活高效的威胁情报智能化挖掘方法,优化了威胁情报的知识融合过程,提升了网络防御的主动性与先进性。
文摘针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。