知识库问答(knowledge base question answering,KBQA)是一个具有挑战性的热门研究方向,多跳知识库问答主要的挑战是非结构化的自然语言问题与结构化的知识库推理路径存在不一致性,基于图检索的多跳知识库问答模型善于把握图的拓扑结构...知识库问答(knowledge base question answering,KBQA)是一个具有挑战性的热门研究方向,多跳知识库问答主要的挑战是非结构化的自然语言问题与结构化的知识库推理路径存在不一致性,基于图检索的多跳知识库问答模型善于把握图的拓扑结构,但忽略了图中结点和边携带的文本信息。为了充分学习知识库三元组的文本信息,构造了知识库三元组的文本形式,并提出了三个基于非图检索的特征增强模型RBERT、CBERT、GBERT,它们分别使用前馈神经网络、深层金字塔卷积网络、图注意力网络增强特征。三个模型显著提高了特征表示能力和问答准确率,其中RBERT结构最简单,CBERT训练最快,GBERT性能最优。在数据集MetaQA、WebQSP和CWQ上进行实验对比,在Hits@1和F1两个指标上三个模型明显优于目前的主流模型,也明显优于其他BERT的改进模型。展开更多
为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数...为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。展开更多
文摘知识库问答(knowledge base question answering,KBQA)是一个具有挑战性的热门研究方向,多跳知识库问答主要的挑战是非结构化的自然语言问题与结构化的知识库推理路径存在不一致性,基于图检索的多跳知识库问答模型善于把握图的拓扑结构,但忽略了图中结点和边携带的文本信息。为了充分学习知识库三元组的文本信息,构造了知识库三元组的文本形式,并提出了三个基于非图检索的特征增强模型RBERT、CBERT、GBERT,它们分别使用前馈神经网络、深层金字塔卷积网络、图注意力网络增强特征。三个模型显著提高了特征表示能力和问答准确率,其中RBERT结构最简单,CBERT训练最快,GBERT性能最优。在数据集MetaQA、WebQSP和CWQ上进行实验对比,在Hits@1和F1两个指标上三个模型明显优于目前的主流模型,也明显优于其他BERT的改进模型。
文摘为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。