针对传统方法在石油钻井领域由于检索词不标准、语义模糊导致检索结果偏差较大的问题,提出一种基于BERT(Bidirectional Encoder Representation from Transformers)孪生网络模型的注意力池化方法以提高文献相似度评估的准确率。首先使...针对传统方法在石油钻井领域由于检索词不标准、语义模糊导致检索结果偏差较大的问题,提出一种基于BERT(Bidirectional Encoder Representation from Transformers)孪生网络模型的注意力池化方法以提高文献相似度评估的准确率。首先使用爬虫技术采集石油钻井文献并清洗整理,然后利用5类石油钻井文献数据集评估指标对样本进行打分标注,最后结合钻井文献数据集特征,提出基于孪生BERT网络的注意力池化方法,对多特征样本进行整体语义表达。实验结果表明,相较于常规的池化方法,该模型能提升石油钻井文献相似度度量的效果,并具有一定的泛化性能。展开更多
科技文献检索时以专业角度给出合理的相关度排序是一项非常重要工作,传统PageRank算法采用了平均分配相似性权重的方式,但其会产生文献排序结果不合理的问题。为此,提出一种将深度学习方法与PageRank相结合的算法,提高文献相关度排序的...科技文献检索时以专业角度给出合理的相关度排序是一项非常重要工作,传统PageRank算法采用了平均分配相似性权重的方式,但其会产生文献排序结果不合理的问题。为此,提出一种将深度学习方法与PageRank相结合的算法,提高文献相关度排序的可靠性。首先,使用具有注意力池化的孪生BERT(Bidirectional Encoder Representation from Transformers)深度学习网络计算文献与引文的相似度;然后,对文献与其所包含引文间的相似度进行规范化处理;最后,将标准化后的相似度作为分配权重对引文网络计算排序。实验结果表明,相较于传统的PageRank算法,该方法检索结果的相关度提升6%以上,因此更适合应用于科技文献的引文网络分析。展开更多
文摘针对传统方法在石油钻井领域由于检索词不标准、语义模糊导致检索结果偏差较大的问题,提出一种基于BERT(Bidirectional Encoder Representation from Transformers)孪生网络模型的注意力池化方法以提高文献相似度评估的准确率。首先使用爬虫技术采集石油钻井文献并清洗整理,然后利用5类石油钻井文献数据集评估指标对样本进行打分标注,最后结合钻井文献数据集特征,提出基于孪生BERT网络的注意力池化方法,对多特征样本进行整体语义表达。实验结果表明,相较于常规的池化方法,该模型能提升石油钻井文献相似度度量的效果,并具有一定的泛化性能。
文摘科技文献检索时以专业角度给出合理的相关度排序是一项非常重要工作,传统PageRank算法采用了平均分配相似性权重的方式,但其会产生文献排序结果不合理的问题。为此,提出一种将深度学习方法与PageRank相结合的算法,提高文献相关度排序的可靠性。首先,使用具有注意力池化的孪生BERT(Bidirectional Encoder Representation from Transformers)深度学习网络计算文献与引文的相似度;然后,对文献与其所包含引文间的相似度进行规范化处理;最后,将标准化后的相似度作为分配权重对引文网络计算排序。实验结果表明,相较于传统的PageRank算法,该方法检索结果的相关度提升6%以上,因此更适合应用于科技文献的引文网络分析。