期刊文献+
共找到268篇文章
< 1 2 14 >
每页显示 20 50 100
基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量:2
1
作者 阮光册 周萌葳 《情报杂志》 北大核心 2024年第2期110-117,共8页
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法... [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 展开更多
关键词 sentence-BERT 专利文本 主题识别 文本聚类
下载PDF
融合Sentence-BERT和LDA的评论文本主题识别 被引量:6
2
作者 阮光册 黄韵莹 《现代情报》 2023年第5期46-53,共8页
[目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的... [目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的向量特征,同时,采用LDA模型获取评论文本的概率主题向量,随后使用自动编码器连接两组向量,运用K-means算法对潜在空间向量进行聚类,从类簇中获取上下文主题信息。[结果/结论]通过对评论文本数据集的实验,本文方法可以较好地获得具有语义信息的主题词。Sentence-BERT模型与LDA结合,增加了模型的复杂性。通过对比,本文方法获得的主题一致性指标(Coherence)优于目前常见的评论文本主题识别方法。 展开更多
关键词 sentence-BERT LDA模型 评论文本 主题识别
下载PDF
基于专利文本多粒度深层语义的技术演化路径智能识别方法研究 被引量:1
3
作者 唐晓波 吴佳琳 吴海婷 《情报理论与实践》 北大核心 2024年第1期136-144,共9页
[目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法... [目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法/过程]以深度学习、基于本体的相似度计算及谱聚类算法等大数据和人工智能技术为基础,实现准确、高效、全面的技术演化路径智能识别。构建领域词典和领域本体,根据领域词典抽取专利摘要中的领域术语,根据领域本体中不同术语的最近共同祖先节点的深度,从词语级别计算专利摘要间的语义相似度;利用Sentence-BERT对专利摘要进行向量化表示,计算句子层面的语义相似度;结合两种相似度的计算结果构建相似度矩阵并进行谱聚类,根据谱聚类结果和专利时序特征识别技术演化路径。最后以光刻领域专利数据为例进行实证研究。[结果/结论]实验结果表明,谱聚类得到的技术类别划分结果的准确率、精确率、召回率和F1值的平均值均达到了85%以上,说明文章提出的基于专利文本多粒度深层语义的技术演化路径智能识别方法是有效的,其有助于科研人员、企业决策者和政府决策者探究技术发展历程,研判技术创新方向,推动关键技术研发。 展开更多
关键词 技术演化路径识别 领域本体 sentence-BERT 谱聚类 文本挖掘
下载PDF
基于长短期记忆网络的英语标题自动生成
4
作者 千颖利 《自动化技术与应用》 2024年第4期71-73,共3页
为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byt... 为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byte Cup 2018数据集对本文提出的英语标题自动生成算法进行实验,并通过过ROUGE-N指标对标题生成质量加以评价。实验研究发现,所提出的句子级LSTM编码方案在英文文本标题生成准确性方面相比于其他常规摘要生成模型来说具有显著优势。 展开更多
关键词 长短期记忆网络 英语文本 标题自动生成 句子级LSTM编码
下载PDF
基于加权TextRank的中文自动文本摘要 被引量:20
5
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
基于BERT字句向量与差异注意力的短文本语义匹配策略
6
作者 王钦晨 段利国 +2 位作者 王君山 张昊妍 郜浩 《计算机工程与科学》 CSCD 北大核心 2024年第7期1321-1330,共10页
短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问... 短文本语义匹配是自然语言处理领域中的一个核心问题,可广泛应用于自动问答、搜索引擎等领域。过去的工作大多只考虑文本之间的相似部分,忽略了文本之间的差异部分,从而使模型无法充分利用到决定文本之间是否匹配的关键信息。针对上述问题,提出一种基于BERT字句向量与差异注意力的短文本语义匹配策略,利用BERT对句子对进行向量化表示,使用BiLSTM并引入多头差异注意力机制获取当前字向量与文本全局语义信息之间表征意图差异的注意力权重,结合一维卷积神经网络对句子对的语义特征向量进行降维,最后拼接字句向量并送入全连接层计算出2个句子之间的语义匹配度。通过在LCQMC和BQ Corpus数据集上的实验表明,该策略可以有效提取文本语义差异信息,从而使模型表现出更好的效果。 展开更多
关键词 短文本语义匹配 字句向量 表征意图 差异注意
下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
7
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 Video description video to text video caption sentence reconstruction
下载PDF
基于词向量融合的建筑文本分类方法研究
8
作者 胡少云 翁清雄 《微型电脑应用》 2024年第2期18-20,25,共4页
由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达... 由于建筑领域问题包含复杂多样的领域专有术语,常见的文本分类算法在建筑领域问题分类上难度较大。为提高建筑领域问题的分类性能,提出一种基于融合RoBERTa和Word2Vec的建筑文本分类算法。实验结果表明:在建筑领域问题数据集上,准确率达到91.59%,分类性能较好;在通用数据集上,准确率均高于SVM、CNN等模型。 展开更多
关键词 文本分类 预训练语言模型 句向量 深度学习 问答系统
下载PDF
读《文字墨影》墓志录文札记
9
作者 李佳蔚 何山 《平顶山学院学报》 2024年第3期45-50,共6页
中国文字博物馆收藏有一批珍贵墓志拓片,《文字墨影》选释其中110种,部分为首次刊布,其文献、史料、语料等价值非常突出。该书释读水平整体较高,但受残泐、讹俗、用典等因素影响,文字缺录、误录问题仍较严重,极不利于材料的科学有效利... 中国文字博物馆收藏有一批珍贵墓志拓片,《文字墨影》选释其中110种,部分为首次刊布,其文献、史料、语料等价值非常突出。该书释读水平整体较高,但受残泐、讹俗、用典等因素影响,文字缺录、误录问题仍较严重,极不利于材料的科学有效利用。对照墓志拓片,选取该书典型缺、误文字案例,分形近字、涉典字、疑难字及残泐字四类进行考辨补正,以还原文献原貌,从而为碑刻文献释读整理提供参考,为汉语汉字研究提供可靠实证支撑。 展开更多
关键词 《文字墨影》墓志录文 缺误文字 分类补正 汉语汉字史研究
下载PDF
Linguistic Context in Translation
10
作者 党群英 《科技信息》 2010年第35期J0273-J0273,J0434,共2页
From the view of language itself rather than the factors that affect language,the author illuminates how linguistic context plays its role in translation.In the process of translation,words and phrases may have more t... From the view of language itself rather than the factors that affect language,the author illuminates how linguistic context plays its role in translation.In the process of translation,words and phrases may have more than one meaning,which need translators to fix the appropriate one the discourse demands.Without sentence group,sentences can be ambiguous too.Paragraphs and texts have structures which words and sentences do not.Translators need to choose proper words to express the meaning properly. 展开更多
关键词 英语学习 学习方法 英语翻译 阅读
下载PDF
基于改进TextRank的藏文抽取式摘要生成 被引量:9
11
作者 李维 闫晓东 解晓庆 《中文信息学报》 CSCD 北大核心 2020年第9期36-43,共8页
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向... 目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
下载PDF
基于改进TextRank的文本摘要自动提取 被引量:12
12
作者 汪旭祥 韩斌 +1 位作者 高瑞 陈鹏 《计算机应用与软件》 北大核心 2021年第6期155-160,共6页
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似... TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息。对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank)。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要。实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好。 展开更多
关键词 文本摘要 SW-textRank算法 词向量 相似度 句子权重
下载PDF
基于Sentence-LDA主题模型的短文本分类 被引量:4
13
作者 张浩 钟敏 《计算机与现代化》 2019年第3期102-106,共5页
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet... 短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。 展开更多
关键词 短文本分类 sentence-LDA 主题模型 特征扩展 SVM
下载PDF
基于TextRank算法的联合打分文本摘要生成 被引量:9
14
作者 朱玉佳 祝永志 董兆安 《通信技术》 2021年第2期323-326,共4页
自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文... 自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文摘生成,因其简洁有效而得到广泛应用。本文在TextRank算法的基础上提出一个无监督抽取式联合打分模型。一方面,结合词频逆句频余弦相似度与词向量余弦相似度共同计算句子得分;另一方面,采用最大边缘相关度算法(Maximal Marginal Relevance,MMR)将抽取得到的摘要去除冗余。实验表明,改进后的方法生成的摘要具有更高的质量,尤其具有更好的梗概性和多样性。 展开更多
关键词 文本摘要生成 textRank 词频逆句频余弦相似度 最大边缘相关度 词向量
下载PDF
Construction of an Automatic Bengali Text Summarizer Using Machine Learning Approaches
15
作者 Busrat Jahan Mahfuja Khatun +2 位作者 Zinat Ara Zabu Afranul Hoque Sayed Uddin Rayhan 《Journal of Data Analysis and Information Processing》 2022年第1期43-57,共15页
In our study, we chose python as the programming platform for finding an Automatic Bengali Document Summarizer. English has sufficient tools to process and receive summarized records. However, there is no specifically... In our study, we chose python as the programming platform for finding an Automatic Bengali Document Summarizer. English has sufficient tools to process and receive summarized records. However, there is no specifically applicable to Bengali since Bengali has a lot of ambiguity, it differs from English in terms of grammar. Afterward, this language holds an important place because this language is spoken by 26 core people all over the world. As a result, it has taken a new method to summarize Bengali documents. The proposed system has been designed by using the following stages: pre-processing the sample doc/input doc, word tagging, pronoun replacement, sentence ranking, as well as summary. Pronoun replacement has been used to reduce the incidence of swinging pronouns in the performance review. We ranked sentences based on sentence frequency, numerical figures, and pronoun replacement. Checking the similarity between two sentences in order to exclude one since it has less duplication. Hereby, we’ve taken 3000 data as input from newspaper and book documents and learned the words to be appropriate with syntax. In addition, to evaluate the performance of the designed summarizer, the design system looked at the different documents. According to the assessment method, the recall, precision, and F-score were 0.70, 0.82 and 0.74, respectively, representing 70%, 82% and 74% recall, precision, and F-score. It has been found that the proper pronoun replacement was 72%. 展开更多
关键词 Natural Language Processing Formatting Bangla text Summarizer Bengali Language Processing Word Tagging Pronoun Replacement sentence Ranking
下载PDF
基于密度Canopy的评论文本主题识别方法 被引量:1
16
作者 刘滨 詹世源 +7 位作者 刘宇 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉 《河北科技大学学报》 CAS 北大核心 2023年第5期493-501,共9页
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进... 融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。 展开更多
关键词 自然语言处理 主题识别 评论文本 sentence-BERT LDA
下载PDF
TALKING TIPS Text Review
17
作者 Malia Chen 《空中英语教室(初级版.大家说英语)》 2019年第4期46-47,共2页
Use this month's Use it! tips to complete each sentence?
关键词 TALKING TIPS text REVIEW complete EACH sentencE
下载PDF
基于Transformer和重要词识别的句子融合方法
18
作者 谭红叶 李飞艳 《计算机应用与软件》 北大核心 2023年第7期145-150,共6页
句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于Transformer和重要词识别的方法来缓解... 句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于Transformer和重要词识别的方法来缓解上述问题。该方法包括两个模块,(1)重要词识别模块:利用序列标注模型识别原句重要词;(2)句子融合模块:将重要词与原句输入到Transformer框架并利用BERT进行语义表示,然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于NLPCC2017摘要任务集构建句子融合数据集,并进行相关实验,结果表明所提方法的性能明显优于基线系统。 展开更多
关键词 句子融合 重要词 TRANSFORMER 文本生成
下载PDF
基于自然语言处理的文本自动校对系统及实验结果分析 被引量:1
19
作者 王燕凤 《科学技术创新》 2023年第5期109-112,共4页
设计了一种可以用于字词查错、语法查错、语义查错的文本自动校对系统。通过构建语料库,利用二元接续关系实现字词查错;基于规则库和语法成分算法,完成语法查错;根据依存关系和句子相似度计算,实现了语义查错。从实验结果来看,本研究设... 设计了一种可以用于字词查错、语法查错、语义查错的文本自动校对系统。通过构建语料库,利用二元接续关系实现字词查错;基于规则库和语法成分算法,完成语法查错;根据依存关系和句子相似度计算,实现了语义查错。从实验结果来看,本研究设计的文本自动校对系统对错误句子的查准率在70%以上,能够快速、准确地找出文本中存在的错误,具有良好的应用前景。 展开更多
关键词 文本自动校对系统 句子相似度计算 规则库
下载PDF
一种基于孪生网络预训练语言模型的文本匹配方法研究 被引量:1
20
作者 卢美情 申妍燕 《集成技术》 2023年第2期53-63,共11页
孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示... 孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的SBERT改进模型。该模型首先获取经SBERT预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的token再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在ATEC 2018 NLP数据集及CCKS 2018微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的5种文本相似度匹配模型ESIM、ConSERT、BERT-whitening、SimCSE以及baseline模型SBERT相比,本文模型在F1评价指标上分别达到了84.7%和90.4%,比Baseline分别提高了18.6%和8.7%,在准确率以及召回率方面也表现出了较好的效果,且具备一定的鲁棒性。 展开更多
关键词 文本匹配 sentence-BERT 多头注意力对齐机制
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部