期刊文献+
共找到783篇文章
< 1 2 40 >
每页显示 20 50 100
基于融合矩阵的文本相似度计算实现检索结果聚类 被引量:1
1
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似
下载PDF
文本相似度计算方法综述 被引量:1
2
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似 字符串 词向量 预训练模型 学习
下载PDF
基于RBBLA混合模型的文本相似度计算方法
3
作者 任喜伟 杜丰怡 +2 位作者 向启怀 李兆允 赵杉 《陕西科技大学学报》 北大核心 2024年第4期184-190,198,共8页
文本相似度计算是两个或多个文本之间相似程度的度量,它被广泛用于多个场景.针对现有研究存在的缺乏上下文交互特征捕获、语义结构信息表示不足等问题,提出一种基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度计算方法,该模... 文本相似度计算是两个或多个文本之间相似程度的度量,它被广泛用于多个场景.针对现有研究存在的缺乏上下文交互特征捕获、语义结构信息表示不足等问题,提出一种基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度计算方法,该模型基于RoBERTa模型预训练,获得词语的向量化表示,并提取句子中的语义特征;接着使用双向长短期记忆网络及注意力机制提取上下文依赖关系;最后将两句子的文本特征经聚合操作后由Softmax函数处理得到相似度评分结果.将RBBLA模型与RoBERTa等基准模型在LCQMC数据集上进行对比实验,结果表明,与最优模型相比,RBBLA模型在准确率、精确率等指标上分别提升了2.9、2.1个百分点. 展开更多
关键词 文本相似 RoBERTa 双向长短期记忆网络(BiLSTM) 注意力机制
下载PDF
基于Roberta的中文短文本语义相似度计算研究
4
作者 张小艳 李薇 《计算机应用与软件》 北大核心 2024年第8期275-281,366,共8页
针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力... 针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力机制捕获文本内部不同字之间的关联;通过池化策略获取文本对的句向量进而将表示结果交互并融合;在全连接层计算损失值,评价文本对的语义相似度。将此模型在两类任务下的三种数据集上进行实验,其结果相比于其他模型有所提升,为进一步优化文本语义相似度计算的准确率提供有效依据。 展开更多
关键词 孪生神经网络 Roberta 自注意力机制 中文短文本 语义相似计算
下载PDF
基于交互式特征与多尺度特征的文本相似度研究
5
作者 尹春勇 沈子宁 《计算机技术与发展》 2024年第8期86-92,共7页
针对文本相似度分析过程中缺乏信息传递和忽略多元语义信息而导致相似度计算结果准确率低的问题,结合双向长短期记忆网络(BiLSTM),提出一种新颖的交互式特征与多尺度特征的文本相似度模型(IF-MSF)。首先,利用BiLSTM对句子进行编码提取... 针对文本相似度分析过程中缺乏信息传递和忽略多元语义信息而导致相似度计算结果准确率低的问题,结合双向长短期记忆网络(BiLSTM),提出一种新颖的交互式特征与多尺度特征的文本相似度模型(IF-MSF)。首先,利用BiLSTM对句子进行编码提取全局特征矩阵,分别用软注意力机制和余弦相似度对特征矩阵进行交互,以相互传递两组特征矩阵内部的语义信息。其次,加权两组交互式特征以综合所有交互信息,并利用BiLSTM对加权交互式特征和初始编码特征再编码以捕获特征之间的差异信息。再次,使用多尺度卷积提取差异信息的多元语义特征并结合通道注意力机制增强重要特征信息。最后,融合两组增强特征判断文本对是否相似。实验选取2个数据集来验证该方法,该模型F1值分别取得最高值88.15%和85.03%,优于其他方法。 展开更多
关键词 文本相似 双向长短期记忆 交互式特征 多尺特征 通道注意力
下载PDF
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:222
6
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本聚类 词项语义相似 文本相似 自然语言处理
下载PDF
基于改进的TF-IDF方法的文本相似度算法研究 被引量:11
7
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似算法 tf-idf方法 词语关联 马尔可夫模型 文本分类
下载PDF
MD&A纵向文本相似度与分析师盈余预测准确性 被引量:4
8
作者 刘一寒 范慧敏 任晨煜 《北京工商大学学报(社会科学版)》 CSSCI 北大核心 2024年第2期71-84,共14页
注册制下,信息的真实、准确、完整是投资者合理判断证券价值的关键,分析师在信息作用于股价这一过程中扮演着重要的信息中介角色,而年报所披露的信息对分析师盈余预测至关重要。以2012—2021年沪深A股上市公司为样本,探究了管理层讨论... 注册制下,信息的真实、准确、完整是投资者合理判断证券价值的关键,分析师在信息作用于股价这一过程中扮演着重要的信息中介角色,而年报所披露的信息对分析师盈余预测至关重要。以2012—2021年沪深A股上市公司为样本,探究了管理层讨论与分析(MD&A)纵向文本相似度对分析师盈余预测准确性的影响。研究发现,MD&A纵向文本相似度越高,分析师盈余预测准确性越低,证实了“增量信息”假说。异质性分析表明,这种影响显著存在于规模小、高科技行业、媒体关注度低的公司中,并且公司位于市场化程度低省份时受此影响更大。进一步研究发现,MD&A纵向文本相似度越高,分析师盈余预测的正向偏差越大。此外,分析师盈余预测准确性的下降会进一步降低资本市场的信息效率。因此,上市公司应重视文本信息披露,避免披露内容样板化;分析师和监管部门应加强对上市公司文本信息披露的监督,优化资本市场信息环境。 展开更多
关键词 管理层讨论与分析 纵向文本相似 分析师盈余预测 增量信息 资本市场信息效率
下载PDF
信息环境、上市公司增量信息披露与资本市场定价效率——基于MD&A文本相似度的研究 被引量:2
9
作者 宋昕倍 陈莹 +1 位作者 逯东 程杰 《南开管理评论》 CSSCI 北大核心 2024年第5期30-39,共10页
本文基于2007—2020年中国沪深两市A股上市公司的样本,采用文本分析方法,以当期年报中管理层讨论与分析(MD&A)文本与上一期MD&A文本的相似度衡量上市公司增量信息披露水平,深入考察了上市公司增量信息披露与资本市场定价效率的... 本文基于2007—2020年中国沪深两市A股上市公司的样本,采用文本分析方法,以当期年报中管理层讨论与分析(MD&A)文本与上一期MD&A文本的相似度衡量上市公司增量信息披露水平,深入考察了上市公司增量信息披露与资本市场定价效率的关系。研究发现,公司披露的MD&A文本相似度越高,即增量信息披露越少,公司的股价同步性越高,股价崩盘风险也越大。进一步研究发现,当公司披露的MD&A可读性较低、新媒体运用较少、审计质量较低、媒体报道较少,即内外部信息环境较差时,MD&A文本相似度提高公司股价同步性与股价崩盘风险的作用加剧。本文的研究对如何提高上市公司信息披露水平,改善信息环境,进而促进资本市场的良好运行提供了新的经验证据。 展开更多
关键词 信息环境 文本相似 股价同步性 股价崩盘风险
下载PDF
结合混合特征提取与深度学习的长文本语义相似度计算
10
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 文本语义相似 特征提取 BERT预训练模型 语义空间
下载PDF
基于中文文本相似度评估的情感勒索话语检测系统
11
作者 林文晟 杨观赐 钟世昊 《计算机应用研究》 CSCD 北大核心 2024年第10期3073-3080,共8页
情感勒索是通过情感压力迫使周围人听从自己要求的交流方式,容易导致对方的负面情绪甚至心理问题从而影响交流效果。为了检测日常交流场景下的情感勒索话语进而改善交流效果,开发了基于中文文本相似度评估的情感勒索话语检测系统。首先... 情感勒索是通过情感压力迫使周围人听从自己要求的交流方式,容易导致对方的负面情绪甚至心理问题从而影响交流效果。为了检测日常交流场景下的情感勒索话语进而改善交流效果,开发了基于中文文本相似度评估的情感勒索话语检测系统。首先,基于Susan Forward的情感勒索理论标注收集到的数据,构建情感勒索语料库和测试集;其次,分析情感勒索的表达方式,分别基于词性和语义词设计文本相似度评估方法,进而形成基于中文文本相似度评估的情感勒索话语检测算法;然后,在构建的数据集上开展实验,该算法获得的平均recall与F 1-score分别为95.21%和79.95%,优于对比算法;最后,基于该算法开发情感勒索话语检测原型系统,系统在不同测试条件下的平均recall为87.24%,展现出良好的鲁棒性和检测性能。 展开更多
关键词 智能系统 情感勒索话语检测 文本表达方式 相似评估
下载PDF
深度学习中文本相似度计算研究综述
12
作者 徐传丽 周世杰 吴春江 《计算机应用与软件》 北大核心 2024年第11期1-14,共14页
文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任... 文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任务,因此针对每一模块,梳理文本相似度计算相关技术与理论基础,总结其在短文本中的具体应用及改进;整理文本相似度计算领域的常用数据集及评价指标;讨论文本相似度计算未来可能的发展方向。 展开更多
关键词 文本表示 文本相似 文本 自然语言处理 神经网络
下载PDF
基于文本Embedding和相似度计算的FA范围准确性校核方法研究
13
作者 赵成睿 李斌 +2 位作者 李洪全 张照芳 蒋熙蕴 《自动化应用》 2024年第20期15-17,21,共4页
在现代电力系统核心运营中,馈线自动化扮演着提高供电可靠性和服务质量的核心角色。针对FA系统故障定位的精确性挑战,提出了一种基于文本向量化和相似度技术的创新校核方法。与传统手动校核流程相比,该方法显著提升了故障诊断的准确度... 在现代电力系统核心运营中,馈线自动化扮演着提高供电可靠性和服务质量的核心角色。针对FA系统故障定位的精确性挑战,提出了一种基于文本向量化和相似度技术的创新校核方法。与传统手动校核流程相比,该方法显著提升了故障诊断的准确度和操作效率。此项研究为电力系统故障响应与维护流程提供了一种高效、可靠的技术解决方案,对确保电网运行的稳定性和安全性具有极为重要的意义。 展开更多
关键词 馈线自动化 故障分析 准确性校核 大型语言模型 文本向量化 相似计算
下载PDF
基于分层深度语义的科研项目文本相似度度量方法 被引量:1
14
作者 杨政 方正云 +1 位作者 李天骄 李丽敏 《计算机与数字工程》 2024年第3期795-801,851,共8页
科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训... 科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训练模型RoBERTa-WWM提取语句的语义特征,提出Whitening的标准化方法,并建立项目文本的分层深度语义相似度度量方法。我们提出的项目文本分层语义相似度包含三层:语句之间的相似度,章节之间的相似度,以及项目文本之间的相似度。论文在蚂蚁金融语义相似度AFQMC数据集和电力行业科研项目文本上进行了对比实验,验证了该基于分层深度语义的相似度度量方法明显优于基于字符串距离和TF-IDF的相似度度量方法。 展开更多
关键词 文本相似 自然语言处理 科研项目查重
下载PDF
基于关键词聚类的新闻文本相似度计算 被引量:1
15
作者 祝婷 胡建成 《成都信息工程大学学报》 2024年第2期163-169,共7页
针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关... 针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关键词,基于聚类的方法光滑噪声数据。聚类形成簇后,在簇间词语相似度计算上,使用word2vec融合TF-IDF词语加权的计算方法,同时关注词语间的语义信息和词语频率。最后,基于各簇的相似度计算两篇文本的相似度。实验表明,所提新闻文本相似度计算方法在计算效果上优于传统计算方法。 展开更多
关键词 新闻文本相似 word2vec tf-idf 关键词聚类
下载PDF
基于TF-IDF和余弦相似度的文本分类方法 被引量:98
16
作者 武永亮 赵书良 +2 位作者 李长镜 魏娜娣 王子晏 《中文信息学报》 CSCD 北大核心 2017年第5期138-145,共8页
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习... 文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 展开更多
关键词 文本分类 大数据 tf-idf 余弦相似 类别关键词
下载PDF
基于文本相似度和共词网络的情报差异性分析
17
作者 孙涛 《电脑知识与技术》 2024年第24期54-56,共3页
交叉印证和差异性分析是情报分析的重要手段,将相似情报数据归集后开展差异性分析能够辅助情报分析人员快速了解大量情报的数据分布、分析重点和分析路径,提高情报分析的效率和质量。文章针对情报关联分析过程,提出一种情报差异性分析... 交叉印证和差异性分析是情报分析的重要手段,将相似情报数据归集后开展差异性分析能够辅助情报分析人员快速了解大量情报的数据分布、分析重点和分析路径,提高情报分析的效率和质量。文章针对情报关联分析过程,提出一种情报差异性分析方法。该方法通过文本相似度构建批量情报数据的关联关系;通过逆词频抽取情报的关键词,构建共词网络;根据关键词的语义差异性定量计算情报的差异性。最后,文章基于环球网时政新闻数据验证了该方法的分析流程,实验证明该方法是一种准确、高效、可信的情报分析方法。 展开更多
关键词 情报分析 差异分析 文本相似 共词网络
下载PDF
新审计报告特质信息披露的决策有用性研究--基于文本相似度视角
18
作者 宋婕 邳宇晨 赵慧 《中央财经大学学报》 CSSCI 北大核心 2024年第6期89-101,共13页
如何提升审计报告沟通价值对增强我国资本市场效率至关重要。本文基于关键审计事项(CAM)披露的文本相似度视角,考察新审计报告中蕴含的特质信息披露是否具有决策有用性。以2017—2020年A股上市公司为样本,研究发现:与同期同行业其他公司... 如何提升审计报告沟通价值对增强我国资本市场效率至关重要。本文基于关键审计事项(CAM)披露的文本相似度视角,考察新审计报告中蕴含的特质信息披露是否具有决策有用性。以2017—2020年A股上市公司为样本,研究发现:与同期同行业其他公司CAM披露的横向文本相似度越小,公司新审计报告特质信息披露的信息含量越大,表现为事件窗口内的累计超额回报越高。并且,这些特质信息披露的决策有用性主要来自CAM事项描述段,而非审计应对段。进一步研究发现,新审计报告特质信息披露的决策有用性主要存在于公司信息环境较差、审计师具有行业专长,以及公司有着更多专业投资者时。研究表明,新审计报告特质信息披露在我国资本市场具有决策有用性,为当前审计报告模式改革提供经验支撑与参考借鉴。 展开更多
关键词 新审计报告 关键审计事项披露 决策有用性 文本相似
下载PDF
融合词性、语义及词序因子的中文短文本相似度计算方法
19
作者 祖月芳 凌海风 +2 位作者 汤润之 翟仕奇 王涛 《计算机与数字工程》 2024年第8期2420-2424,2468,共6页
论文针对中文短文本特性,综合考虑词性、词序和语义等因素提出了一种新的文本相似度计算方法[1]。这种方法是在余弦相似度的基础上计算中文短文本的语义相似度,并通过加权词性、词序权重优化相似度计算结果。实验证明,论文的方法与其他... 论文针对中文短文本特性,综合考虑词性、词序和语义等因素提出了一种新的文本相似度计算方法[1]。这种方法是在余弦相似度的基础上计算中文短文本的语义相似度,并通过加权词性、词序权重优化相似度计算结果。实验证明,论文的方法与其他方法相比,准确率和召回率有了显著提高,获得的相似度结果更具说服力。 展开更多
关键词 中文短文本相似 词性 词序 语义
下载PDF
语义相似度与BERT模型融合的多标签文本自适应分类方法
20
作者 张红 《微型电脑应用》 2024年第3期49-52,共4页
针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之... 针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之间相似度,再引入BERT模型搭建多标签文本自适应分类框架,通过对抗训练获取模型最佳参数,将待分类文本输入至训练好文本分类BERT模型中,即可实现多标签文本的自适应分类。实验数据显示应用提出方法获得F 1参量大于给定最小限值,汉明损失参量HL小于给定最大限值,充分证实了提出方法文本分类效果较佳。 展开更多
关键词 BERT模型 多标签 语义相似 文本分类
下载PDF
上一页 1 2 40 下一页 到第
使用帮助 返回顶部