期刊文献+
共找到311篇文章
< 1 2 16 >
每页显示 20 50 100
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究 被引量:1
1
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSSCI CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-textRCNN
下载PDF
基于DAN与FastText的藏文短文本分类研究
2
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
多视图融合DJ-TextRCNN的古籍文本主题推荐研究 被引量:1
3
作者 武帅 杨秀璋 何琳 《情报学报》 CSSCI CSCD 北大核心 2024年第1期61-75,共15页
传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需... 传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT(bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN(DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准主题推荐,对中华文化深层次、细粒度的语义挖掘具有一定的指导意义。 展开更多
关键词 数字人文 古籍文本 主题推荐 多视图融合 DJ-textRCNN
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类 被引量:1
4
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
改进FCENet的自然场景文本检测算法
5
作者 周燕 廖俊玮 +2 位作者 刘翔宇 周月霞 曾凡智 《计算机工程与应用》 CSCD 北大核心 2024年第3期228-236,共9页
针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模... 针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模块。多尺度残差特征增强模块作为骨干网络顶层的残差分支,增强了特征金字塔结构自上而下的高层语义信息流动,提高了文本像素分类能力,有效减少误检现象。多尺度注意力特征融合模块使不同语义和尺度的特征能够更好地融合,结合自底向上的特征融合网络,有效避免文本过度分割并提高了弯曲文本的检测能力。实验结果表明,该方法在弯曲文本数据集CTW1500和Total-Text上的综合指标F值分别达到了86.2%和86.5%,相比原算法FCENet分别提升了1.1和0.7个百分点。 展开更多
关键词 自然场景文本检测 特征融合 特征增强 注意力机制 FCENet
下载PDF
基于Elmo和注意力机制的双通道文本分类模型
6
作者 陈小莹 艾金勇 《计算机仿真》 2024年第10期507-512,523,共7页
针对中文文本分类过程中文本特征提取不全面、语义表征不准确的问题,提出一种基于改进Elmo模型、带有注意力机制的卷积神经网络与门控循环网络相结合的双通道文本分类模型。模型首先将静态词向量输入Elmo模型生成动态词向量对文本进行表... 针对中文文本分类过程中文本特征提取不全面、语义表征不准确的问题,提出一种基于改进Elmo模型、带有注意力机制的卷积神经网络与门控循环网络相结合的双通道文本分类模型。模型首先将静态词向量输入Elmo模型生成动态词向量对文本进行表示;然后利用双通道结构构建加入注意力机制的卷积神经网络和双向门控循环网络分别提取文本内部特征和全局语义信息;最后,将双通道特征向量融合处理后通过分类器完成文本分类。依托THUCNews数据集进行模型的仿真,所提模型分类准确率和召回率分别为90.21%、90.45%,实验结果表明,与其它分类模型相比,所提模型具有更好的分类性能。 展开更多
关键词 文本分类 特征融合 注意力机制 双通道
下载PDF
融合概率类别特征增强的短文本分类
7
作者 廖列法 李奎 姚秀 《计算机工程与设计》 北大核心 2024年第7期2074-2081,共8页
对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的... 对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。 展开更多
关键词 类别特征增强 短文本 双池化 特征融合 统计算法 快速分类 深度学习
下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:1
8
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(textCNN) 双向长短期记忆(BiLSTM)
下载PDF
一种基于特征增强的场景文本检测算法
9
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
下载PDF
基于多特征融合过滤的对话文本摘要生成研究
10
作者 金彦亮 臧庆福 +2 位作者 高塬 冯湫燕 高至锋 《工业控制计算机》 2024年第3期36-38,共3页
原始对话中存在的较多无用信息会干扰模型对重要信息的关注。为此,提出一种基于多特征融合过滤的对话摘要模型,通过自适应地融合多种语义特征来过滤无用信息,实现更加准确的摘要生成。在对话摘要数据集CSDS上的实验结果表明,与先进的BAR... 原始对话中存在的较多无用信息会干扰模型对重要信息的关注。为此,提出一种基于多特征融合过滤的对话摘要模型,通过自适应地融合多种语义特征来过滤无用信息,实现更加准确的摘要生成。在对话摘要数据集CSDS上的实验结果表明,与先进的BART、MV-BART和BART(DALL)等模型相比,该方法在ROUGE分数上最高可提升2.89%。 展开更多
关键词 对话摘要 文本摘要 多特征融合 BART
下载PDF
RM-RT^(2)NI:融合评论时效与可信近邻影响力的推荐模型
11
作者 韩志耕 周婷 +2 位作者 陈耿 付纯硕 陈健 《计算机科学》 CSCD 北大核心 2024年第S01期700-706,共7页
基于矩阵分解的推荐模型虽然能够处理高维评分数据,但容易遭受评分数据稀疏性的困扰。基于评分和评论的推荐模型通过外加隐藏在评论中的用户偏好与物品属性信息,缓解了评分数据的稀疏性,但在特征提取时大多没有关注评论时效性和可信近... 基于矩阵分解的推荐模型虽然能够处理高维评分数据,但容易遭受评分数据稀疏性的困扰。基于评分和评论的推荐模型通过外加隐藏在评论中的用户偏好与物品属性信息,缓解了评分数据的稀疏性,但在特征提取时大多没有关注评论时效性和可信近邻影响力,无法获得更丰富的用户和物品特征。为进一步提高推荐精度,提出了融合评论时效与可信近邻影响力的推荐模型RM-RT^(2)NI。基于评分矩阵,该模型使用矩阵分解提取了用户偏好和物品属性的浅层特征,利用云模型和修正的用户相似度评估模型和新构建的信度评估模型提取出可信近邻影响力;基于评论文本,该模型利用BERT模型获得每条评论的隐表达,利用双向GRU提取评论间的联系,利用新构建的融合时间因子的注意力机制识别各评论的时效贡献度,以获取用户和物品的深层特征。在此基础上,将用户浅层特征、深层特征以及可信近邻影响力特征融合成用户特征,将物品浅层特征和深层特征融合成物品特征,并将它们输入全连接神经网络以预测用户-物品评分。在5组公开数据集上对RM-RM-RT^(2)NI的推荐性能进行了实验评估,结果显示,与7个基线模型相比,RM-RT^(2)NI具有更高的评分预测精度,且RMSE平均降低了3.0657%。 展开更多
关键词 推荐模型 评分矩阵 评论文本 评论时效 可信近邻影响力 多特征融合
下载PDF
一种融合文本与知识图谱的问答系统模型
12
作者 张佳豪 黄勃 +2 位作者 王晨明 曾国辉 刘瑾 《重庆大学学报》 CAS CSCD 北大核心 2024年第8期55-64,共10页
知识图谱是实现开放领域问答的关键技术之一,开放领域问答任务往往需要足够多的知识信息,而知识图谱的不完备性成为制约问答系统性能的重要因素。利用外部非结构化的文本与基于知识图谱的结构化知识相结合填补缺失信息时,检索外部文本... 知识图谱是实现开放领域问答的关键技术之一,开放领域问答任务往往需要足够多的知识信息,而知识图谱的不完备性成为制约问答系统性能的重要因素。利用外部非结构化的文本与基于知识图谱的结构化知识相结合填补缺失信息时,检索外部文本的准确性和效率尤为关键,选取与问题相关度较高的文本可提升系统性能。相反,选取与问题相关性较弱的文本将引入知识噪声,降低问答任务的准确性。因此,设计了一种融合文本与知识图谱的问答系统模型,其中的文本检索器可充分挖掘问题和文本的语义信息,提高检索质量和查询子图的准确性;知识融合器将文本和知识库中的知识结合构建知识的融合表征。实验结果表明,相较对比模型,该模型在性能上存在一定优势。 展开更多
关键词 问答系统 知识图谱 外部知识 文本检索 融合表征
下载PDF
基于链接关系预测的弯曲密集型商品文本检测
13
作者 耿磊 李嘉琛 +2 位作者 刘彦北 李月龙 李晓捷 《天津工业大学学报》 CAS 北大核心 2024年第4期50-59,74,共11页
针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷... 针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷积神经网络和自注意力并行的双分支结构提取局部和全局特征,并加入空洞特征增强模块(DFM)减少深层特征图在降维过程中信息的丢失;上采样采用特征金字塔与多级注意力融合模块(MAFM)相结合的方式进行多级特征融合以增强文本特征间的潜在联系,通过文本检测器从上采样输出的特征图中检测文本组件;在链接关系预测网络中,采用基于图卷积网络的关系推理框架预测文本组件间的深层相似度,采用双向长短时记忆网络将文本组件聚合为文本实例。为验证RRNet的检测性能,构建了一个由商品包装图片组成的文本检测数据集(text detection dataset composed of commodity packaging,CPTD1500)。实验结果表明:RPTNet不仅在公开文本数据集CTW-1500和Total-Text上取得了优异的性能,而且在CPTD1500数据集上的召回率和F值分别达到了85.4%和87.5%,均优于当前主流算法。 展开更多
关键词 文本检测 卷积神经网络 自注意力 特征融合 图卷积网络 双向长短时记忆网络
下载PDF
基于文本-图像增强的突发事件识别及分类方法研究 被引量:2
14
作者 周红磊 张海涛 +1 位作者 栾宇 苏欣宇 《情报理论与实践》 CSSCI 北大核心 2024年第4期181-188,共8页
[目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;... [目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;通过文本卷积神经网络、视觉几何群网络搭建深度神经网络共同组成Multi-DNN模型;最后以真实的自然灾害类突发事件数据进行实例验证。[结果/结论]通过文本、图像相互增强,多模态特征融合能够提升突发事件识别及分类的准确率,同时在小样本数据的任务处理中仍有良好效果,证明不同模态的数据能够相互补充、相互印证,对其融合处理能够提供比单一模态更为准确和全面的信息分析。 展开更多
关键词 文本—图像增强 多模态特征融合 突发事件 事件识别及分类 应急信息管理
下载PDF
融合“科学—技术—舆情”数据特征的技术筛选方法研究
15
作者 吕璐成 周健 +2 位作者 赵展一 赵亚娟 刘细文 《情报理论与实践》 CSSCI 北大核心 2024年第10期173-182,共10页
[目的/意义]利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文... [目的/意义]利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文献技术挖掘结果的筛选。[方法/过程]以技术术语表示技术,基于词法结构分析和修饰符匹配方法构建技术术语层次结构体系,利用表征技术基础研究热度的论文数据、表征技术研发热度的专利数据、表征技术市场关注度的舆情数据,构建重要性、成长性、新颖性和持久性4类特征,采用机器学习方法训练和确定技术筛选模型。[结果/结论]通过与人工筛选结果对比发现,本方法能够更有效地筛选技术。在各种模型中,同时采用3类数据和4类特征构建的技术筛选模型效果最优,该方法可以为开展技术识别预测工作,研发技术挖掘工具提供依据。[局限]该方法仅在技术术语层次结构的第一层进行了效果验证,其领域适用性与数据类型方面还有待进一步研究。 展开更多
关键词 技术筛选 技术挖掘 多源数据融合 文本挖掘 机器学习 技术识别与预测
下载PDF
融合图像信息的越汉跨语言新闻文本摘要方法
16
作者 吴奇远 余正涛 +2 位作者 黄于欣 谭凯文 张勇丙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期714-723,共10页
[目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损... [目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要.[结果]在本文构建的越汉多模态跨语言摘要数据集上,相较于对比方法,本方法生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度.[结论]引入图像信息有利于生成高质量的跨语言摘要;采用单任务直接学习两种语言的互动信息可以降低将跨语言摘要分解为多任务带来的误差累积. 展开更多
关键词 跨语言摘要 越汉跨语言新闻摘要 图文融合 图文对比损失
下载PDF
基于短文本扩展和特征融合的市民热线文本分类 被引量:1
17
作者 郭小磊 张吴波 《山西大同大学学报(自然科学版)》 2024年第1期42-47,62,共7页
针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Wor... 针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Word2Vec计算词语相似度,完成对短文本内容和词向量特征的扩展;最终通过融合BERT-TextCNN和BERT-BiGRU-Attention两个通道特征信息的BGTC模型实现了对扩展后文本的分类。经过多组对比实验,结果表明该方法在市民热线文本分类任务中具有更好的性能,准确率和F1值分别达到了85.6%和85.8%。 展开更多
关键词 市民热线 短文本扩展 文本分类 特征融合
下载PDF
基于知识融合和聚类引导的语言模型用于MOFs合成信息分类
18
作者 李海军 王卓 《现代电子技术》 北大核心 2024年第18期179-186,共8页
金属有机框架(MOFs)的合成实验步骤通常集中存储在科学文献某一段落内,从文献中提取实验步骤对推动新型金属有机框架的开发具有重要意义。现有研究存在两个问题:第一,将整篇文献视为普通文本,按句/段直接切分处理,忽略了上下文中隐藏的... 金属有机框架(MOFs)的合成实验步骤通常集中存储在科学文献某一段落内,从文献中提取实验步骤对推动新型金属有机框架的开发具有重要意义。现有研究存在两个问题:第一,将整篇文献视为普通文本,按句/段直接切分处理,忽略了上下文中隐藏的高级知识;第二,模型未深入挖掘数据内部的隐藏模式。针对上述问题,提出一个基于知识融合策略的高质量知识补充任务。利用科学文献编辑风格和结构化Web数据的微妙之处,将上下文关键知识汇集到段落中,进而优化其文本表征;然后提出一种基于聚类引导的自适应分类算法,采用聚类算法将文本表征划分为多个簇,同时训练不同的分类模型来适应不同的簇,从而有效地减少数据重叠的影响,提高模型召回率。实验结果表明,所提方法的性能相比主流基线模型有较大提升。 展开更多
关键词 金属有机框架 科学文献 知识融合 文本表征 聚类引导 自适应分类 数据重叠
下载PDF
融合文本分类算法的皮肤病辅助诊疗模型
19
作者 凌天 诸佳珍 +1 位作者 焦阳 李露芳 《中国医学物理学杂志》 CSCD 2024年第8期1046-1052,共7页
针对当前皮肤病辅助诊断中生物医学特征建模规模较小且耗费巨大人工成本,而患者疾病特征的时间序列同样无法准确描述等难点,本研究运用融合文本分类算法,融合常用的文本分类模型TextLSTM、TextCNN、RCNN得到皮肤疾病辅助诊疗模型(TLNN模... 针对当前皮肤病辅助诊断中生物医学特征建模规模较小且耗费巨大人工成本,而患者疾病特征的时间序列同样无法准确描述等难点,本研究运用融合文本分类算法,融合常用的文本分类模型TextLSTM、TextCNN、RCNN得到皮肤疾病辅助诊疗模型(TLNN模型),通过提取图像传感器医学特征向量化后进行预处理减少焦块数量以及消除偏差较大的特征信息,提高决策数据精度。在ISIC2018和PH2数据集进行对照实验,TLNN模型的准确率为72.36%,高于其余3种文本分类模型。在与医生主观诊断对比实验中,模型诊断准确率为92%,接近于医生94%的平均准确率,而有效诊断效率(1.17min/例)明显高于医生人工诊断(4.57min/例),整体效率提升幅度达290%,结果表明对比传统人工诊断,融合文本分类算法模型能以更短时间获得精确的诊断。TLNN模型可以应用于疾病诊断,辅助医生医疗决策,为患者提供优质便捷的智能诊疗服务。 展开更多
关键词 皮肤病 辅助诊断 融合文本分类算法 D-S证据理论 医学特征
下载PDF
聚类标注和多粒度特征融合的基金新闻分类
20
作者 胡菊香 吕学强 +1 位作者 游新冬 周建设 《小型微型计算机系统》 CSCD 北大核心 2024年第2期257-264,共8页
针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBS... 针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBSCAN的聚类结果进行加权计算并自动标注基金文本数据,辅以少量人工校对,为后续基金新闻分类提供数据支撑.多粒度特征融合的分类算法首先从词粒度出发构建停用词表、扩展词典;其次从句粒度出发抽取新闻摘要,捕捉更具有语义关联的文本信息;最后将多头注意力机制嵌入BERT模型,对关键特征赋予更高权重,以提高分类的准确性.本文从多个角度进行了充分地实验,该方法具有高效的处理能力和有效性,其分类精确率可达到95.21%,优于现有方法. 展开更多
关键词 多粒度 特征融合 文本分类 深度学习
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部