期刊文献+
共找到111篇文章
< 1 2 6 >
每页显示 20 50 100
Contrastive Study of Coherence in Chinese Text and English Text
1
作者 王婷 《科技视界》 2013年第29期226-226,245,共2页
The paper presents the text-linguistic concepts on which the analysis of textual structure is based including text and discourse,coherence and cohesive.In addition we try to discover different manifestations of text b... The paper presents the text-linguistic concepts on which the analysis of textual structure is based including text and discourse,coherence and cohesive.In addition we try to discover different manifestations of text between ET and CT,including different coherent structures. 展开更多
关键词 英语教学 教学方法 阅读教学 英语翻译
下载PDF
The Organizational Patterns of English and Chinese Texts:A Contrastive Study 被引量:1
2
作者 Liu Lijin, Foreign Languages Training CenterGuangdong University Of FOreign StudiesGuangzhou, P R. China 510421 《现代外语》 CSSCI 北大核心 1999年第4期408-409,共2页
Thispapercontrastivelystudies,basedonthetheoreticframeworkof'topicanalysis'byvanDijkandsomeothers,theunderlyingarrangementpatternsoftopicsofEnglishandChinesetexts.Theoverallobjectiveistoexaminethediscoursepatt... Thispapercontrastivelystudies,basedonthetheoreticframeworkof'topicanalysis'byvanDijkandsomeothers,theunderlyingarrangementpatternsoftopicsofEnglishandChinesetexts.TheoverallobjectiveistoexaminethediscoursepatternsofarepresentativesampleofEnglishandCh... 展开更多
关键词 text TOPIC ORGANIZATIONAL PATTERN contrastIVE study
下载PDF
An Automatic Text Region Positioning Method for the Low-Contrast Image
3
作者 Gongqin Liu Murong Jiang +2 位作者 Helin Cun Zhenzhong Shi Jianyu Hao 《Journal of Computer and Communications》 2017年第10期36-49,共14页
Text extraction is the key step in the character recognition;its accuracy highly relies on the location of the text region. In this paper, we propose a new method which can find the text location automatically to solv... Text extraction is the key step in the character recognition;its accuracy highly relies on the location of the text region. In this paper, we propose a new method which can find the text location automatically to solve some regional problems such as incomplete, false position or orientation deviation occurred in the low-contrast image text extraction. Firstly, we make some pre-processing for the original image, including color space transform, contrast-limited adaptive histogram equalization, Sobel edge detector, morphological method and eight neighborhood processing method (ENPM) etc., to provide some results to compare the different methods. Secondly, we use the connected component analysis (CCA) method to get several connected parts and non-connected parts, then use the morphology method and CCA again for the non-connected part to erode some noises, obtain another connected and non-connected parts. Thirdly, we compute the edge feature for all connected areas, combine Support Vector Machine (SVM) to classify the real text region, obtain the text location coordinates. Finally, we use the text region coordinate to extract the block including the text, then binarize, cluster and recognize all text information. At last, we calculate the precision rate and recall rate to evaluate the method for more than 200 images. The experiments show that the method we proposed is robust for low-contrast text images with the variations in font size and font color, different language, gloomy environment, etc. 展开更多
关键词 Low-contrast IMAGE text REGION POSITIONING CONNECTED Component Analysis SVM
下载PDF
以对比学习与时序递推提升摘要泛化性的方法
4
作者 汤文亮 陈帝佑 +2 位作者 桂玉杰 刘杰明 徐军亮 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第2期170-180,共11页
为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的... 为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的方式生成候选集,以候选摘要的评估分数选取正负样本,在输出的候选集中以“argmax-贪心搜索概率值”和“标签概率值”构建2组对比损失函数;另一方面,设计作用于候选集句内的时序递推函数引导模型在输出每个单独的候选摘要时确保时序准确性,并缓解曝光偏差问题。实验表明,所提方法在CNN/DailyMail和Xsum公共数据集上的泛化性得到提升,Rouge与BertScore在CNN/DailyMail上达到47.54和88.51,在Xsum上达到了48.75和92.61。 展开更多
关键词 自然语言处理 文本摘要 对比学习 模型微调
下载PDF
融合双向注意力和对比增强机制的多标签文本分类
5
作者 李建东 傅佳 李佳琦 《计算机工程与应用》 CSCD 北大核心 2024年第16期105-115,共11页
现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获... 现有多标签文本分类模型面对文本序列增长时语义信息缺失,预测特定标签时忽略已有实例中的丰富知识等问题不能很好地解决,由此提出一种融合双向注意力和对比增强机制的多标签文本分类模型。结合BERT词嵌入,利用CTransformer模型分别获取序列的全局依赖关系和局部结构信息;使用双向注意力和标签嵌入进一步生成最终文本表示和标签表示,将文本信息与标签信息进行交互,得到更为全面的综合语义信息;利用对比增强机制进行KNN实例检索,设计一个多标签对比学习目标,使模型意识到KNN分类过程,并提高推理过程中检索邻居实例的质量。分类器根据标签表示和文本表示进行文本分类。为了评估模型的性能,在三个公开英文数据集上进行测试,实验结果表明提出的模型在P@K和nDCG@K指标上均优于其他主流基线模型。 展开更多
关键词 多标签文本分类 注意力机制 对比增强机制 CTransformer模型 多标签对比学习
下载PDF
基于事件表示和对比学习的深度事件聚类方法 被引量:1
6
作者 蒋小霞 黄瑞章 +2 位作者 白瑞娜 任丽娜 陈艳平 《计算机应用》 CSCD 北大核心 2024年第6期1734-1742,共9页
针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义... 针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义的影响;其次,将事件的结构信息集成于自编码器中学习低维稠密的事件表示,并以此作为下游聚类划分的依据;最后,为有效建模事件之间的细微差异,在特征学习过程中加入多正例对比损失。在数据集DuEE、FewFC、Military和ACE2005上的实验结果表明,相较于其他深度聚类方法,所提方法在准确率和标准化互信息(NMI)评价指标上均表现更好;相较于次优的方法,DEC_ERCL的聚类准确率分别提升了17.85%、9.26%、7.36%和33.54%,表明了DEC_ERCL具有更好的事件聚类效果。 展开更多
关键词 深度聚类 文本聚类 事件表示 事件结构 对比学习
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
7
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
融合对比学习和BERT的层级多标签文本分类模型
8
作者 代林林 张超群 +2 位作者 汤卫东 刘成星 张龙昊 《计算机工程与设计》 北大核心 2024年第10期3111-3119,共9页
为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混... 为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混合标签信息的阳性样本。使用对比学习训练文本编码器的标签意识。实验结果表明,SampleHCT相较于19个基准模型,取得了更高的分类分数,验证了其具有更有效的标签信息建模方式。 展开更多
关键词 文本分类 对比学习 自注意力机制 层级结构 多标签 标签信息 全局特征
下载PDF
基于二阶段对比学习的中文自动文本摘要方法研究
9
作者 杨子健 郭卫斌 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期586-593,共8页
在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,... 在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,而这种不一致将导致训练模型和测试模型直接的差异。本文提出了一个两阶段对比学习框架以实现面向中文文本的生成式摘要训练,同时从摘要模型的训练以及摘要评价的建模进行对比学习。在大规模中文短文本摘要数据集(LCSTS)以及自然语言处理与中文计算会议的文本数据集(NLPCC)上的实验结果表明,相比于基线模型,本文方法可以获得更高的面向召回率的摘要评价方法(ROUGE)指标,并能更好地解决暴露偏差问题。 展开更多
关键词 中文自动文本摘要 对比学习 暴露偏差 预处理模型 ROUGE指标
下载PDF
融合图像信息的越汉跨语言新闻文本摘要方法
10
作者 吴奇远 余正涛 +2 位作者 黄于欣 谭凯文 张勇丙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期714-723,共10页
[目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损... [目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要.[结果]在本文构建的越汉多模态跨语言摘要数据集上,相较于对比方法,本方法生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度.[结论]引入图像信息有利于生成高质量的跨语言摘要;采用单任务直接学习两种语言的互动信息可以降低将跨语言摘要分解为多任务带来的误差累积. 展开更多
关键词 跨语言摘要 越汉跨语言新闻摘要 图文融合 图文对比损失
下载PDF
基于标签概念的多标签文本分类方法 被引量:1
11
作者 汪乐乐 张贤坤 《天津科技大学学报》 CAS 2024年第1期73-80,共8页
多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用... 多标签文本分类是自然语言处理中重要且具有挑战性的任务之一。现有的方法注重文本表示学习,关注文本内部信息预测所属标签,忽略了属于某一标签的全体实例中共享的关键信息。鉴于此,本文提出一种基于标签概念的多标签文本分类方法:利用词频和潜在狄利克雷分布(latent Dirichlet allocation,LDA)方法从训练集全体实例中抽取各标签所对应的关键词,接着采取与文本编码相同方式对关键词编码,获得标签概念表示。在训练和预测过程中,检索与文本表示最相似的标签概念辅助分类,增加标签概念表示与文本表示的对比损失,使文本编码过程中能充分学习全局的标签概念信息。将本文方法嵌套在常用的多标签文本分类模型上进行实验,结果表明该方法有效提高了相应模型的性能。 展开更多
关键词 标签概念 全局关键信息 对比损失 多标签文本分类
下载PDF
高考英语阅读理解文本改编对比分析——以2023年全国Ⅰ、Ⅱ、甲、乙卷为例 被引量:1
12
作者 孔靖宇 王蕾 《考试研究》 2024年第3期62-72,共11页
收集2023年新高考Ⅰ卷、新高考Ⅱ卷、全国甲卷、全国乙卷高考英语阅读理解部分文本15篇及对应源文本,利用专业文本对比工具Beyond Compare和“阅读分级指难针”对以下内容进行分析:(1)改编前后段落数、词数和难度数值的变化;(2)主要改... 收集2023年新高考Ⅰ卷、新高考Ⅱ卷、全国甲卷、全国乙卷高考英语阅读理解部分文本15篇及对应源文本,利用专业文本对比工具Beyond Compare和“阅读分级指难针”对以下内容进行分析:(1)改编前后段落数、词数和难度数值的变化;(2)主要改编方式;(3)改编后文本在词汇和句法上的特征。研究发现,命题人使用删冗余、改难词、减差异、调顺序等方式改编后,词数、段落数、难度均大幅下降。因此建议教师在日常教学中,应强化价值引领,体现时代性,选择与高考难度相近的语篇,适当拓展课外内容。 展开更多
关键词 高考英语 阅读理解 源文本 改编分析
下载PDF
基于双向对比训练的中文故事结尾生成模型
13
作者 帅奇 王海瑞 朱贵富 《计算机应用》 CSCD 北大核心 2024年第9期2683-2688,共6页
中文故事结尾生成(SEG)是自然语言处理中的下游任务之一。基于全错误结尾的CLSEG(Contrastive Learning of Story Ending Generation)在故事的一致性方面表现较好。然而,由于错误结尾中也包含与原结尾文本相同的内容,仅使用错误结尾的... 中文故事结尾生成(SEG)是自然语言处理中的下游任务之一。基于全错误结尾的CLSEG(Contrastive Learning of Story Ending Generation)在故事的一致性方面表现较好。然而,由于错误结尾中也包含与原结尾文本相同的内容,仅使用错误结尾的对比训练会导致生成文本中原结尾正确的主要部分被剥离。因此,在CLSEG基础上增加正向结尾增强训练,以保留对比训练中损失的正确部分;同时,通过正向结尾的引入,使生成的结尾具有更强的多样性和关联性。基于双向对比训练的中文故事结尾生成模型包含两个主要部分:1)多结尾采样,通过不同的模型方法获取正向增强的结尾和反向对比的错误结尾;2)对比训练,在训练过程中修改损失函数,使生成的结尾接近正向结尾,远离错误结尾。在公开的故事数据集OutGen上的实验结果表明,相较于GPT2. ft和深层逐层隐变量融合(Della)等模型,所提模型的BERTScore、METEOR等指标均取得了较优的结果,生成的结尾具有更强的多样性和关联性。 展开更多
关键词 中文故事结尾生成 对比训练 文本采样 文本生成 自然语言处理
下载PDF
用于小样本跨语言文本分类的元对比学习框架
14
作者 郭建铭 赵彧然 刘功申 《网络与信息安全学报》 2024年第3期107-116,共10页
众多的安全风控问题均为文本分类问题,国际场景下的舆情分析等风控问题涉及多种语言,是一大难点。先前的研究表明,通过跨语言语义知识迁移可以显著提高小样本文本分类任务的性能。然而,跨语言文本分类的发展仍面临着一系列挑战。获得语... 众多的安全风控问题均为文本分类问题,国际场景下的舆情分析等风控问题涉及多种语言,是一大难点。先前的研究表明,通过跨语言语义知识迁移可以显著提高小样本文本分类任务的性能。然而,跨语言文本分类的发展仍面临着一系列挑战。获得语义无关的文本表征是一项困难的任务。不同语言之间的语法结构和句法规则引起文本表征的差异,因此提取通用的语义信息较为困难。此外,跨语言文本分类的标签数据十分稀缺。在很多现实场景中,只能获得少量的标记数据,这严重降低了许多方法的性能。因此需要有效的方式能够在小样本情况下准确地迁移知识,提高分类模型的泛化能力。为应对这些挑战,提出了集成对比学习和元学习的框架,该框架集成了对比学习和元学习的优势,利用对比学习来提取与语言无关的通用语义信息,同时利用元学习快速泛化的优势来改善小样本场景中的知识迁移。此外,提出了基于任务的数据增强方法,以进一步提高所提框架在小样本跨语言文本分类中的性能。通过在两个广泛使用的多语言文本分类数据集上进行大量实验,证实了所提方法能够有效提升文本分类的准确性,可有效应用于风控安全领域。 展开更多
关键词 跨语言文本分类 元学习 对比学习 小样本
下载PDF
基于对比学习的高价值发明专利识别——以无线通信网络领域为例
15
作者 薛航 施国良 陈挺 《情报杂志》 CSSCI 北大核心 2024年第9期179-187,共9页
[研究目的]在众多专利中准确高效识别高价值发明专利,不仅对中国知识产权战略实施具有推动作用,还有助于促进高价值发明专利的技术转化。[研究方法]针对领域专利文本利用不充分的问题,对使用Bert在无线通信网络领域专利文本上进行对比... [研究目的]在众多专利中准确高效识别高价值发明专利,不仅对中国知识产权战略实施具有推动作用,还有助于促进高价值发明专利的技术转化。[研究方法]针对领域专利文本利用不充分的问题,对使用Bert在无线通信网络领域专利文本上进行对比学习预训练,得到领域适应的Bert模型。然后,利用领域适应的Bert模型训练高价值发明专利识别模型,并在高价值发明专利识别模型的训练过程中使用过采样策略缓解正负样本不均衡的问题,改善模型的效果。[研究结论]在包含62 000份无线通信网络中国发明专利数据集上的实验结果显示,使用对比学习和过采样策略训练得到的模型在Accuracy指标值和Macro-F1指标值上分别达到了97%和0.93,相比于直接使用Bert分别提升了9.77%和0.19。 展开更多
关键词 高价值发明专利 专利识别 专利文本 专利价值评估 对比学习 无线通信网络
下载PDF
基于知识增强预训练模型的司法文本摘要生成
16
作者 裴炳森 李欣 +1 位作者 胡凯茜 孙泽宇 《科学技术与工程》 北大核心 2024年第20期8587-8597,共11页
随着自然语言处理技术的发展,文本摘要技术已经被广泛应用在生活的方方面面,在司法领域,文本摘要技术能够帮助司法文本实现“降维”,对迅速了解案件详情,获取案件要素有很大的帮助,促使司法向信息化、智能化发展。但是现有的摘要生成模... 随着自然语言处理技术的发展,文本摘要技术已经被广泛应用在生活的方方面面,在司法领域,文本摘要技术能够帮助司法文本实现“降维”,对迅速了解案件详情,获取案件要素有很大的帮助,促使司法向信息化、智能化发展。但是现有的摘要生成模型应用在司法文本上,生成的摘要质量不尽如人意,还存在着生成重复、冗余,与现实情况不相符等问题,特别是当行为人存在多项罪名和多项判罚时,使用常见摘要生成模型生成的摘要会出现罪罚不匹配的情况。为了解决这些问题,提出基于知识增强预训练模型的司法文本摘要生成模型LCSG-ERNIE(legal case summary generation based on enhanced language representation with informative entities),该模型在预训练语言模型中融入司法知识,并结合对比学习的思想生成摘要,提高生成摘要的质量,减少出现的罪罚不匹配情况,最终通过实验证明提出的模型取得较好效果。 展开更多
关键词 文本摘要 知识增强 智慧司法 对比学习
下载PDF
基于对比学习的临床领域意图识别算法研究
17
作者 曹天甲 程龙龙 +3 位作者 李世锋 曹琉 崔丙剑 倪广健 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期821-827,共7页
随着电子信息化的发展,智能搜索、知识问答等应用被越来越多地应用在临床领域中.意图识别作为其中重要的一部分,随着这类应用的逐渐兴起,受到越来越多的关注.意图识别即理解用户问句的意图.在自然语言处理中,意图识别的本质是文本分类问... 随着电子信息化的发展,智能搜索、知识问答等应用被越来越多地应用在临床领域中.意图识别作为其中重要的一部分,随着这类应用的逐渐兴起,受到越来越多的关注.意图识别即理解用户问句的意图.在自然语言处理中,意图识别的本质是文本分类问题.针对意图识别工作,大量的研究和探索用以理解用户的文本输入,并将其映射到预先给定的意图类别中.本文提出一种基于对比学习的意图识别算法,根据文本的长度和意图类别的数量,将意图识别定义为短文本多分类问题.通过将对比学习引入到分类模型的训练中,提高模型的最终效果.在有监督学习场景中,采用R-drop对比学习方法.该方法选择dropout作为数据增强的方式,同时通过增加一个正则项来强化模型对dropout的鲁棒性.同时,对数据进行无监督训练,作为预训练阶段.并在预训练过程中选择SimCSE对比学习方法.最终将无监督学习与有监督学习结合,形成基于半监督学习的R-SimCSE模型.实验选取textCNN、textRNN、textRCNN、BERT-base、prompt等多种分类模型进行对比.实验结果显示,基于对比学习的分类模型效果优于文中选择的其他分类算法模型,在CHIP-QIC数据集上,准确率提升了0.0097~0.0493. 展开更多
关键词 意图识别 文本分类 对比学习
下载PDF
基于ChatGPT增强和监督对比学习的政策工具归类研究 被引量:1
18
作者 胡志强 李朋骏 +1 位作者 王金龙 熊晓芸 《计算机工程与应用》 CSCD 北大核心 2024年第7期292-305,共14页
政策工具的归类是政策文本量化分析和研究的重要维度之一。由于训练数据的缺乏,政策文本相似度高,模型难以学习到足够丰富的特征表示,对它的预测结果缺少置信度,有较高的错误分类风险。为此提出了基于ChatGPT增强和监督对比学习的政策... 政策工具的归类是政策文本量化分析和研究的重要维度之一。由于训练数据的缺乏,政策文本相似度高,模型难以学习到足够丰富的特征表示,对它的预测结果缺少置信度,有较高的错误分类风险。为此提出了基于ChatGPT增强和监督对比学习的政策工具分类方法,该方法分为预训练语言模型微调和ChatGPT决策增强两个阶段,第一阶段使用ChatGPT大语言模型增强政策文本以增加训练数据数量,结合监督对比学习微调RoBERTa模型,使模型学习到更丰富的政策文本表示;第二阶段使用ChatGPT辅助决策预训练语言模型置信度较低的文本,降低对相似文本的错误分类风险。在数字产业政策工具分类数据集和Tnews数据集上的实验表明,所提方法优于主流的研究方法,能够有效提升基模型的性能,且在训练样本较少时对基线模型的提升更显著。 展开更多
关键词 文本分类 ChatGPT 数据增强 监督对比学习 政策工具
下载PDF
基于对比学习和注意力机制的文本分类方法
19
作者 钱来 赵卫伟 《计算机工程》 CAS CSCD 北大核心 2024年第7期104-111,共8页
文本分类作为自然语言处理领域的基本任务,在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息,导致学到的文本特征不够全面。为了充分利用训练实例信息,提出一种基于对... 文本分类作为自然语言处理领域的基本任务,在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息,导致学到的文本特征不够全面。为了充分利用训练实例信息,提出一种基于对比学习和注意力机制的文本分类方法。首先,设计一种有监督对比学习训练策略,旨在优化模型对文本向量表征的检索,提高模型在推理过程中检索到的训练实例的质量;然后,构建注意力机制,对获取的训练文本特征进行注意力分布学习,聚焦关联性更强的相邻实例信息,获得更多隐含的相似特征;最后,将注意力机制与模型网络相结合,融合相邻的训练实例信息,增强模型提取多样性特征的能力,实现全局特征和局部特征的提取。实验结果表明,所提方法在卷积神经网络(CNN)、双向长短期记忆网络(Bi LSTM)、图卷积网络(GCN)、BERT和Ro BERTa等多个模型上都取得了显著的性能提升。以CNN模型为例,其在THUCNews数据集、今日头条数据集和搜狗数据集上宏F1值分别提高了4.15、6.2和1.92个百分点。因此,该方法也为文本分类任务提供了一种有效的解决方案。 展开更多
关键词 文本分类 深度模型 对比学习 近似最近邻算法 注意力机制
下载PDF
基于拓展图文对比学习的多模态语义对齐
20
作者 安国成 江波 +1 位作者 王晓龙 戴军 《计算机工程》 CAS CSCD 北大核心 2024年第11期152-162,共11页
基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一... 基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一语义表征,提出一种基于拓展图文对比学习的多模态语义对齐方法。首先通过微调预训练的CLIP模型,针对指定数据集优化语义表征,设计双向匹配策略构造图文样本匹配拓扑图,然后利用拓扑图中关联度更高的图文样本将对比学习进行拓展,在图像-文本模态下进行粗粒度语义对齐,同时在相同模态中进行细粒度调整,并引入可学习参数调整各模态下的对比损失权重。通过在多个数据集下的实验结果表明,该方法在不影响多模态语义对齐的性能下能够改进相同模态下的语义表征,在分类、检索等下游任务上具有更好或相当的性能。 展开更多
关键词 多模态学习 语义表征 对比学习 图文匹配 图像分类
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部