期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于提示学习的低资源藏文文本分类
1
作者 安波 赵维纳 龙从军 《中文信息学报》 CSCD 北大核心 2024年第2期70-78,共9页
文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用... 文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。 展开更多
关键词 藏文文本分类 预训练语言模型 提示学习 小样本学习
下载PDF
基于预训练模型和图神经网络的藏文文本分类研究 被引量:5
2
作者 胥桂仙 刘兰寅 +1 位作者 张廷 董玉双 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期52-64,共13页
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实... 在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks,GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率. 展开更多
关键词 藏文文本分类 图卷积神经网络 预训练语言模型 低资源文本分类
下载PDF
基于多特征融合与多语言预训练的藏文文本分类 被引量:1
3
作者 胥桂仙 陈哲 马慧麟 《中文信息学报》 CSCD 北大核心 2023年第12期54-61,共8页
针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO... 针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。 展开更多
关键词 多特征融合 多语言预训练 藏文文本分类
下载PDF
基于多分类器的藏文文本分类方法 被引量:13
4
作者 王莉莉 杨鸿武 宋志蒙 《南京邮电大学学报(自然科学版)》 北大核心 2020年第1期102-110,共9页
文本分类是信息检索与数据挖掘领域的关键技术,可以有效解决信息杂乱问题并定位有效信息。提出了基于深度学习的卷积神经网络、循环神经网络、长短时记忆网络和双向长短时记忆网络的藏文文本分类方法。首先提出长短时记忆加条件随机场... 文本分类是信息检索与数据挖掘领域的关键技术,可以有效解决信息杂乱问题并定位有效信息。提出了基于深度学习的卷积神经网络、循环神经网络、长短时记忆网络和双向长短时记忆网络的藏文文本分类方法。首先提出长短时记忆加条件随机场模型的方法对藏文分类文本进行分词,接着去除停用词、计算词频、提取特征词构建词向量空间模型获得词向量,然后将该词向量传输给分类模型训练藏文文本分类器,最后使用训练好的分类器对待分类藏文文本进行分类。实验数据表明,数据量较大时,深度神经网络模型分类效果均比传统机器学习模型分类效果好,且其中双向长短时记忆网络分类器得到的藏文文本分类效果最好;当数据量较少时,支持向量机分类效果较好。 展开更多
关键词 藏文文本分类 文本表示 词向量空间模型 深度神经网络 机器学习模型
下载PDF
基于预训练语言模型的藏文文本分类 被引量:7
5
作者 安波 龙从军 《中文信息学报》 CSCD 北大核心 2022年第12期85-93,共9页
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓... 藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F 1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。 展开更多
关键词 藏文文本分类 预训练语言模型 深度学习
下载PDF
基于KNN模型的藏文文本分类研究与实现 被引量:6
6
作者 苏慧婧 群诺 贾宏云 《高原科学研究》 CSCD 2019年第2期88-92,共5页
随着文本分类技术的日益成熟,越来越多的分类模型已经被引用到藏文文本分类的研究和实验中,其中KNN分类模型由于其简单易操作等特点被广泛应用。文章以新闻类文本为语料,通过KNN模型对藏文文本进行分类研究与实验。首先,构建文本词特征... 随着文本分类技术的日益成熟,越来越多的分类模型已经被引用到藏文文本分类的研究和实验中,其中KNN分类模型由于其简单易操作等特点被广泛应用。文章以新闻类文本为语料,通过KNN模型对藏文文本进行分类研究与实验。首先,构建文本词特征向量并对其进行相关降维处理;然后,利用欧式距离算法获取预测样本与训练样本之间的相似度;最后,根据K最近邻投票原理,预测样本类别。实验表明KNN模型对藏文文本的分类性能较好。 展开更多
关键词 藏文文本分类 文本特征 KNN模型
下载PDF
基于SVM藏文文本分类的研究与实现 被引量:12
7
作者 贾宏云 群诺 +2 位作者 苏慧婧 次仁罗增 巴桑卓玛 《电子技术与软件工程》 2018年第9期144-146,共3页
利用SVM(支持向量机)技术对复杂繁琐的汉文文本资源进行快速分类已经相当的成熟,但其在藏文文本分类中的应用还处于研究阶段,因此实验目的在于测试该方法是否在藏文文本分类中具有良好的性能。主要过程包括:文本向量空间模型化,获取SVM... 利用SVM(支持向量机)技术对复杂繁琐的汉文文本资源进行快速分类已经相当的成熟,但其在藏文文本分类中的应用还处于研究阶段,因此实验目的在于测试该方法是否在藏文文本分类中具有良好的性能。主要过程包括:文本向量空间模型化,获取SVM中核函数的参数并进行常用核函数分类性能对比,最后与Logistic回归分类器进行同等条件下的实验对比,验证了支持向量机模型在藏文文本分类中具有良好的分类效果。 展开更多
关键词 藏文文本分类 支持向量机 LOGISTIC回归
下载PDF
基于Logistic回归模型的藏文文本分类研究与实现 被引量:8
8
作者 群诺 贾宏云 《信息与电脑》 2018年第5期70-73,共4页
文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别... 文本分类是信息处理领域的核心研究内容,在自动检索和文本过滤等研究领域中被广泛使用。本次研究主要是基于Logistic回归模型分类器对藏文文本进行分类,其核心思想是首先对藏文语料进行收集和预处理,且利用信息增益算法和欧式距离分别对文本特征进行选择与提取;其次构造Logistic回归模型分类器;最后测试和分析分类的准确率、召回率和F1值,同时,对Logistic算法和Gaussian NB算法进行分类性能对比,结果显示Logistic算法具有较好的分类效果。 展开更多
关键词 藏文文本分类 LOGISTIC回归模型 特征选择与提取
下载PDF
基于GaussianNB模型的藏文文本分类研究与实现 被引量:5
9
作者 苏慧婧 群诺 贾宏云 《青海师范大学学报(自然科学版)》 2019年第4期1-4,54,共5页
目前众多文本分类方法已经得到了广泛的应用,然而针对不同的语言结构,各分类方法的泛化能力也有差异,因此本文利用机器学习算法中的GaussianNB模型对藏文新闻类文本语料进行分类,检验该分类模型在藏文语言结构中具有良好的分类性能.分... 目前众多文本分类方法已经得到了广泛的应用,然而针对不同的语言结构,各分类方法的泛化能力也有差异,因此本文利用机器学习算法中的GaussianNB模型对藏文新闻类文本语料进行分类,检验该分类模型在藏文语言结构中具有良好的分类性能.分类过程中首先以一码元为文本特征,采用特征频度统计方法,形成特征值向量,然后对特征向量进行降维处理,最后通过分类实验结果,验证了该模型对藏文文本具有良好的分类效果. 展开更多
关键词 藏文文本分类 文本特征 GaussianNB模型
下载PDF
藏文文本分类技术研究综述 被引量:4
10
作者 苏慧婧 群诺 《电脑知识与技术》 2021年第4期190-192,200,共4页
该文介绍了藏文文本分类技术的研究与进展。首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏... 该文介绍了藏文文本分类技术的研究与进展。首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。 展开更多
关键词 藏文文本分类 文本表示 特征选择 机器学习
下载PDF
基于GraphSAGE网络的藏文短文本分类研究
11
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 CSCD 北大核心 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
下载PDF
基于图卷积网络的藏文新闻文本分类 被引量:5
12
作者 胥桂仙 张子欣 +2 位作者 于绍娜 董玉双 田媛 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第6期73-85,共13页
【目的】针对藏文预训练知识缺少的现状,利用藏文音节和文档的构造关系,提出基于图卷积网络的藏文新闻文本分类方法。【方法】基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图,然后使用音节和文档的独热表示进行初始化,在... 【目的】针对藏文预训练知识缺少的现状,利用藏文音节和文档的构造关系,提出基于图卷积网络的藏文新闻文本分类方法。【方法】基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图,然后使用音节和文档的独热表示进行初始化,在训练集文档类别标签的监督下,使用图卷积网络联合学习音节和文档的嵌入,最后将文本分类问题转化为节点分类问题。【结果】图卷积网络在藏文新闻正文文本分类任务上准确率达到70.44%,相比于基线模型高出8.96~20.66个百分点;在藏文新闻标题文本上准确率达到61.94%,比基线模型高出6.61~26.05个百分点。同时,图卷积网络相比引入预训练音节嵌入的SVM、CNN和少数民族语言预训练模型CINO在准确率上高出0.73~15.1个百分点,在正文上的准确率相比Word2Vec+LSTM方法高出15.65个百分点。【局限】仍依赖于有标注数据集,但藏文的有监督文本相对稀缺。【结论】图卷积网络在藏文新闻文本分类任务上具有有效性,能够解决藏文新闻文本信息杂乱的问题,有助于对各类别藏文新闻文本数据进行挖掘。 展开更多
关键词 图卷积网络 藏文新闻文本分类 文本 节点分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部