期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于藏文新闻文本话题检测的聚类算法研究 被引量:2
1
作者 曹晖 孟祥和 《华中师范大学学报(自然科学版)》 CAS 北大核心 2014年第1期37-41,共5页
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通... 话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 展开更多
关键词 聚类算法 种子话题 藏文新闻文本 话题检测
下载PDF
基于图卷积网络的藏文新闻文本分类 被引量:5
2
作者 胥桂仙 张子欣 +2 位作者 于绍娜 董玉双 田媛 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第6期73-85,共13页
【目的】针对藏文预训练知识缺少的现状,利用藏文音节和文档的构造关系,提出基于图卷积网络的藏文新闻文本分类方法。【方法】基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图,然后使用音节和文档的独热表示进行初始化,在... 【目的】针对藏文预训练知识缺少的现状,利用藏文音节和文档的构造关系,提出基于图卷积网络的藏文新闻文本分类方法。【方法】基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图,然后使用音节和文档的独热表示进行初始化,在训练集文档类别标签的监督下,使用图卷积网络联合学习音节和文档的嵌入,最后将文本分类问题转化为节点分类问题。【结果】图卷积网络在藏文新闻正文文本分类任务上准确率达到70.44%,相比于基线模型高出8.96~20.66个百分点;在藏文新闻标题文本上准确率达到61.94%,比基线模型高出6.61~26.05个百分点。同时,图卷积网络相比引入预训练音节嵌入的SVM、CNN和少数民族语言预训练模型CINO在准确率上高出0.73~15.1个百分点,在正文上的准确率相比Word2Vec+LSTM方法高出15.65个百分点。【局限】仍依赖于有标注数据集,但藏文的有监督文本相对稀缺。【结论】图卷积网络在藏文新闻文本分类任务上具有有效性,能够解决藏文新闻文本信息杂乱的问题,有助于对各类别藏文新闻文本数据进行挖掘。 展开更多
关键词 图卷积网络 藏文新闻文本分类 文本 节点分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部