期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于频繁词集表示的新文本聚类方法 被引量:14
1
作者 张雪松 贾彩燕 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期102-112,共11页
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based d... 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果. 展开更多
关键词 文本聚类 频繁词集 复杂网络 社区划分 文本表示模型
下载PDF
基于双图神经网络信息融合的文本分类方法 被引量:2
2
作者 闫佳丹 贾彩燕 《计算机科学》 CSCD 北大核心 2022年第8期230-236,共7页
近年来,图神经网络在文本分类任务中得到了广泛应用。与图卷积网络相比,基于消息传递的文本级的图神经网络模型具有内存占用少和支持在线检测等优点。然而此类模型通常仅使用词共现信息为语料中的各个文本构建词汇图,导致获取到的信息... 近年来,图神经网络在文本分类任务中得到了广泛应用。与图卷积网络相比,基于消息传递的文本级的图神经网络模型具有内存占用少和支持在线检测等优点。然而此类模型通常仅使用词共现信息为语料中的各个文本构建词汇图,导致获取到的信息缺少多样性。文中提出了一种基于双图神经网络信息融合的文本分类方法。该方法在保留原有词共现图的基础上,根据单词间的余弦相似度构建语义图,并通过阈值控制语义图的稀疏程度,更有效地利用了文本的多方位语义信息。此外,测试了直接融合和注意力机制融合两种方式对词汇图和语义图上学习到的文本表示融合的能力。实验使用R8和R52等12个文本分类领域常用的数据集来测试算法的精度,结果表明,与最新的TextLevelGNN,TextING和MPAD这3个文本级的图神经网络模型相比,双图模型能够有效提高文本分类的性能。 展开更多
关键词 文本分类 图神经网络 语义信息 信息融合 注意力机制 自然语言处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部