期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
文字云及主题模型的统计挖掘
1
作者 程玉胜 梁辉 《安庆师范学院学报(自然科学版)》 2014年第1期32-35,53,共5页
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,... 互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。 展开更多
关键词 文本挖掘 文字云 主题模型 统计分析 粗糙集
下载PDF
结合关键词微变和LD算法的文本相似性研究
2
作者 程玉胜 梁辉 +1 位作者 王一宾 任勇 《计算机工程与应用》 CSCD 北大核心 2016年第8期70-73,124,共5页
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clust... 为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。 展开更多
关键词 聚类 LD算法 文本相似度矩阵 向量空间模型 文本相似性
下载PDF
基于多个连续数据复制的幂次划分数据压缩方法
3
作者 何姗姗 詹文法 程玉胜 《安庆师范学院学报(自然科学版)》 2015年第3期42-44,共3页
基于多个连续数据复制压缩方法是将整个测试数据集根据2的幂次方长度划分成多个连续的若干不定长块,不定长块有几种可能:全1序列,全0序列,01序列,10序列或者不定序列。对于全0序列、全1序列或者01、10序列,在标志位用1的个数来表示连续... 基于多个连续数据复制压缩方法是将整个测试数据集根据2的幂次方长度划分成多个连续的若干不定长块,不定长块有几种可能:全1序列,全0序列,01序列,10序列或者不定序列。对于全0序列、全1序列或者01、10序列,在标志位用1的个数来表示连续块的长度,标志位和编码字之间用0来分隔,后缀用两位连续位编码。对于不连续也不交替的前缀用0标志,代码字就是原代码复制。这种根据数据连续性划分利用数据的重复性降低编码中出现的冗余,减少了还原时间,能够很好的对连续或者连续的交替块压缩。 展开更多
关键词 测试数据集 标志位 代码字 编码 压缩块
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部