期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
结合关键词微变和LD算法的文本相似性研究
1
作者 程玉胜 梁辉 +1 位作者 王一宾 任勇 《计算机工程与应用》 CSCD 北大核心 2016年第8期70-73,124,共5页
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clust... 为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。 展开更多
关键词 聚类 LD算法 文本相似度矩阵 向量空间模型 文本相似性
下载PDF
基于多个连续数据复制的幂次划分数据压缩方法
2
作者 何姗姗 詹文法 程玉胜 《安庆师范学院学报(自然科学版)》 2015年第3期42-44,共3页
基于多个连续数据复制压缩方法是将整个测试数据集根据2的幂次方长度划分成多个连续的若干不定长块,不定长块有几种可能:全1序列,全0序列,01序列,10序列或者不定序列。对于全0序列、全1序列或者01、10序列,在标志位用1的个数来表示连续... 基于多个连续数据复制压缩方法是将整个测试数据集根据2的幂次方长度划分成多个连续的若干不定长块,不定长块有几种可能:全1序列,全0序列,01序列,10序列或者不定序列。对于全0序列、全1序列或者01、10序列,在标志位用1的个数来表示连续块的长度,标志位和编码字之间用0来分隔,后缀用两位连续位编码。对于不连续也不交替的前缀用0标志,代码字就是原代码复制。这种根据数据连续性划分利用数据的重复性降低编码中出现的冗余,减少了还原时间,能够很好的对连续或者连续的交替块压缩。 展开更多
关键词 测试数据集 标志位 代码字 编码 压缩块
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部