期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
相似索引:适用于重复数据删除的二级索引 被引量:1
1
作者 张志珂 蒋泽军 +1 位作者 蔡小斌 彭成章 《计算机应用研究》 CSCD 北大核心 2013年第12期3614-3617,共4页
由于EB(extreme binning)使用文件的最小块签名作为文件的特征,它不适合处理主要包括小文件的数据负载,会导致较差的重复数据删除率。为了改进EB,提出了相似索引。它把相似哈希作为文件的特征,是一种适用于以小文件为主的数据负载的重... 由于EB(extreme binning)使用文件的最小块签名作为文件的特征,它不适合处理主要包括小文件的数据负载,会导致较差的重复数据删除率。为了改进EB,提出了相似索引。它把相似哈希作为文件的特征,是一种适用于以小文件为主的数据负载的重复数据删除的二级索引。实验结果表明,相似索引的重复数据删除率比EB高24.8%;相似索引的内存使用量仅仅是EB的0.265%。与EB相比,相似索引需要更少的存储使用量和内存使用量。 展开更多
关键词 重复数据删除 相似哈希 相似索引 块查找磁盘瓶颈问题 二级索引
下载PDF
半结构化数据相似搜索的索引技术研究 被引量:11
2
作者 杨建武 陈晓鸥 《计算机学报》 EI CSCD 北大核心 2002年第11期1219-1226,共8页
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想... 为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标维进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略.实验表明,该结构及算法对海量半结构化数据相似搜索的效率明显优于传统算法. 展开更多
关键词 半结构化数据 相似搜索 索引 相似索引 聚类 数据挖掘 数据库 多路平衡树
下载PDF
相似索引等距包络参数计算的改进算法 被引量:2
3
作者 白雪生 徐光祐 史元春 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第9期95-98,共4页
在相似索引等距包络(球包络)的参数计算中,直接计算方法由于计算代价过高而难于应用。 R. Kuniaw ati和 J. S. Jin 针对欧氏空间情形提出一种迭代的 γ空间搜索算法,但其计算过程需要保存前面计算得到的所有平... 在相似索引等距包络(球包络)的参数计算中,直接计算方法由于计算代价过高而难于应用。 R. Kuniaw ati和 J. S. Jin 针对欧氏空间情形提出一种迭代的 γ空间搜索算法,但其计算过程需要保存前面计算得到的所有平面参数,在实际应用中受到一定限制。为了解决这个问题,该文对γ空间搜索算法进行了改进,避免了原算法的缺点,并将改进算法进一步推广到二次型距离空间和街区距离空间中。文中给出了算法的基本思想,以及必要的定理证明。 展开更多
关键词 相似索引 等距包络 多媒体信息库 参数计算
原文传递
基于SVD的二次型距离相似索引层次算法 被引量:1
4
作者 罗明 白雪生 徐光祐 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第1期36-39,共4页
大容量多媒体数据库的基于内容相似性的检索本质上是高维特征空间中一定距离函数的 K近邻问题。对适合人类视觉的二次型距离函数 ,即使采用相似索引 ,当特征空间维数较高时检索仍不能保证实时性。为了解决此问题 ,提出基于 SVD(Singular... 大容量多媒体数据库的基于内容相似性的检索本质上是高维特征空间中一定距离函数的 K近邻问题。对适合人类视觉的二次型距离函数 ,即使采用相似索引 ,当特征空间维数较高时检索仍不能保证实时性。为了解决此问题 ,提出基于 SVD(Singular Value Decomposition)的二次型距离相似索引层次算法 ,先以相似索引为基础在主导特征的子空间上进行代价低的近似检索 ,再对过滤结果在高维特征空间中进行线性的精确检索。实验证明 :该方法具有正确性。 展开更多
关键词 特征空间 二次型距离相似索引层次算法 单值分解 多媒体数据库 二次型距离函数 近似检索
原文传递
逐维聚类的相似度索引算法 被引量:5
5
作者 汪祖媛 庄镇泉 王煦法 《计算机研究与发展》 EI CSCD 北大核心 2004年第6期1003-1009,共7页
随着多媒体信息技术的迅速发展 ,多维度索引技术在图像、视频等可视信息的存储、检索方面成为一个重要的研究领域 针对“维数危机”难题 ,提出逐维聚类相似度索引算法 该算法根据数据集的分布特性 ,对特征矢量的每一维进行聚类 算法... 随着多媒体信息技术的迅速发展 ,多维度索引技术在图像、视频等可视信息的存储、检索方面成为一个重要的研究领域 针对“维数危机”难题 ,提出逐维聚类相似度索引算法 该算法根据数据集的分布特性 ,对特征矢量的每一维进行聚类 算法在实现检索时可以逐步滤除与查询矢量不相似的数据集 ,缩小检索范围 ,进而提高了检索速度 实验结果表明 ,逐维聚类算法适用于基于相似度的高维数据矢量检索和查询 ,是一种简单。 展开更多
关键词 逐维聚类 相似索引 最邻近查询
下载PDF
结构相似度索引耦合最优稀疏表示的大规模损坏图像动态修复 被引量:11
6
作者 耿卫江 《科学技术与工程》 北大核心 2014年第25期107-114,共8页
当前的图像修复算法在处理小面积损坏图像时,可取得较佳的视觉质量;但难以用于高对比度边缘和高频分量的大面积损坏图像的修复,存在明显的模糊效应与块效应,使得修复质量较差。对此,提出了结构相似度索引耦合优化稀疏表示的大规模损坏... 当前的图像修复算法在处理小面积损坏图像时,可取得较佳的视觉质量;但难以用于高对比度边缘和高频分量的大面积损坏图像的修复,存在明显的模糊效应与块效应,使得修复质量较差。对此,提出了结构相似度索引耦合优化稀疏表示的大规模损坏图像动态修复机制。基于数据度与置信度构造图像块先验模型,提取损坏图像的已知块;再引入K-SVD算法和拉格朗日乘数机制,构造最优字典矩阵,优化稀疏表示,以重构目标图像损坏区域;并设计结构相似度索引与动态更新机制,估算稀疏表示系数,并动态更新字典矩阵,输出修复图像。最后测试了其机制性能。结果表明:与当前图像修复算法相比,在大规模损坏图像与高对比度边缘图像修复中,具有更好的修复效果、更高的相似度,显著消除了模糊效应与块效应。 展开更多
关键词 结构相似索引 优化稀疏表示 最优字典矩阵 块先验 图像动态修复
下载PDF
基于度量空间高维索引结构VP-tree及MVP-tree的图像检索 被引量:1
7
作者 王志强 甘国辉 程起敏 《计算机工程与应用》 CSCD 北大核心 2004年第36期41-44,150,共5页
首先分析了度量空间高维索引结构的研究意义及具体应用,然后在仔细探讨典型的基于距离的度量空间高维索引结构VP-tree及其变种MVP-tree的基本思想、构造和搜索算法的基础上,通过具体的实验对其在图像检索中的性能进行了全面的分析,给出... 首先分析了度量空间高维索引结构的研究意义及具体应用,然后在仔细探讨典型的基于距离的度量空间高维索引结构VP-tree及其变种MVP-tree的基本思想、构造和搜索算法的基础上,通过具体的实验对其在图像检索中的性能进行了全面的分析,给出了通过实验得到的结论,最后指出了有待进一步研究的方向。 展开更多
关键词 度量空间 高维索引结构 相似索引 VP-tree MVP-tree 基于内容的图像检索
下载PDF
Lucene索引段合并优化策略 被引量:3
8
作者 熊安萍 李传根 曹春江 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2020年第1期105-112,共8页
随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lu... 随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lucene索引段合并优化策略,该策略通过负载系数来选择不同的索引段合并操作。为提高数据的检索速度,进一步建立索引段相似度评价模型来选择出最优合并索引段集合进行合并。通过与现有Tiere,LogByte,LogDoc等合并策略进行实验对比,提出的优化策略能有效减少索引段合并次数,提升系统吞吐量及索引效率。 展开更多
关键词 LUCENE 索引段合并 负载系数 索引相似 最优合并索引
下载PDF
一种基于调色板冗余颜色索引匹配的混合进制信息隐藏算法
9
作者 马春波 张涛 《计算机科学与应用》 2017年第6期572-579,共8页
本文提出了一种基于GIF图像的信息隐藏算法。该算法先根据各颜色索引在图像数据中的频次,将颜色索引分为有效颜色索引与冗余颜色索引;其次根据调色板颜色索引之间的色差,先对调色板中有效颜色索引分组,得到相似颜色索引子集,再将调色板... 本文提出了一种基于GIF图像的信息隐藏算法。该算法先根据各颜色索引在图像数据中的频次,将颜色索引分为有效颜色索引与冗余颜色索引;其次根据调色板颜色索引之间的色差,先对调色板中有效颜色索引分组,得到相似颜色索引子集,再将调色板中的冗余颜色索引以一定的规则分配到各相近颜色索引子集中。隐写时,先对秘密文件进行分组及混合多进制转换,继而采取分组混合多进制的方式嵌入到图像数据中。实验表明,相比现有方法,该算法不但提高了隐写容量,且由于嵌入信息时需要的载体像素点更少,在安全性上反而有了巨大的提升。 展开更多
关键词 有效颜色索引 冗余颜色索引 相似颜色索引子集 混合多进制嵌入
下载PDF
CLUSTERING VALIDITY BASED ON THE IMPROVED S_DBW INDEX 被引量:1
10
作者 Tong Jianhua Tan Hongzhou 《Journal of Electronics(China)》 2009年第2期258-264,共7页
For many clustering algorithms,it is very important to determine an appropriate number of clusters,which is called cluster validity problem.In this paper,a new clustering validity assessment index is proposed based on... For many clustering algorithms,it is very important to determine an appropriate number of clusters,which is called cluster validity problem.In this paper,a new clustering validity assessment index is proposed based on a novel method to select the margin point between two clusters for in-ter-cluster similarity more accurately,and provides an improved scatter function for intra-cluster similarity.Simulation results show the effectiveness of the proposed index on the data sets under consideration regardless of the choice of a clustering algorithm. 展开更多
关键词 Clustering validity Inter-cluster similarity Intra-cluster similarity
下载PDF
Privacy-Preserving Top-k Keyword Similarity Search over Outsourced Cloud Data 被引量:1
11
作者 TENG Yiping CHENG Xiang +2 位作者 SU Sen WANG Yulong SHUANG Kai 《China Communications》 SCIE CSCD 2015年第12期109-121,共13页
In this paper,we study the problem of privacy-preserving top-k keyword similarity search over outsourced cloud data.Taking edit distance as a measure of similarity,we first build up the similarity keyword sets for all... In this paper,we study the problem of privacy-preserving top-k keyword similarity search over outsourced cloud data.Taking edit distance as a measure of similarity,we first build up the similarity keyword sets for all the keywords in the data collection.We then calculate the relevance scores of the elements in the similarity keyword sets by the widely used tf-idf theory.Leveraging both the similarity keyword sets and the relevance scores,we present a new secure and efficient treebased index structure for privacy-preserving top-k keyword similarity search.To prevent potential statistical attacks,we also introduce a two-server model to separate the association between the index structure and the data collection in cloud servers.Thorough analysis is given on the validity of search functionality and formal security proofs are presented for the privacy guarantee of our solution.Experimental results on real-world data sets further demonstrate the availability and efficiency of our solution. 展开更多
关键词 similarity keyword preserving cloud collection privacy validity files ranking separate
下载PDF
Altered pattern of tumor necrosis factor-alpha production in peripheral blood monocytes from Crohn's disease
12
作者 Claudia Loganes Alessia Pin +5 位作者 Samuele Naviglio Martina Girardelli Anna Monica Bianco Stefano Martelossi Alberto Tommasini Elisa Piscianz 《World Journal of Gastroenterology》 SCIE CAS 2016年第41期9117-9126,共10页
AIM To evaluate the inflammatory state in Crohn's disease(CD) patients and correlate it with genetic background and microbial spreading.METHODS By means of flow cytometry, production of tumor necrosis factor-alpha... AIM To evaluate the inflammatory state in Crohn's disease(CD) patients and correlate it with genetic background and microbial spreading.METHODS By means of flow cytometry, production of tumor necrosis factor-alpha(TNF-α) was measured in peripheral blood monocytes from patients suffering from CD, ulcerative colitis(UC) and in healthy subjects after stimulation of the NOD2 and TLR pathways. CD patients were genotyped for the three most common NOD2 variants(R702W, G908 R and L1007Pfs*2) and basal production of TNF-α was correlated to NOD2 genotype. Also, production of TNF-α was correlated to plasmatic levels of LPS Binding Protein(LBP), soluble(s) CD14 and to the activity state of the disease.RESULTS The patients with CD were characterized by a significantly higher monocyte basal expression of TNF-αcompared with healthy subjects and UC patients, and after stimulation with Pam3CSK4(ligand of TLR2/1) and MDP-L18(ligand of NOD2) this difference was maintained, while other microbial stimuli(LPS, ligand of TLR4 and Poly I:C, ligand of TLR3) induced massive activation in CD monocytes as well as in UC and in healthy control cells. There was no significant difference in the production of TNF- α between patients who carried CD-associated heterozygous or homozygous variants in NOD2 and patients with wild type NOD2 genotype. Although serum LBP levels have been shown to correlate positively with the state of activity of the disease, TNF-α production did not show a clear correlation with either LBP or s CD14 levels in plasma. Moreover, no clear correlation was seen between TNF-α production and activity indices in either CD or UC.CONCLUSION Peripheral monocytes from CD express higher basal and stimulated TNF-α than controls, regardless of NOD2 genotype and without a clear correlation with disease activity. 展开更多
关键词 Crohn’s disease Ulcerative colitis Tumor necrosis factor-α NOD2 variants Toll like receptors DYSBIOSIS Activity index LPS-binding protein
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部