期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
Indexing the bit-code and distance for fast KNN search in high-dimensional spaces
1
作者 LIANG Jun-jie FENG Yu-cai 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2007年第6期857-863,共7页
Various index structures have recently been proposed to facilitate high-dimensional KNN queries, among which the techniques of approximate vector presentation and one-dimensional (1D) transformation can break the curs... Various index structures have recently been proposed to facilitate high-dimensional KNN queries, among which the techniques of approximate vector presentation and one-dimensional (1D) transformation can break the curse of dimensionality. Based on the two techniques above, a novel high-dimensional index is proposed, called Bit-code and Distance based index (BD). BD is based on a special partitioning strategy which is optimized for high-dimensional data. By the definitions of bit code and transformation function, a high-dimensional vector can be first approximately represented and then transformed into a 1D vector, the key managed by a B+-tree. A new KNN search algorithm is also proposed that exploits the bit code and distance to prune the search space more effectively. Results of extensive experiments using both synthetic and real data demonstrated that BD out- performs the existing index structures for KNN search in high-dimensional spaces. 展开更多
关键词 High-dimensional spaces knn search Bit-code and distance based index (BD) Approximate vector
下载PDF
利用分区和距离实现高维空间快速KNN查询 被引量:4
2
作者 梁俊杰 王长磊 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1980-1985,共6页
在高维空间KNN查询算法中,近似向量和一维转换表示法能有效克服维数灾难,结合这两种思想,提出一种基于区位码和距离的索引结构(BD)以实现快速KNN查询.根据高维空间向量分布特点,合理分区使得大量分布在空间表面的点尽可能地划分到不同... 在高维空间KNN查询算法中,近似向量和一维转换表示法能有效克服维数灾难,结合这两种思想,提出一种基于区位码和距离的索引结构(BD)以实现快速KNN查询.根据高维空间向量分布特点,合理分区使得大量分布在空间表面的点尽可能地划分到不同的分区中,提高检索剪枝效率.引入区位码概念和转换函数,将高维向量近似表示并转换为一维数值形式,组织成B+树索引.利用快速KNN查询算法,实现两层过滤,缩小搜索范围,降低树搜索代价.采用模拟数据和真实数据,大量实验验证了BD比其他同类索引具有更高的检索效率. 展开更多
关键词 高维向量空间 knn查询 区位码 近似向量 索引结构
下载PDF
LBD:基于局部位码比较的高维空间KNN搜索算法 被引量:3
3
作者 梁俊杰 冯玉才 《计算机科学》 CSCD 北大核心 2007年第6期145-148,161,共5页
利用高维数据空间合理划分,提出一种简单有效的KNN检索算法-LBD。通过聚类将数据划分成多个子集空间,对每个聚类子集内的高维向量,利用距离和位码定义简化表示形式。KNN搜索时,首先利用距离信息确定候选范围,然后利用某些维上的位码不... 利用高维数据空间合理划分,提出一种简单有效的KNN检索算法-LBD。通过聚类将数据划分成多个子集空间,对每个聚类子集内的高维向量,利用距离和位码定义简化表示形式。KNN搜索时,首先利用距离信息确定候选范围,然后利用某些维上的位码不相同信息进一步缩小搜索范围,提高剪枝效率。位码字符串比较时,按照维度贡献优先顺序,大大加快非候选点过滤。LBD利用特殊的B+树组织,降低I/O和距离计算代价。采用模拟数据和真实数据,实验验证了LBD具有更高的检索效率。 展开更多
关键词 高维索引 knn查询 位码 近似向量
下载PDF
一种基于改进型KNN算法的文本分类方法 被引量:3
4
作者 钱强 庞林斌 高尚 《江苏科技大学学报(自然科学版)》 CAS 2013年第4期381-385,共5页
KNN算法是比较适合于文本分类的一种分类算法,但由于其计算复杂度会随着训练集规模的增加而线性增加,从而限制了它的实际应用效果.通过改变对近邻点的搜索策略,提出了一种改进型的KNN算法.该算法在对最近邻的选择过程中,放弃传统算法中... KNN算法是比较适合于文本分类的一种分类算法,但由于其计算复杂度会随着训练集规模的增加而线性增加,从而限制了它的实际应用效果.通过改变对近邻点的搜索策略,提出了一种改进型的KNN算法.该算法在对最近邻的选择过程中,放弃传统算法中遍历所有样本的做法,而是通过逐渐逼近的思想来寻找最近邻点.实验证明,该方法在保持和传统的KNN算法几乎一样的精度性能前提下,可以明显降低算法的计算复杂度,降低时间开销,取得了较满意的结果. 展开更多
关键词 knn 文本分类 搜索策略
下载PDF
深度优先遍历Δ-tree的非递归KNN查询 被引量:1
5
作者 刘艳 郝忠孝 《计算机工程与应用》 CSCD 北大核心 2011年第15期6-8,28,共4页
kNN查询是高维数据库中最重要的操作之一,尽管它在数据库研究中得到了极大的关注,但很少有关于主存数据库kNN查询的工作。充分利用kNN查询自身的特点,基于高效的主存索引Δ-tree设计了一种新的kNN查询算法NR_DF_knn_Search,该算法采用... kNN查询是高维数据库中最重要的操作之一,尽管它在数据库研究中得到了极大的关注,但很少有关于主存数据库kNN查询的工作。充分利用kNN查询自身的特点,基于高效的主存索引Δ-tree设计了一种新的kNN查询算法NR_DF_knn_Search,该算法采用非递归方式深度优先搜索Δ-tree中距离查询点较近的叶子节点,能够快速找到较优的kNN候选,更新修剪距离,加大剪枝力度,缩小搜索空间,从而提高kNN查询效率。通过实验对该算法进行了估价,结果证明该算法是有效的。 展开更多
关键词 高维索引 主存knn查询 非递归 最近邻查询 深度优先搜索
下载PDF
KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用 被引量:2
6
作者 张俊丽 张帆 《图书与情报》 CSSCI 2007年第4期48-51,62,共5页
目前,大多数搜索引擎都是用相关度或page-rank或HITS(Hyperlink-Induced Topic Search)算法对匹配的结果进行排序,然后以列表的方式呈现给用户。事实表明:其索引质量不高,对所收集的信息缺乏有效的分类处理,用户面对成千上万的搜索结果... 目前,大多数搜索引擎都是用相关度或page-rank或HITS(Hyperlink-Induced Topic Search)算法对匹配的结果进行排序,然后以列表的方式呈现给用户。事实表明:其索引质量不高,对所收集的信息缺乏有效的分类处理,用户面对成千上万的搜索结果无法一一查看,而真正符合需要的搜索结果常常因为排在后面而被漏检,返回的结果只有极少部分得到了用户的有效利用。文章提出运用基于K近邻的模糊C均值算法(以下简称KNN-FCM)对搜索引擎的初始结果进行自动聚类,系统再针对用户作出的适时反馈进行相应的输出调整,从而方便用户查找信息。 展开更多
关键词 搜索引擎 knn 模糊C均值 文本过滤
下载PDF
基于KNN算法的组合式非搜索特征选择算法 被引量:6
7
作者 苏映雪 付耀文 《计算机工程》 CAS CSCD 北大核心 2007年第18期217-218,221,共3页
随着特征维数的不断增长,搜索性特征选择算法付出巨大的时间代价,而非搜索性算法则由于其时间代价小,而且能有效去除冗余特征等优越性越来越受到关注。该文介绍了一种非搜索性算法——KNN特征选择算法,该算法通过计算特征间的相关性来... 随着特征维数的不断增长,搜索性特征选择算法付出巨大的时间代价,而非搜索性算法则由于其时间代价小,而且能有效去除冗余特征等优越性越来越受到关注。该文介绍了一种非搜索性算法——KNN特征选择算法,该算法通过计算特征间的相关性来消除冗余特征,时间代价小。在此基础上,该文提出了一种基于KNN算法的组合式非搜索特征选择算法。 展开更多
关键词 特征选择 非搜索 最大信息压缩指数 knn
下载PDF
基于Δ-tree的递归深度优先KNN查询算法 被引量:2
8
作者 刘艳 郝忠孝 《计算机工程》 CAS CSCD 北大核心 2011年第22期48-50,共3页
基于Δ-tree提出一种用于高维数据的主存K最近邻(KNN)查询算法。该算法利用递归调用方法深度优先遍历Δ-tree,找到距离查询点较近的叶子节点,并选择其中较优的KNN候选点进行查询,从而缩小修剪距离、提高查询速度。实验结果表明,与已有... 基于Δ-tree提出一种用于高维数据的主存K最近邻(KNN)查询算法。该算法利用递归调用方法深度优先遍历Δ-tree,找到距离查询点较近的叶子节点,并选择其中较优的KNN候选点进行查询,从而缩小修剪距离、提高查询速度。实验结果表明,与已有算法相比,该算法具有更高的查询效率。 展开更多
关键词 高维索引 主存 K最近邻查询 深度优先搜索
下载PDF
高维主存kNN连接索引结构的核心算法
9
作者 刘艳 郝忠孝 《计算机科学》 CSCD 北大核心 2011年第9期146-149,共4页
kNN(k最近邻)连接是高维数据库中的一种重要但代价昂贵的基本操作。随着RAM容量越来越大且价格逐渐低廉,更多的数据集能够被装入主存。如何实现快速主存kNN连接,引起人们的关注。索引Δ-tree-R和-Δtree-S是根据kNN连接的特点专门为主存... kNN(k最近邻)连接是高维数据库中的一种重要但代价昂贵的基本操作。随着RAM容量越来越大且价格逐渐低廉,更多的数据集能够被装入主存。如何实现快速主存kNN连接,引起人们的关注。索引Δ-tree-R和-Δtree-S是根据kNN连接的特点专门为主存kNN连接设计的索引。结合编码、节点中心重合技术,给出了构建Δ-tree-R和-Δtree-S的核心算法及相关证明,实验表明,基于该索引的主存kNN连接算法-Δtree-KNN-Join明显优于目前已存在的可用于主存的kNN连接算法Gorder。 展开更多
关键词 knn连接 高维空间 主存 索引结构 knn搜索
下载PDF
BC-iDistance:an optimized high-dimensional index for KNN processing
10
作者 梁俊杰 冯玉才 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2008年第6期856-861,共6页
To facilitate high-dimensional KNN queries,based on techniques of approximate vector presentation and one-dimensional transformation,an optimal index is proposed,namely Bit-Code based iDistance(BC-iDistance).To overco... To facilitate high-dimensional KNN queries,based on techniques of approximate vector presentation and one-dimensional transformation,an optimal index is proposed,namely Bit-Code based iDistance(BC-iDistance).To overcome the defect of much information loss for iDistance in one-dimensional transformation,the BC-iDistance adopts a novel representation of compressing a d-dimensional vector into a two-dimensional vector,and employs the concepts of bit code and one-dimensional distance to reflect the location and similarity of the data point relative to the corresponding reference point respectively.By employing the classical B+tree,this representation realizes a two-level pruning process and facilitates the use of a single index structure to further speed up the processing.Experimental evaluations using synthetic data and real data demonstrate that the BC-iDistance outperforms the iDistance and sequential scan for KNN search in high-dimensional spaces. 展开更多
关键词 high-dimensional index knn search bit code approximate vector
下载PDF
一种基于贪婪算法的KNN参数选择策略 被引量:1
11
作者 金自翔 戴新宇 陈家骏 《广西师范大学学报(自然科学版)》 CAS 北大核心 2008年第1期182-185,共4页
K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出... K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。 展开更多
关键词 文本分类 K近邻 参数调节 贪婪算法
下载PDF
一种基于KNN后处理的鲁棒性抠图方法 被引量:1
12
作者 白杨 姚桂林 《计算机应用与软件》 北大核心 2020年第9期170-175,共6页
目前抠图算法分为采样法和仿射法。采样法求解出的Alpha值往往是不连续的,并且含有很多噪声。对此提出一种基于KNN后处理的鲁棒抠图算法。对未知像素点进行鲁棒性采样,并从中选择较好的样本对作为未知像素的前景和背景样本点,计算出未... 目前抠图算法分为采样法和仿射法。采样法求解出的Alpha值往往是不连续的,并且含有很多噪声。对此提出一种基于KNN后处理的鲁棒抠图算法。对未知像素点进行鲁棒性采样,并从中选择较好的样本对作为未知像素的前景和背景样本点,计算出未知像素的初始Alpha值;充分利用KNN方法搜索样本范围宽的优势对初始Alpha进行后处理。实验表明该后处理算法不仅增强了Alpha的视觉效果,同时也提高了Alpha的结果,尤其是实体前景和背景像素结果的准确性。 展开更多
关键词 采样抠图法 仿射抠图法 鲁棒抠图方法 knn搜索 抠图后处理
下载PDF
基于指数平滑和WKNN的金融时间序列相似性搜索 被引量:4
13
作者 张乔夫 何文明 《现代计算机》 2019年第29期21-25,共5页
采用三重指数移动平均平滑金融时间序列。使用动态时间弯曲方法,计算当前样本与历史高收益样本之间的柔性距离。平均收益随平滑次数(0~3次)增加而提高;收益率加权KNN优于中位数KNN,后者又优于1NN;观察长度等于50时,平均收益最高。最优... 采用三重指数移动平均平滑金融时间序列。使用动态时间弯曲方法,计算当前样本与历史高收益样本之间的柔性距离。平均收益随平滑次数(0~3次)增加而提高;收益率加权KNN优于中位数KNN,后者又优于1NN;观察长度等于50时,平均收益最高。最优参数可以将平均收益从2.02%提高到4.8%。 展开更多
关键词 加权knn 动态时间弯曲 相似性搜索 金融时间序列
下载PDF
一种K值自适应和局部搜索的KNN矩阵修复方法
14
作者 王社会 杨俊安 《电子信息对抗技术》 2014年第6期60-63,共4页
数据在采集和传输过程中由于多种原因会造成矩阵残缺,因此在数据分析之前需要对残缺矩阵进行修复。常见的KNN修复方法 k值选取不合理,且需在整个矩阵中搜索近邻,影响算法的修复效果。在其基础上提出了一种k值自适应的局部KNN矩阵修复方... 数据在采集和传输过程中由于多种原因会造成矩阵残缺,因此在数据分析之前需要对残缺矩阵进行修复。常见的KNN修复方法 k值选取不合理,且需在整个矩阵中搜索近邻,影响算法的修复效果。在其基础上提出了一种k值自适应的局部KNN矩阵修复方法,合理考虑了k值的选取和近邻项的搜索范围。实验证明了该方法能有效提高矩阵修复的正确率,且算法的时效性有所提高。 展开更多
关键词 数据缺失 矩阵修复 knn理论 自适应K 局部最近邻
下载PDF
密度Canopy的增强聚类与深度特征的KNN算法 被引量:2
15
作者 沈学利 秦鑫宇 《计算机科学与探索》 CSCD 北大核心 2021年第7期1289-1301,共13页
K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法。首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深... K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法。首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深度特征表示形式;然后通过密度Canopy算法获取到合适的集群数和初始聚类中心,成为之后K-means聚类的输入参数;最后对学习到的数据进行聚类,并采用近似相似性搜索(ASS)中的Hashing策略按其近似相似度进行集群划分,将结果作为KNN分类器的新训练样本。考虑到要查询的最近邻样本可能落在不同集群之中,导致KNN搜索的性能下降,在聚类时额外采用了一种聚类增强策略,有效缓解了这种情况的发生。使用五个不同的数据集进行对比测试,结果表明:与实验对比的算法相比,该算法不仅能够极大地提高KNN的分类精度,而且有效地提升了算法的分类效率,减少了搜索所需的距离数,对噪声数据还具有良好的鲁棒性。 展开更多
关键词 K最近邻(knn) 密度Canopy 增强聚类 深度神经网络(DNN) 近似相似性搜索(ASS)
下载PDF
支持语义扩展的多关键词密文检索方案
16
作者 刘佩恒 张劼 +2 位作者 张华 张欣 王梦迪 《中国电子科学研究院学报》 2024年第1期42-52,共11页
现有的多关键词的检索研究集中在支持关键词的精确匹配,文中提出一个支持语义扩展查询的多关键词密文检索方案,基于信息内容计算方法同时考虑到关键词与文档的关系引入TF-IDF技术实现语义扩展;采用平衡二叉树的索引结构,使用安全k近邻... 现有的多关键词的检索研究集中在支持关键词的精确匹配,文中提出一个支持语义扩展查询的多关键词密文检索方案,基于信息内容计算方法同时考虑到关键词与文档的关系引入TF-IDF技术实现语义扩展;采用平衡二叉树的索引结构,使用安全k近邻算法加密索引向量和语义扩展查询向量,确保计算出准确的相关性得分,实现多关键词排序搜索。通过进行索引和陷门的机密性、查询无关联性等安全性分析表明,本文实现的检索方案是安全的,可以防止内部威胁。 展开更多
关键词 多关键词搜索 安全knn 语义扩展 可搜索加密
下载PDF
一种基于MapReduce的短时交通流预测方法 被引量:11
17
作者 梁轲 谭建军 李英远 《计算机工程》 CAS CSCD 北大核心 2015年第1期174-179,共6页
非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K... 非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K最近邻算法的搜索速度。在数据预处理阶段利用遗传算法优化关键参数的设置,并采用Map Reduce加速参数优化过程,以解决遗传算法迭代运算时间长的问题。实验结果表明,该方法在保证交通流预测精度的前提下,明显提高了预测速度,并且具有较好的可伸缩性。 展开更多
关键词 交通流预测 非参数回归 K最近邻搜索 遗传算法 Map Reduce编程模型 并行计算
下载PDF
BC-iDistance:基于位码的优化高维索引 被引量:3
18
作者 梁俊杰 冯玉才 《小型微型计算机系统》 CSCD 北大核心 2007年第9期1647-1651,共5页
在高维空间KNN查询算法中,近似向量和一维转换表示法能有效克服维数灾难,本文结合这两种思想,提出一种基于位码的优化高维索引结构(BC-iDistance).针对iDistance缺点,高维向一维转换引起的大量数据信息丢失,BC-iDistance不仅利用一维距... 在高维空间KNN查询算法中,近似向量和一维转换表示法能有效克服维数灾难,本文结合这两种思想,提出一种基于位码的优化高维索引结构(BC-iDistance).针对iDistance缺点,高维向一维转换引起的大量数据信息丢失,BC-iDistance不仅利用一维距离表示点对象和参考点间的远近关系,而且引入位码近似表示它们之间的位置关系,将高维向量压缩为二维向量表示.利用特殊的B+树组织,KNN检索时实现两层剪枝处理,降低I/O和距离计算代价.采用模拟数据和真实数据,实验验证了优化后的索引具有更高的检索效率. 展开更多
关键词 高维索引 knn查询位码 近似向量
下载PDF
金字塔多维索引分析及其算法实现 被引量:1
19
作者 吴永英 张吉根 李晨阳 《计算机工程与科学》 CSCD 2006年第10期92-94,110,共4页
许多多维索引结构随着维度的增加会遇到“维度灾难”问题,而金字塔技术是基于一种依赖特殊优化数据维度的非平均分割策略,能够克服“维度灾难”问题。本文提出了基于金字塔技术的完整算法集,并针对完备高维索引算法,对金字塔索引技术的... 许多多维索引结构随着维度的增加会遇到“维度灾难”问题,而金字塔技术是基于一种依赖特殊优化数据维度的非平均分割策略,能够克服“维度灾难”问题。本文提出了基于金字塔技术的完整算法集,并针对完备高维索引算法,对金字塔索引技术的性能特性进行了深入分析。 展开更多
关键词 金字塔技术 范围查询 K近邻查询
下载PDF
一种基于双层框架的仿射类图像抠像方法 被引量:1
20
作者 姚桂林 赵志杰 +3 位作者 苏晓东 辛海涛 胡文 秦相林 《自动化学报》 EI CAS CSCD 北大核心 2021年第1期209-223,共15页
仿射类抠像方法主要分为KNN(K-nearest neighbor)类和Matting Laplacian类方法,本文结合这2种方法的优点提出了一种基于仿射类的双层次抠像方法.其中,第一层为绝对像素的划分层次或预处理层次,采用了基于KNN类简单权重与相对远距离的搜... 仿射类抠像方法主要分为KNN(K-nearest neighbor)类和Matting Laplacian类方法,本文结合这2种方法的优点提出了一种基于仿射类的双层次抠像方法.其中,第一层为绝对像素的划分层次或预处理层次,采用了基于KNN类简单权重与相对远距离的搜索方法,并结合初始Trimap未知区域大小无关的方式;第二层为混合像素的计算层次或最终抠像层次,充分利用了第一层计算获得的剩余混合像素的宽度,自适应地调整Matting Laplacian中的颜色线性模型所构成颜色近邻的核宽度.每个层次均按图像的全局颜色重叠程度相应调整合理的搜索范围.本文的实验具备以下特点:1)预处理层次之后采用了若干典型的后续抠像方法,以展现本文方法相比于其他预处理方法对后续抠像操作步骤的优越性和兼容性;2)最终抠像层次引入了若干其他抠像方法,以验证本文抠像方法的优越性.实验表明,相比于其他单层次的仿射类方法,无论对于计算绝对像素还是混合像素,本文方法都可以大幅提升计算结果的准确率. 展开更多
关键词 图像抠像 仿射类抠像 Matting Laplacian knn搜索 颜色线性模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部