期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
半结构化数据相似搜索的索引技术研究 被引量:11
1
作者 杨建武 陈晓鸥 《计算机学报》 EI CSCD 北大核心 2002年第11期1219-1226,共8页
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想... 为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标维进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略.实验表明,该结构及算法对海量半结构化数据相似搜索的效率明显优于传统算法. 展开更多
关键词 半结构化数据 相似搜索 索引 相似索引 聚类 数据挖掘 数据库 多路平衡树
下载PDF
基于Simhash的海量相似文档快速搜索优化方法 被引量:7
2
作者 张广庆 葛唯益 贺成龙 《指挥信息系统与技术》 2015年第2期61-65,共5页
相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并... 相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。 展开更多
关键词 Simhash方法 相似文档搜索 顺序匹配
下载PDF
一种基于文档拓扑的相似性搜索算法 被引量:1
3
作者 杨艳 朱戈 范文彬 《计算机工程与应用》 CSCD 北大核心 2011年第26期146-150,共5页
从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题。现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档。提出了一种基于文档拓扑的相似性搜索算法——Hub-N,将文档相似性搜索问题... 从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题。现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档。提出了一种基于文档拓扑的相似性搜索算法——Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率。通过实验验证了算法的有效性和可行性。 展开更多
关键词 文档拓扑 相似性搜索 相似度
下载PDF
基于词间语义相关度的搜索结果聚类算法 被引量:2
4
作者 沙芸 张国英 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期73-76,共4页
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核... 将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高. 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度
下载PDF
基于Multi-Agent的Web个性化信息推送系统 被引量:3
5
作者 黄继征 《现代情报》 2009年第8期117-121,共5页
针对搜索引擎在信息检索过程中存在的缺陷,本文提出了一种基于Multi-Agent的Web个性化信息推送系统模型,并给出了该模型的结构、工作流程以及算法设计。该系统采用Multi-Agent系统的体系结构和反馈机制,各个Agent分工协作完成信息推送任... 针对搜索引擎在信息检索过程中存在的缺陷,本文提出了一种基于Multi-Agent的Web个性化信息推送系统模型,并给出了该模型的结构、工作流程以及算法设计。该系统采用Multi-Agent系统的体系结构和反馈机制,各个Agent分工协作完成信息推送任务,体现了信息服务的智能化与个性化等特点。 展开更多
关键词 Agent 信息检索 信息过滤 信息推送 向量空间模型 相似度 文档聚类
下载PDF
基于链接相似度Web挖掘算法的研究与改进 被引量:5
6
作者 杨益凡 朱明 李华虎 《计算机应用与软件》 CSCD 2011年第1期272-273,301,共3页
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进... 在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。 展开更多
关键词 WEB挖掘 HITS算法 DS-HITS算法
下载PDF
一种基于PageRank的文献相似性搜索算法 被引量:3
7
作者 朱戈 《计算机工程与应用》 CSCD 2013年第8期142-145,共4页
在分析了PageRank算法基础上,提出了PageRank应用于科技文献相似性搜索的可行性,针对PageRank的不足提出了一种改进算法,该算法结合了对文献内容和文献间的引用关系的分析,综合计算文献间相似度,提高了搜索结果的准确率,并通过实验验证... 在分析了PageRank算法基础上,提出了PageRank应用于科技文献相似性搜索的可行性,针对PageRank的不足提出了一种改进算法,该算法结合了对文献内容和文献间的引用关系的分析,综合计算文献间相似度,提高了搜索结果的准确率,并通过实验验证了算法的有效性和可行性。 展开更多
关键词 科技文献 相似性搜索 PAGERANK算法
下载PDF
基于主题词匹配频数的搜索引擎结果聚类算法 被引量:2
8
作者 胡诗未 李晓峰 徐伟 《计算机工程与科学》 CSCD 北大核心 2011年第6期130-132,共3页
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题... 搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度 主题词
下载PDF
基于BFS树的XML文档图结构相似性计算 被引量:3
9
作者 张杰 卫金茂 刘丹 《计算机工程与设计》 CSCD 北大核心 2008年第17期4603-4605,4617,共4页
可扩展链接语言将XML文档从树状结构扩展到图状结构,其结构相似性比较对文档查询、聚类意义重大。现存的比较XML树状结构相似性以及比较图结构相似性的方法忽视了文档结构特点,比较的结果与实际存在较大差异。基于BFS树的XML文档图结构... 可扩展链接语言将XML文档从树状结构扩展到图状结构,其结构相似性比较对文档查询、聚类意义重大。现存的比较XML树状结构相似性以及比较图结构相似性的方法忽视了文档结构特点,比较的结果与实际存在较大差异。基于BFS树的XML文档图结构相似性计算方法运用广度优先搜索算法找到最小代码树,重新定义了编辑距离的概念。比较结果表明,该方法更符合实际文档相似程度,因此在比较XML文档图结构相似性上有很大的可行性。 展开更多
关键词 结构相似性 广度优先搜索算法 可扩展标记语言 文档图 编辑距离 最小代码树
下载PDF
类案检索的运行方式及其完善——以《关于统一法律适用加强类案检索的指导意见(试行)》为分析对象 被引量:6
10
作者 孙光宁 《南通大学学报(社会科学版)》 CSSCI 2022年第1期90-100,共11页
信息传播速度的加快对法律统一适用提出了更高要求,法官在面对疑难案件时需要借助于其他类案的经验与智慧才能满足这一要求,在人工智能的推动之下,类案检索机制应运而生。《关于统一法律适用加强类案检索的指导意见(试行)》就是最高人... 信息传播速度的加快对法律统一适用提出了更高要求,法官在面对疑难案件时需要借助于其他类案的经验与智慧才能满足这一要求,在人工智能的推动之下,类案检索机制应运而生。《关于统一法律适用加强类案检索的指导意见(试行)》就是最高人民法院针对该机制的第一个专门文件,规定了类案检索的基本运行方式,其核心内容包括检索对象、检索主体和检索方法等,这些核心规定仍然需要进一步完善。具体而言,针对检索对象——有效类案的认定标准,该指导意见关注了多元的实体标准,由于不存在完全相同案件,通过司法程序的运行也能够为认定类案提供重要帮助。就检索主体来说,虽然法官按照规定处于明显的优势地位,但是也存在着激励不足的隐患;充分发挥诉讼参与人(当事人及律师)在类案检索方面的积极性是更值得重视的途径。就具体检索方法来说,前述指导意见提供的主要搜索方法各有内在缺陷,需要承办法官灵活运用,地方法院还可以向律师开放更高检索权限,以有效扩大检索范围;初步确定检索范围之后,法官应依据特定的优先标准对检索结果进行排序。类案检索的指导意见总体上比较稳妥和保守,反映了最高人民法院对司法裁判引入人工智能仍然持有相对谨慎的态度。 展开更多
关键词 类案检索 指导性案例 法律统一适用 人工智能 裁判文书
下载PDF
基于版式电子文档的全文检索技术在自然资源部机关政务办公系统中的应用初探 被引量:1
11
作者 李正 咸容禹 +2 位作者 余前佳 陈卉 吴玉龙 《国土资源信息化》 2019年第2期22-26,共5页
通过构建版式电子文档库及配套的文档自动转换功能,为实现公文全文检索提供了结构化数据源,同时基于成熟的自然语言处理技术结合政务办公的业务需求特点实现了全文检索、相似文件查询等功能。成功的探索出了一套传统办公系统升级全文检... 通过构建版式电子文档库及配套的文档自动转换功能,为实现公文全文检索提供了结构化数据源,同时基于成熟的自然语言处理技术结合政务办公的业务需求特点实现了全文检索、相似文件查询等功能。成功的探索出了一套传统办公系统升级全文检索功能的解决方案。 展开更多
关键词 政务办公系统 版式文档 全文检索 相似文件检索
下载PDF
基于内部文档比较的重排序算法 被引量:3
12
作者 原福永 郭丽娜 毛伟伟 《现代图书情报技术》 CSSCI 北大核心 2009年第11期49-52,共4页
分析现有搜索引擎重排序方法的不足,并对初始检索结果集中的每个文档相对于其他文档与查询词之间的相似度进行研究。提出一个基于内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。实验结果表明,该... 分析现有搜索引擎重排序方法的不足,并对初始检索结果集中的每个文档相对于其他文档与查询词之间的相似度进行研究。提出一个基于内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。实验结果表明,该算法比当前的重排序算法具有更高的查准率。 展开更多
关键词 搜索引擎 内部文档 比较相 似度
原文传递
基于核化局部敏感哈希的快速文档检索方法 被引量:1
13
作者 詹增荣 程丹 《湖南科技大学学报(自然科学版)》 CAS 北大核心 2019年第3期75-83,共9页
在大规模文档中进行快速的相似搜索对绝大多数信息检索应用程序是至关重要的.基于局部敏感哈希的检索方法将高维的空间数据映射到低维的二进制海明空间,从而实现了快速搜索.本文给出了一个基于核化局部敏感哈希的快速文档检索方法,可以... 在大规模文档中进行快速的相似搜索对绝大多数信息检索应用程序是至关重要的.基于局部敏感哈希的检索方法将高维的空间数据映射到低维的二进制海明空间,从而实现了快速搜索.本文给出了一个基于核化局部敏感哈希的快速文档检索方法,可以在保证时间效率下允许算法使用不同的相似函数进行快速检索.实验结果表明该方法在大规模文档集合检索中具有较好的效率和准确率. 展开更多
关键词 局部敏感哈希 相似搜索 文档检索 核函数
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部