期刊文献+
共找到96篇文章
< 1 2 5 >
每页显示 20 50 100
文本相似度计算方法综述
1
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
小尺度水平井钻柱动力学实验台架研制及应用
2
作者 况雨春 张涛 林伟 《石油钻探技术》 CAS CSCD 北大核心 2024年第4期15-23,共9页
水平井钻井过程中钻头与钻柱的运动规律非常复杂,通过现场测试研究钻头与钻柱振动的方法成本高,无法准确解耦各因素,且数据采样率低,不能进行系统分析。因此,以物理相似为基础,设计了一套基于微钻头−钻柱−岩石的小尺度水平井钻柱动力学... 水平井钻井过程中钻头与钻柱的运动规律非常复杂,通过现场测试研究钻头与钻柱振动的方法成本高,无法准确解耦各因素,且数据采样率低,不能进行系统分析。因此,以物理相似为基础,设计了一套基于微钻头−钻柱−岩石的小尺度水平井钻柱动力学模拟实验台架;在钻柱上设计分段套管,模拟套管对钻柱的约束;为更加真实反应钻头与岩石互作用对钻杆及钻头振动的影响,设计微型PDC钻头进行模拟破岩;开展了水平井钻柱室内试验研究,分析了钻柱系统的耦合振动、转速及钻压对钻柱系统振动的影响规律。结果表明:钻头的轴向振动对钻头的扭转振动有较大的影响,且当钻柱发生扭转振动时,其功率谱密度明显高于匀速转动下钻头的功率谱密度;随着转速增大,钻头和钻柱的横向振动加速度也随之增大,钻头扭转振动在主频上的振动幅值也随之增大;随着钻压增大,钻头粘滑振动和横向振动加剧,但对轴向振动的影响不明显。 展开更多
关键词 水平井 物理相似 钻柱动力学 实验台架 钻柱振动
下载PDF
A Novel Mathematical Model for Similarity Search in Pattern Matching Algorithms 被引量:1
3
作者 P. Vinod-Prasad 《Journal of Computer and Communications》 2020年第9期94-99,共6页
Modern applications require large databases to be searched for regions that are similar to a given pattern. The DNA sequence analysis, speech and text recognition, artificial intelligence, Internet of Things, and many... Modern applications require large databases to be searched for regions that are similar to a given pattern. The DNA sequence analysis, speech and text recognition, artificial intelligence, Internet of Things, and many other applications highly depend on pattern matching or similarity searches. In this paper, we discuss some of the string matching solutions developed in the past. Then, we present a novel mathematical model to search for a given pattern and it’s near approximates in the text. 展开更多
关键词 string Matching Pattern Matching similarity Search Substring Search
下载PDF
下部钻柱扭摆运动的力学特性实验研究 被引量:1
4
作者 易先中 杨泽红 +4 位作者 马苏南 陈辉 贺东旭 乔少峰 易军 《现代机械》 2023年第4期28-32,共5页
国内钻柱扭摆减阻技术尚不成熟,缺乏钻柱扭摆减阻的理论研究和试验数据的支撑。为此,利用相似参数搭建扭摆运动钻柱力学特性试验平台,通过试验分析了地面扭矩传递范围、反扭矩作用范围,以及扭摆作用对载荷传递的影响、扭摆角度对载荷传... 国内钻柱扭摆减阻技术尚不成熟,缺乏钻柱扭摆减阻的理论研究和试验数据的支撑。为此,利用相似参数搭建扭摆运动钻柱力学特性试验平台,通过试验分析了地面扭矩传递范围、反扭矩作用范围,以及扭摆作用对载荷传递的影响、扭摆角度对载荷传递的影响、扭摆速度对载荷传递的影响。试验平台测试结果表明,适当增加扭摆角度和扭摆速度有利于钻压平稳,保持工具面稳定。 展开更多
关键词 钻柱 扭摆运动 试验 相似原理
下载PDF
一种基于熵的文本相似性计算方法 被引量:13
5
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
下载PDF
基于字符串相似度的维吾尔语中汉语借词识别 被引量:6
6
作者 米成刚 杨雅婷 +2 位作者 周喜 李晓 杨明忠 《中文信息学报》 CSCD 北大核心 2013年第5期173-178,190,共7页
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借... 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 展开更多
关键词 借词 未登录词 发音相似度 字符串相似度
下载PDF
基于Trie树的相似字符串查找算法 被引量:10
7
作者 刘丽霞 张志强 《计算机应用》 CSCD 北大核心 2013年第8期2375-2378,共4页
基于Trie树的相似字符串查找算法是利用编辑距离的阈值来计算每个节点的活跃节点集,已有算法由于存在大量的冗余计算,导致时间复杂度和空间复杂度都比较高。针对这个问题,采用了基于活跃节点的对称性和动态规划算法的思想对已有算法进... 基于Trie树的相似字符串查找算法是利用编辑距离的阈值来计算每个节点的活跃节点集,已有算法由于存在大量的冗余计算,导致时间复杂度和空间复杂度都比较高。针对这个问题,采用了基于活跃节点的对称性和动态规划算法的思想对已有算法进行改进,并对活跃节点集进行了修剪,提出了New-Trie-Stack算法。该算法避免了活跃节点的重复计算,以及已有算法在保存所有已遍历节点的活跃节点集时的空间开销。实验结果表明New-Trie-Stack算法在时间复杂度和空间复杂度上都有明显的下降。 展开更多
关键词 TRIE树 相似字符串 编辑距离 活跃节点 动态规划
下载PDF
基于字符串度量的CAD模型相似性比较算法 被引量:6
8
作者 张欣 莫蓉 +1 位作者 石源 常智勇 《中国机械工程》 EI CAS CSCD 北大核心 2009年第20期2435-2440,共6页
提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后... 提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后的属性邻接图映射为字符串。通过编辑距离来度量字符串的相似度,并用字符串的相似度来度量CAD模型的形状相似度。实验结果表明,该算法能客观地反映两个CAD模型的相似度,且准确性和效率令人满意。 展开更多
关键词 形状相似度 属性邻接图 字符串相似度 编辑距离
下载PDF
RM树:一种支持字符串相似性操作的索引 被引量:6
9
作者 王金宝 高宏 +1 位作者 李建中 杨东华 《计算机学报》 EI CSCD 北大核心 2011年第11期2142-2154,共13页
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符... 字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性. 展开更多
关键词 字符串 相似性 索引 查询处理 连接处理
下载PDF
空间数据上Top-k关键词模糊查询算法 被引量:15
10
作者 胡骏 范举 +1 位作者 李国良 陈姗姗 《计算机学报》 EI CSCD 北大核心 2012年第11期2237-2246,共10页
基于位置的服务(LBS)变得日益普及,越来越多的研究开始关注如何对空间中的兴趣点(POI)做有效的检索.现有的方法提出了空间数据上的关键词检索,研究如何根据查询的位置和关键词找到相关的POI点.然而,现有方法主要对查询关键词进行精确匹... 基于位置的服务(LBS)变得日益普及,越来越多的研究开始关注如何对空间中的兴趣点(POI)做有效的检索.现有的方法提出了空间数据上的关键词检索,研究如何根据查询的位置和关键词找到相关的POI点.然而,现有方法主要对查询关键词进行精确匹配,不能支持模糊查询:当查询关键词与底层数据存在微小差异的时候,LBS系统不能返回相关的结果.为了满足移动用户的模糊查询需求,文中对空间数据上的Top-k关键词模糊查询问题进行研究:给定一组POI点,检索与查询关键词近似匹配且空间上距离相近的Top-k个结果.为了提供高效的模糊查询,文中首先定义了一种新型的相关性函数,综合考虑了文本相似性和空间距离,进而提出了一种有效的索引结构RegionTrie,并基于RegionTrie设计了高效的Top-k算法.真实数据集上的实验结果表明,文中提出的Top-k算法十分高效,性能远好于对比方法. 展开更多
关键词 基于位置的服务 空间数据上的关键词检索 字符串近似匹配
下载PDF
一种融合多种编辑距离的字符串相似度计算方法 被引量:41
11
作者 刁兴春 谭明超 曹建军 《计算机应用研究》 CSCD 北大核心 2010年第12期4523-4525,共3页
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似... 针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 展开更多
关键词 数据清洗 相似重复记录 字符串匹配 字符串相似度 编辑距离
下载PDF
基于编辑距离相似度的文本校验技术研究与应用 被引量:12
12
作者 何锋 谷锁林 陈彦辉 《飞行器测控学报》 CSCD 2015年第4期389-394,共6页
树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此... 树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此基础上定义了多叉树之间的编辑距离,建立了衡量多叉树之间相似度的方法,设计了基于模糊匹配的文本配置自动校对流程,解决了精确匹配时由字符的多义性导致的查全率失真和误判的问题。根据实验结果,查全率和查准率分别达到了87.5%和100%,有效提高了基于树形结构的文本配置自动校验时的可靠性。 展开更多
关键词 字符串相似度 树编辑距离 模糊匹配 文本校验
下载PDF
一种基于模式的实体解析算法 被引量:6
13
作者 刘辉平 金澈清 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第9期1796-1808,共13页
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记... 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性. 展开更多
关键词 数据融合 数据清洗 实体解析 编辑距离 字符串相似度
下载PDF
外存中高效的字符串相似性查询处理 被引量:3
14
作者 王金宝 高宏 +1 位作者 李建中 杨东华 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期738-748,共11页
字符串相似性查询是众多应用的基础操作,如数据清洁、拼写校验、生物信息学和信息集成等.随着数据的爆炸性增长,大规模字符串数据日益普遍,现代的信息系统中也广泛使用字符串作为数据的表达形式.现有支持字符串相似性查询的方法大多是基... 字符串相似性查询是众多应用的基础操作,如数据清洁、拼写校验、生物信息学和信息集成等.随着数据的爆炸性增长,大规模字符串数据日益普遍,现代的信息系统中也广泛使用字符串作为数据的表达形式.现有支持字符串相似性查询的方法大多是基于q-gram的内存倒排索引,在处理大规模字符串集合会消耗无法忍受的内存容量,甚至在数据量过大时造成内存容量不足而无法支持查询处理.现有的外存倒排索引Behm-Index在查询的过滤阶段只支持少数过滤器,不能有效地减少查询I/O代价.提出了LPA-Index:一种支持长度过滤器和位置过滤器的外存倒排索引,并通过选择查询时使用的倒排表来有效地降低查询I/O代价.实验结果表明,与现有性能最好的外存索引Behm-Index相比,LPA-Index能够大幅降低查询的I/O代价,获得了更短的查询响应时间. 展开更多
关键词 字符串 相似性查询 外存 查询处理 编辑距离
下载PDF
基于字面相似度的地理信息分类体系自动转换方法 被引量:15
15
作者 张雪英 闾国年 《遥感学报》 EI CSCD 北大核心 2008年第3期433-441,共9页
地理信息分类体系转换对于实现异构地理信息系统之间的语义信息共享与互操作具有至关重要的作用。人工转换方法效果较好,但是对时间、经费和领域专家的要求较高。提出了一种基于字面相似度的地理信息分类体系自动转换方法,包括类别语义... 地理信息分类体系转换对于实现异构地理信息系统之间的语义信息共享与互操作具有至关重要的作用。人工转换方法效果较好,但是对时间、经费和领域专家的要求较高。提出了一种基于字面相似度的地理信息分类体系自动转换方法,包括类别语义相度计算方法、类别转换模型和分类体系转换算法。实验表明,该方法能够比较有效地构建不同地理信息分类体系的类别转换关系,实现它们之间的自动转换。 展开更多
关键词 地理信息分类体系 语义转换 字面相似度 转换模型
下载PDF
维汉机器翻译未登录词识别研究 被引量:9
16
作者 米成刚 王磊 +1 位作者 杨雅婷 陈科海 《计算机应用研究》 CSCD 北大核心 2013年第4期1112-1115,共4页
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维... 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。 展开更多
关键词 维汉机器翻译 短语表 字符串相似度算法 未登录词 词切分 编辑距离
下载PDF
一种基于形状的图像信息检索方法 被引量:7
17
作者 刘继敏 史忠植 《软件学报》 EI CSCD 北大核心 2000年第1期110-115,共6页
该文把一幅图像看成是由一些区域构成的 ,这些区域在其内部有着颜色或纹理等方面的相似性 ,图像的形状由这些区域的边界线及其空间关系来描述 .要根据图像中所包含的物体或场景在形状方面的特征进行检索 ,关键问题是形状相似性的度量及... 该文把一幅图像看成是由一些区域构成的 ,这些区域在其内部有着颜色或纹理等方面的相似性 ,图像的形状由这些区域的边界线及其空间关系来描述 .要根据图像中所包含的物体或场景在形状方面的特征进行检索 ,关键问题是形状相似性的度量及其空间关系的表示与匹配 .文章应用变形模板匹配技术 ,提出了较为合理的简单形状相似性计算方法 ,而这些简单形状之间的空间关系则由二维集合串来表示 .文章还给出了空间关系匹配算法 ,在检索方法上 ,将整个检索过程分为初级检索、检索求精与空间关系匹配 3个阶段 .实验表明 ,此方法既有较高的检索速度 ,又有较高的检索精度 . 展开更多
关键词 图像库 图像信息检索 形状 图像处理
下载PDF
基于串匹配方法的源代码复制检测技术研究 被引量:9
18
作者 邓爱萍 徐国梁 肖奔 《科学技术与工程》 2007年第10期2251-2254,共4页
无论在商业软件还是在学生程序设计作业中,程序代码的抄袭都是一种普遍存在的现象。对程序代码进行复制检测是一个复杂的计算过程。探讨了源代码复制检测技术的现状,提出了对学生程序设计作业进行源代码复制检测的一种实现方案。
关键词 源代码 复制检测 标记串 相似度
下载PDF
底部钻具组合力学特性模拟试验研究 被引量:6
19
作者 范永涛 高德利 +1 位作者 张辉 房军 《石油钻探技术》 CAS CSCD 北大核心 2013年第3期80-84,共5页
底部钻具组合(BHA)的力学特性直接影响井身质量、钻井安全与钻速,因此,需要从理论和试验2个方面去研究BHA的力学特性,然而目前试验方面的研究很少。根据相似理论,利用底部钻柱力学装置,模拟研究了钻压和转速对井斜力、方位力、钻头合侧... 底部钻具组合(BHA)的力学特性直接影响井身质量、钻井安全与钻速,因此,需要从理论和试验2个方面去研究BHA的力学特性,然而目前试验方面的研究很少。根据相似理论,利用底部钻柱力学装置,模拟研究了钻压和转速对井斜力、方位力、钻头合侧向力及其方向角的影响规律。结果表明:合侧向力随钻压的增大而增大,转速对合侧向力的影响较小;随钻压增大,井斜力增大,转速越大,井斜力越大;方位力随钻压增大而增大,转速对方位力的影响较小;合侧向力方向角随钻压增大而减小,随转速增大而增大。研究结果可为井斜控制机理研究和防斜打快提供理论依据。 展开更多
关键词 钻具组合 相似理论 钻柱力学 井斜控制 模拟试验
下载PDF
内外双重张弦网壳结构的模型设计及静力试验 被引量:7
20
作者 姚云龙 董石麟 +3 位作者 刘宏创 夏巨伟 张民锐 祖义祯 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第7期1129-1139,共11页
为了研究内外双重张弦网壳结构整体预张力的分布特性和静力荷载下的内力和变形特点,按照1∶15比例设计和制作了乐清体育馆屋盖的缩尺模型.将整个结构分为索杆部分和梁元部分,根据相似性原理确定模型各参数的相似比;进行构件和节点的设计... 为了研究内外双重张弦网壳结构整体预张力的分布特性和静力荷载下的内力和变形特点,按照1∶15比例设计和制作了乐清体育馆屋盖的缩尺模型.将整个结构分为索杆部分和梁元部分,根据相似性原理确定模型各参数的相似比;进行构件和节点的设计,讨论模型设计的有效性;根据试验内容和模型特点确定试验的加载方案和测量方案,对该模型进行全垮加载试验.研究结果表明:有限元分析结果和试验值吻合较好,试验模型的设计、加载方式和测量方案满足要求;全跨加载情况下的结构内力和变形基本上呈线性变化,说明体育馆采用的新型内外双重张弦网壳结构具有良好的承载能力和结构刚度,结构体系安全可靠. 展开更多
关键词 内外双重张弦网壳结构 相似比 静力分析
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部