期刊文献+
共找到1,299篇文章
< 1 2 65 >
每页显示 20 50 100
一种工控协议识别中的特征字符串挖掘算法
1
作者 海洋 徐魁 +2 位作者 李晓辉 曾涛 陶军 《计算机技术与发展》 2024年第1期200-205,共6页
对工控协议的识别,是对工控协议开展研究的第一步。而在通信过程中频繁出现的字符串,是对工控协议识别中的重要特征。针对工控协议识别中特征字符串的提取问题,提出了一种自顶向下的频繁字符串挖掘算法,可以直接得到没有冗余的频繁字符... 对工控协议的识别,是对工控协议开展研究的第一步。而在通信过程中频繁出现的字符串,是对工控协议识别中的重要特征。针对工控协议识别中特征字符串的提取问题,提出了一种自顶向下的频繁字符串挖掘算法,可以直接得到没有冗余的频繁字符串集。同时,对于自顶向下方法中原始数据过于庞大、算法迭代次数较多等问题,借鉴了N-gram模型,提出了一种数据划分策略,解决了自顶向下处理时数据过大的问题。此外,在挖掘频繁字符串的过程中,采取了删除重叠项与字符串分裂相结合的方法。实验结果表明,该算法针对多种协议均能识别出其中的特征字符串;同时,利用识别出的字符串作为特征,在协议识别工作中也能取得良好的效果。可以得出结论,该算法能够较好地提取出工控协议中的特征字符串。 展开更多
关键词 频繁字符串 自顶向下 数据划分 特征提取 数据处理
下载PDF
一种基于编辑距离的中文字符串近似匹配算法
2
作者 王昭 薛晨浩 裴卓雄 《山西电子技术》 2024年第4期43-45,共3页
字符串近似匹配是模式匹配领域中的一个重要研究方向。在中文字符串近似匹配中,基于字符操作的编辑距离不能准确衡量由复制、剪贴等操作导致的相似关系。基于此,在传统编辑距离的基础上引入了字符串的平移和复制操作,给出了一种在贪心... 字符串近似匹配是模式匹配领域中的一个重要研究方向。在中文字符串近似匹配中,基于字符操作的编辑距离不能准确衡量由复制、剪贴等操作导致的相似关系。基于此,在传统编辑距离的基础上引入了字符串的平移和复制操作,给出了一种在贪心算法基础上进行动态规划搜索的计算方法,能有效计算改进的编辑距离,在真实数据集上的实验结果和分析显示了对文本检索的有效性。 展开更多
关键词 字符串匹配 近似匹配 动态规划算法 编辑距离
下载PDF
基于字符串相似度匹配算法挖掘健康体检报告疾病分布规律的实践与探讨
3
作者 胡萍 吴俏玉 杨彩霞 《医院管理论坛》 2023年第9期90-96,共7页
传统的健康体检主检报告存在大量同义词和上下位词,对同一类型疾病文本描述不一致,给后期疾病检索和数据统计造成困难。本文提出基于字符串相似度匹配的健康体检主检报告疾病分布规律挖掘方法,其步骤包括三个方面:首先根据大量调研设计... 传统的健康体检主检报告存在大量同义词和上下位词,对同一类型疾病文本描述不一致,给后期疾病检索和数据统计造成困难。本文提出基于字符串相似度匹配的健康体检主检报告疾病分布规律挖掘方法,其步骤包括三个方面:首先根据大量调研设计不同疾病的关键搜索字组合,避免疾病重复搜索或漏检;其次利用字符串匹配函数对原始非结构化数据进行检索、排序和相似度计算;最后对统计结果进行关联分析,得出疾病分布规律的报表数据。以长沙市地区2021年1725名医保公务员的主检文本数据为例得出自动化报表数据。方法的优点在于建立起了传统非结构化文本数据与体检报表数据之间的关联关系,对于提高健康管理效率有积极指导意义。 展开更多
关键词 字符串匹配 健康体检 主检报告 报表数据 疾病分布规律
下载PDF
字符串加密及传输处理方式研究
4
作者 郭建明 王嘉宁 《信息记录材料》 2023年第11期148-150,共3页
随着现代通信技术的高速发展和完善,人们对网络传输安全的需求不言而喻,各种各样的网络窃密方式成为用户和企事业单位的突出安全问题。字符串加密及传输也成为了网络传输安全的基本单元,发挥着至关重要的作用。在此背景下,本文对常见加... 随着现代通信技术的高速发展和完善,人们对网络传输安全的需求不言而喻,各种各样的网络窃密方式成为用户和企事业单位的突出安全问题。字符串加密及传输也成为了网络传输安全的基本单元,发挥着至关重要的作用。在此背景下,本文对常见加密方式进行了总结,探讨了现有加密的潜在风险。此外,引入了Token和Salt值(盐值)的概念,改进了目前的字符串加密方式,并给出了服务端如何处理提交的字符串,有助于保护个人隐私、维护商业机密和确保国家安全,也有望推动密码学、网络安全和信息技术领域的进一步发展。 展开更多
关键词 计算机 字符串 数据加密 网络通信安全
下载PDF
Java中关于字符串的若干问题分析
5
作者 袁玲 《长江信息通信》 2023年第10期96-98,共3页
通过用不同的方法对字符串初始化,结合反编译分析,得到初始化方法对程序结果的影响以及常量池的分配原则。在此基础上,对Java相等性比较做了详细分析,并对equals()方法和直接使用“==”进行比较,得出引用相等性比较和对象相等性比较的... 通过用不同的方法对字符串初始化,结合反编译分析,得到初始化方法对程序结果的影响以及常量池的分配原则。在此基础上,对Java相等性比较做了详细分析,并对equals()方法和直接使用“==”进行比较,得出引用相等性比较和对象相等性比较的区别。最后,对比String类和StringBuffer类对象在程序中的不同使用方法,从堆和栈的分配方式分析不同的原因,并针对JVM的运行性能进行比较,得出优化程序的原则。 展开更多
关键词 字符串 问题分析 JAVA 初始化 相等性比较 反编译分析
下载PDF
一种快速的多模式字符串匹配算法 被引量:29
6
作者 许一震 王永成 沈洲 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第4期516-520,共5页
以基于有限自动机的多模式匹配算法 (DFSA)为基础 ,结合 Boyer- Moore(BM)和 QuickSearch (QS)快速单模式匹配算法的优点 ,提出了一种快速的多模式字符串匹配算法 .在一般情况下 ,该算法不需要匹配目标文本串中的每个字符 ,能充分利用... 以基于有限自动机的多模式匹配算法 (DFSA)为基础 ,结合 Boyer- Moore(BM)和 QuickSearch (QS)快速单模式匹配算法的优点 ,提出了一种快速的多模式字符串匹配算法 .在一般情况下 ,该算法不需要匹配目标文本串中的每个字符 ,能充分利用匹配过程中本次匹配不成功的信息和已经匹配成功的信息 ,跳过尽可能多的字符 .实验表明 ,模式串较短时 ,本算法所需时间为 DFSA算法的 1 /2~ 1 /3 ;模式串较长时 ,其所需时间为 DFSA算法的 1 /3~ 1 展开更多
关键词 字符串 算法 有限自动机 多模式匹配 信息处理
下载PDF
字符串匹配技术研究 被引量:26
7
作者 李雪莹 刘宝旭 许榕生 《计算机工程》 CAS CSCD 北大核心 2004年第22期24-26,共3页
简述了字符串匹配算法的研究进展,分析了Knuth- Morris-Pratt算法、Boyer-Moore算法以及Horspool、Wu & Manber和Aho-Corasick针对Boyer-Moore算法提出的多种改进算法,并基于网络安全应用中开放源码的NIDS系统——Snort2.0,对其中... 简述了字符串匹配算法的研究进展,分析了Knuth- Morris-Pratt算法、Boyer-Moore算法以及Horspool、Wu & Manber和Aho-Corasick针对Boyer-Moore算法提出的多种改进算法,并基于网络安全应用中开放源码的NIDS系统——Snort2.0,对其中几个算法进行评测,指出了实际应用中字符串匹配技术的关键点和解决办法,探讨了应用字符串匹配技术的NIDS的研发方向。 展开更多
关键词 字符串匹配 模式匹配 信息处理 Knuth-Morris-Pratt算法 Boycr-Moore算法
下载PDF
快速中文字符串模糊匹配算法 被引量:23
8
作者 陈开渠 赵洁 彭志威 《中文信息学报》 CSCD 北大核心 2004年第2期58-65,共8页
本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将... 本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将会是一个问题。本文改进了位向量方法 ,使其在应用于中文字符串时 ,空间需求降低到约 5 %。本文还利用汉字非常多的特点 ,提出一种新的基于过滤方法的中文字符串模糊匹配算法 ,BPM BM ,其速度比世界上最快的算法至少提高 14 %;在大部分情况下 ,是其速度的 1 5~ 2倍。 展开更多
关键词 计算机应用 中文信息处理 字符串匹配 模糊匹配 中文字符串匹配
下载PDF
一种融合多种编辑距离的字符串相似度计算方法 被引量:41
9
作者 刁兴春 谭明超 曹建军 《计算机应用研究》 CSCD 北大核心 2010年第12期4523-4525,共3页
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似... 针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 展开更多
关键词 数据清洗 相似重复记录 字符串匹配 字符串相似度 编辑距离
下载PDF
改进的AC-BM字符串匹配算法 被引量:20
10
作者 万国根 秦志光 《电子科技大学学报》 EI CAS CSCD 北大核心 2006年第4期531-533,541,共4页
提出了改进的AC-BM算法,将待匹配的字符串集合转换为一个类似于Aho-Corasick算法的树状有限状态自动机。匹配时,采取自后向前的方法,并借用BM算法的坏字符跳转和好前缀跳转技术。改进的AC-BM算法借助BMH算法思想,取消了原AC-BM算法的好... 提出了改进的AC-BM算法,将待匹配的字符串集合转换为一个类似于Aho-Corasick算法的树状有限状态自动机。匹配时,采取自后向前的方法,并借用BM算法的坏字符跳转和好前缀跳转技术。改进的AC-BM算法借助BMH算法思想,取消了原AC-BM算法的好前缀跳转,并对坏字符跳转部分的计算进行优化。新算法修改了skip的计算方法,不再保留每个节点的好前缀跳转参数及坏字符跳转参数,因此匹配只与当前匹配字符有关,而与当前节点无关,可以实现大小写正文的识别。 展开更多
关键词 算法 字符串匹配 内容分析 入侵检测
下载PDF
一种快速的字符串匹配算法 被引量:24
11
作者 钱屹 侯义斌 《小型微型计算机系统》 CSCD 北大核心 2004年第3期410-413,共4页
字符串匹配技术在许多领域里广泛应用 ,本文在分析了 BF、BM算法以及一些重要的改进算法的基础上 ,提出了一种新的改进算法—— BMH2 C,该算法利用两个字符计算右移量并保存在二维数组里 ,使右移量增大 ,比较次数减少 ,有效地提高了匹... 字符串匹配技术在许多领域里广泛应用 ,本文在分析了 BF、BM算法以及一些重要的改进算法的基础上 ,提出了一种新的改进算法—— BMH2 C,该算法利用两个字符计算右移量并保存在二维数组里 ,使右移量增大 ,比较次数减少 ,有效地提高了匹配速度 . 展开更多
关键词 模式匹配 字符串检索 字符串匹配算法 BMH2C算法 BF算法 BM算法
下载PDF
基于马尔科夫随机场的粘连字符串切分算法 被引量:5
12
作者 杨庆海 卢波 +2 位作者 颜子夜 黄沈滨 王海洁 《计算机工程》 CAS CSCD 2013年第4期258-262,共5页
粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到... 粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。 展开更多
关键词 字符串切分 粘连字符串 机器学习 马尔科夫随机场 信念传播 概率图
下载PDF
改进的多模式字符串匹配算法 被引量:11
13
作者 蔡晓妍 戴冠中 杨黎斌 《计算机应用》 CSCD 北大核心 2007年第6期1415-1417,共3页
在经典的AC多模式字符串匹配算法的基础上,结合BMH算法的优点,提出了一种快速的多模式字符串匹配算法。一般情况下,该算法不需要匹配目标文本串中的每个字符,而是在实际比较之前跳过尽可能多的字符,以减少字符比较的操作,实现快速匹配... 在经典的AC多模式字符串匹配算法的基础上,结合BMH算法的优点,提出了一种快速的多模式字符串匹配算法。一般情况下,该算法不需要匹配目标文本串中的每个字符,而是在实际比较之前跳过尽可能多的字符,以减少字符比较的操作,实现快速匹配。在模式串较长和较短的情况下,算法都有很好的性能。实验表明,在模式串较短时,本算法所需的时间仅为AC算法的50%~30%;在模式串较长时,所需时间为AC算法的26.7%~15.2%。 展开更多
关键词 字符串匹配 AC算法 BMH算法 多模式匹配 算法复杂度
下载PDF
RM树:一种支持字符串相似性操作的索引 被引量:6
14
作者 王金宝 高宏 +1 位作者 李建中 杨东华 《计算机学报》 EI CSCD 北大核心 2011年第11期2142-2154,共13页
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符... 字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性. 展开更多
关键词 字符串 相似性 索引 查询处理 连接处理
下载PDF
基于字符串相似度的维吾尔语中汉语借词识别 被引量:6
15
作者 米成刚 杨雅婷 +2 位作者 周喜 李晓 杨明忠 《中文信息学报》 CSCD 北大核心 2013年第5期173-178,190,共7页
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借... 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 展开更多
关键词 借词 未登录词 发音相似度 字符串相似度
下载PDF
基于字符串度量的CAD模型相似性比较算法 被引量:6
16
作者 张欣 莫蓉 +1 位作者 石源 常智勇 《中国机械工程》 EI CAS CSCD 北大核心 2009年第20期2435-2440,共6页
提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后... 提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后的属性邻接图映射为字符串。通过编辑距离来度量字符串的相似度,并用字符串的相似度来度量CAD模型的形状相似度。实验结果表明,该算法能客观地反映两个CAD模型的相似度,且准确性和效率令人满意。 展开更多
关键词 形状相似度 属性邻接图 字符串相似度 编辑距离
下载PDF
一种改进的字符串匹配算法 被引量:26
17
作者 王成 刘金刚 《计算机工程》 CAS CSCD 北大核心 2006年第2期62-64,共3页
基于字符串匹配的检测方法是入侵检测系统中的一种重要方法。在分析了几种常见的字符串匹配算法(BF、KMP、BM、Sunday等)的基础上,提出了一种改进的字符串匹配算法——SundayNew。该算法使每一次匹配不成功后都能跳过尽可能多的字符以... 基于字符串匹配的检测方法是入侵检测系统中的一种重要方法。在分析了几种常见的字符串匹配算法(BF、KMP、BM、Sunday等)的基础上,提出了一种改进的字符串匹配算法——SundayNew。该算法使每一次匹配不成功后都能跳过尽可能多的字符以进行下一轮匹配,并且匹配次数大大减少,从而提高了匹配效率。最后,分析了该算法的性能,并用具体的实验数据给出了几种匹配算法的测试结果。 展开更多
关键词 字符串搜索 模式匹配 算法
下载PDF
一种基于分段匹配的字符串匹配算法 被引量:9
18
作者 刘许刚 黄海 马宏 《计算机应用与软件》 CSCD 北大核心 2012年第3期128-131,共4页
针对已有算法对文本和模式的相关性依赖较大,提出一种基于分段的字符串匹配算法——SM。该算法利用特殊字符将文本先分段再匹配,且匹配过程对模式内容和长度不敏感。通过将SM算法与经典算法进行分析和实验对比,证明SM算法性能稳定,特别... 针对已有算法对文本和模式的相关性依赖较大,提出一种基于分段的字符串匹配算法——SM。该算法利用特殊字符将文本先分段再匹配,且匹配过程对模式内容和长度不敏感。通过将SM算法与经典算法进行分析和实验对比,证明SM算法性能稳定,特别是在多模式字符串匹配情况下,SM算法具有比Wu-Manber算法更快的速度和更小的空间消耗。 展开更多
关键词 BM WU-MANBER 分段 字符串匹配
下载PDF
基于过滤的中文多模式近似字符串匹配算法 被引量:5
19
作者 范立新 谢晓能 吴飞 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期48-50,58,共4页
当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算... 当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算法的有效性。 展开更多
关键词 近似字符串匹配 中文字符串匹配 多模式匹配 位并行运算 过滤
下载PDF
基于多信息融合的中文手写地址字符串切分与识别 被引量:7
20
作者 付强 丁晓青 蒋焰 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2916-2920,共5页
该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最... 该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最优的切分结果及对应的最优识别结果。其中,几何信息是根据当前字符串自身的特点统计得到,因此可适应不同书写风格的字符串。识别信息由单字分类器给出,包括10个候选识别结果及其相应的置信度;单字分类器采用MQDF分类器。语义信息用基于字的bi-gram模型进行描述,模型参数是从包含18万条地址数据的数据库中统计得到的。用3000个实际的手写地址样本做试验,单字识别正确率达到88.28%。 展开更多
关键词 地址识别 字符串切分 手写字符串识别
下载PDF
上一页 1 2 65 下一页 到第
使用帮助 返回顶部