期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
文本相似度计算方法综述 被引量:1
1
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
A Hybrid Algorithm for Stemming of Nepali Text
2
作者 Chiranjibi Sitaula 《Intelligent Information Management》 2013年第4期136-139,共4页
In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is languag... In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is language dependent algorithm. Context free stemmer means that stemmer which stems the word that is not based on the context i.e., for every context such rule is applied. After stripping the words using traditional context free rule based approach, it may over stem or under stem the inflected words which are overcome by applying string similarity function of dynamic programming. For measuring the string similarity function, edit distance is used. The stripped inflected word is compared with the words stored in a text database available. That word having minimum distance is taken as the substitution of the stripped inflected word which leads to the stem of it. The concept of traditional rule based system and corpus based approach is heavily used in this approach. This algorithm is tested for Nepali Language which is based on Devanagari Script. The approach has given better result in comparison to traditional rule based system particularly for Nepali Language only. The total accuracy of this hybrid algorithm is 70.10% whereas the total accuracy of traditional rule based system is 68.43%. 展开更多
关键词 string SIMILARITY Information RETRIEVAL text Mining Natural Language Processing Dynamic PROGRAMMING
下载PDF
一种改进的KMP高效模式匹配算法 被引量:26
3
作者 鲁宏伟 魏凯 孔华锋 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第10期41-43,共3页
针对KMP算法存在着主串与模式串中多个相同字符重复比较的缺陷,在KMP算法的基础上,给出了一种新的模式匹配算法,该算法不像KMP算法那样向左滑动模式串的指针,而是每次比较字符不匹配时,根据模式串当前字符的特征值k,使主串的指针向前跳... 针对KMP算法存在着主串与模式串中多个相同字符重复比较的缺陷,在KMP算法的基础上,给出了一种新的模式匹配算法,该算法不像KMP算法那样向左滑动模式串的指针,而是每次比较字符不匹配时,根据模式串当前字符的特征值k,使主串的指针向前跳跃k个值,且使模式串的指针置于起始位置,开始新一轮的匹配,加快了主串的匹配速度.理论分析和试验证明,该算法需要的比较次数比KMP算法减少将近一半. 展开更多
关键词 模式匹配 算法 模式串 主串 时间复杂度
下载PDF
一种基于熵的文本相似性计算方法 被引量:13
4
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
下载PDF
NewsGrouper:一个自动抽取重要新闻的软件工具 被引量:3
5
作者 张 阳 李建良 胡正国 《计算机工程》 CAS CSCD 北大核心 2002年第4期83-84,共2页
介绍了一种自动从因特网上抽取重要新闻的方法,以及按此方法研制而成的软件工具:NewsGrouper。它利用超文本中的信息,对超文本所指向的网页进行聚类分析,进而得到当日的重要新闻。该方法的优点是只需要用户提交信息源,不需要其他人工的... 介绍了一种自动从因特网上抽取重要新闻的方法,以及按此方法研制而成的软件工具:NewsGrouper。它利用超文本中的信息,对超文本所指向的网页进行聚类分析,进而得到当日的重要新闻。该方法的优点是只需要用户提交信息源,不需要其他人工的干预,自动化能力高。因此,类似的技术也可以应用到文献的自动分类、检索等领域中。 展开更多
关键词 信息抽取 文本聚类 字符串距离 软件工具 NewsGrouper 新闻 INTERNET
下载PDF
基于线条识别的扫描工程图字线分割方法 被引量:2
6
作者 宋继强 苏丰 蔡士杰 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期535-541,共7页
在扫描工程图矢量化中 ,文字位图与图形位图分割的问题一直被广泛关注 .许多现有方法根据连通区的形态特征和空间分布来分割文字和图形的位图 ,然后分别识别 ,其处理能力都局限在无粘连情况下 ,无法处理字线粘连及相交的情况 ,且难以区... 在扫描工程图矢量化中 ,文字位图与图形位图分割的问题一直被广泛关注 .许多现有方法根据连通区的形态特征和空间分布来分割文字和图形的位图 ,然后分别识别 ,其处理能力都局限在无粘连情况下 ,无法处理字线粘连及相交的情况 ,且难以区分尺寸范围相近或形态相似的文字与图形 .提出一种基于线条识别的文字 /图形分割方法 ,通过准确地识别线条并抽取其位图来分离文字 ,不仅保证了分割的正确性 。 展开更多
关键词 字线分割 矢量化 字符串组织 线条识别 图纸识别 扫描程图 位图
下载PDF
一种字符串模式匹配算法的实现 被引量:3
7
作者 陈芳 沈虹 张霞 《西安工业大学学报》 CAS 2007年第3期272-273,共2页
为寻求更有效的字符串搜索方法,利用有穷自动机的定义,分析KMP算法以及自动机状态转换规律,提出了一种新的字符串模式匹配算法.结果表明此算法具有比基本的串匹配算法更优越的算法复杂度,并且相对KMP算法而言更简洁易懂,在计算机上容易... 为寻求更有效的字符串搜索方法,利用有穷自动机的定义,分析KMP算法以及自动机状态转换规律,提出了一种新的字符串模式匹配算法.结果表明此算法具有比基本的串匹配算法更优越的算法复杂度,并且相对KMP算法而言更简洁易懂,在计算机上容易实现. 展开更多
关键词 模式匹配 模式串 目标串 有穷自动机 算法复杂度
下载PDF
一种改进的KMP算法 被引量:13
8
作者 俞松 郑骏 胡文心 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期92-97,共6页
在给出改进的KMP模式匹配算法的定义和步骤的同时,对其进行了严格推导和证明.实验证明,当模式首次出现在文本后半段的情况下,该算法较原KMP算法具有更少的比较次数和更高的效率.
关键词 匹配 模式 时间复杂度 文本
下载PDF
BM串匹配的一个改进算法 被引量:4
9
作者 庞善臣 王淑栋 蒋昌俊 《计算机应用》 CSCD 北大核心 2004年第12期11-13,共3页
在分析BM算法和文献[12]的基础上,给出了BM串匹配的一个改进算法。该算法有以下重要的特点:1)最坏情况下,算法有效地减少了字符重复比较的次数,提高了匹配效率;2)匹配算法在二维匹配和不精确匹配中较易推广。
关键词 串匹配 正文 模式 时间复杂度
下载PDF
一种基于模式最长前缀正文分割的串匹配新算法 被引量:4
10
作者 庞善臣 王淑栋 《小型微型计算机系统》 CSCD 北大核心 2004年第3期404-406,共3页
字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 s... 字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 subp末字符的特点 ,将正文 T进行分段 ,按段对模式 P进行匹配 .新算法有以下重要的特点 :1.最坏情况下 ,本算法有效地减少了字符重复比较的次数 ,从而提高了算法的匹配效率 ;2 .匹配算法在二维匹配和不精确匹配中较易推广 ;3.匹配过程近似于直接算法 。 展开更多
关键词 字符串 模式匹配 模式最长前缀正文分割 串匹配算法 时间复杂度 TD算法
下载PDF
一个改进的BM串匹配算法 被引量:13
11
作者 赵一瑾 《计算机研究与发展》 EI CSCD 北大核心 1998年第1期45-48,共4页
文中利用BM算法中依据d函数来右移模式距离大小的特点,在一定条件下,将模式分解成具有一定性质的两个子串.通过子模式各自的性质及相互间的关系,控制模式匹配过程,以减少字符重复比较次数,从而提高算法匹配效率.
关键词 算法 BM算法 匹配
下载PDF
工程图中字符分离和标注字符串生成技术 被引量:2
12
作者 胡友兰 黄树槐 常明 《华中理工大学学报》 CSCD 北大核心 1997年第3期30-33,共4页
提出了同步边缘特性检测的轮廓跟踪算法,并基于规则从扫描图像全图轮廓中分离字符轮廓;在此基础上,针对机械工程图,采用全方位的邻域搜索技术生成不同方向的字符串,通过分类树进行识别,并根据专业领域知识进行校正.实验测试表明。
关键词 工程图理解 字符分离 轮廓跟踪 字符串生成 字符识别
下载PDF
一种优化的并行汉字/字符串匹配算法 被引量:4
13
作者 王素琴 邹旭楷 《中文信息学报》 CSCD 1995年第1期49-53,共5页
字符串检索指在一个文本Text=t1…tn中找出一个字符串Pat=p1…pm的所有出现.本文给出了在CREW/CRCWPRAM机器模型上并行检索汉字/字符串的算法,它使用n/m个处理机,预处理时间为O(m+|Σ|),... 字符串检索指在一个文本Text=t1…tn中找出一个字符串Pat=p1…pm的所有出现.本文给出了在CREW/CRCWPRAM机器模型上并行检索汉字/字符串的算法,它使用n/m个处理机,预处理时间为O(m+|Σ|),并行执行时间为0(m)。 展开更多
关键词 并行算法 字符串检索 汉字 并行匹配
下载PDF
一种基于词共现的文本相似度计算 被引量:14
14
作者 曹恬 周丽 张国煊 《计算机工程与科学》 CSCD 2007年第3期52-53,73,共3页
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词 文本相似度 中文信息处理 特征串 词共现
下载PDF
结合语义和文本特征位串的高效KNN算法 被引量:1
15
作者 林啟锋 蒙祖强 +1 位作者 陈秋莲 陈智敏 《计算机工程与设计》 CSCD 北大核心 2013年第7期2417-2421,2469,共6页
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串... 为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。 展开更多
关键词 概念聚合 语义关联 文本特征位串 K最近邻算法 文本分类
下载PDF
文本自动校核的一种算法 被引量:2
16
作者 陶霖 《计算机工程》 CAS CSCD 北大核心 1998年第1期70-72,F003,共4页
提出并证明一种求取两个文本间的最大匹配的算法。
关键词 文本匹配 串匹配 CAI 算法
下载PDF
一种有效的并行汉字/字符串相似检索技术 被引量:2
17
作者 王素琴 邹旭楷 《软件学报》 EI CSCD 北大核心 1995年第8期463-467,共5页
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.... 本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性. 展开更多
关键词 并行算法 字符串检索 汉字检索
下载PDF
允许错误的并行字符串匹配技术 被引量:1
18
作者 邹旭楷 王素琴 《计算机研究与发展》 EI CSCD 北大核心 1995年第2期34-38,共5页
本文提出了一种允许错误的并行字符串查找技术。通过引入搜索状态向量及字符-模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对字符串的并行相似检索。文中也给出了... 本文提出了一种允许错误的并行字符串查找技术。通过引入搜索状态向量及字符-模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对字符串的并行相似检索。文中也给出了并行实现算法,同时分析了算法的复杂性。 展开更多
关键词 并行算法 字符串检索 并行字符串匹配
下载PDF
对KMP算法的一个改进 被引量:4
19
作者 姜利群 《中国矿业大学学报》 EI CAS CSCD 北大核心 1999年第2期198-200,共3页
KMP算法是串匹配算法中效率最高的算法,然而其存在着正文字符与模式中多个相同字符重复比较的缺陷.本文对KMP算法加以改进,建立新型自动机NEWK.新自动机NEWK将旧自动机中指向相同字符的走向改道,从而避免字符的重复... KMP算法是串匹配算法中效率最高的算法,然而其存在着正文字符与模式中多个相同字符重复比较的缺陷.本文对KMP算法加以改进,建立新型自动机NEWK.新自动机NEWK将旧自动机中指向相同字符的走向改道,从而避免字符的重复匹配,使算法具有更高的效率. 展开更多
关键词 匹配 正文 算法 时间复杂度 KMP算法
下载PDF
一种改进的Wu-Manber多模式匹配算法及应用 被引量:10
20
作者 孙晓山 王强 +1 位作者 关毅 王晓龙 《中文信息学报》 CSCD 北大核心 2006年第2期47-52,共6页
本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manbe... 本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manber算法、使用后缀模式的改进算法、不使用后缀模式的简单改进等三种算法的匹配过程中字符比较的次数。实验结果说明,本文的改进能够比较稳定的减少匹配过程中字符比较的次数,提高匹配的速度和效率。 展开更多
关键词 计算机应用 中文信息处理 多模式匹配 后缀模式 字符串匹配 全文检索 信息检索
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部