期刊文献+
共找到138篇文章
< 1 2 7 >
每页显示 20 50 100
A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量:4
1
作者 YANGJian-wu 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页
In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction p... In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. 展开更多
关键词 CLUSTERING suffix tree Web mining
下载PDF
On-line linear time construction of sequential binary suffix trees
2
作者 Lai Huoyao Liu Gongshen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2009年第5期1104-1110,共7页
Suffix trees are the key data structure for text string matching, and are used in wide application areas such as bioinformatics and data compression. Ukkonen algorithm is deeply investigated and a new algorithm, which... Suffix trees are the key data structure for text string matching, and are used in wide application areas such as bioinformatics and data compression. Ukkonen algorithm is deeply investigated and a new algorithm, which decreases the number of memory operations in construction and keeps the result tree sequential, is proposed. The experiment result shows that both the construction and the matching procedure are more efficient than Ukkonen algorithm. 展开更多
关键词 suffix tree SEQUENTIAL linear time construction.
下载PDF
Fault Tolerant Suffix Trees
3
作者 Iftikhar Ahmad Syed Zulfiqar Ali Shah +5 位作者 Ambreen Shahnaz Sadeeq Jan Salma Noor Wajeeha Khalil Fazal Qudus Khan Muhammad Iftikhar Khan 《Computers, Materials & Continua》 SCIE EI 2021年第1期157-164,共8页
Classical algorithms and data structures assume that the underlying memory is reliable,and the data remain safe during or after processing.However,the assumption is perilous as several studies have shown that large an... Classical algorithms and data structures assume that the underlying memory is reliable,and the data remain safe during or after processing.However,the assumption is perilous as several studies have shown that large and inexpensive memories are vulnerable to bit flips.Thus,the correctness of output of a classical algorithm can be threatened by a few memory faults.Fault tolerant data structures and resilient algorithms are developed to tolerate a limited number of faults and provide a correct output based on the uncorrupted part of the data.Suffix tree is one of the important data structures that has widespread applications including substring search,super string problem and data compression.The fault tolerant version of the suffix tree presented in the literature uses complex techniques of encodable and decodable error-correcting codes,blocked data structures and fault-resistant tries.In this work,we use the natural approach of data replication to develop a fault tolerant suffix tree based on the faulty memory random access machine model.The proposed data structure stores copies of the indices to sustain memory faults injected by an adversary.We develop a resilient version of the Ukkonen’s algorithm for constructing the fault tolerant suffix tree and derive an upper bound on the number of corrupt suffixes. 展开更多
关键词 Resilient data structures fault tolerant data structures suffix tree
下载PDF
SUFFIX TREE文件生成器
4
作者 Aleksejs Udris 刘岩 《电脑知识与技术》 2016年第5期77-79,共3页
后缀树是一个功能强大的数据结构,可以用于计算机科学执行字符串后处理操作。使用树结构的一个挑战是,随着树的生长、树的结构变得难以想象。该文的项目就是针对后缀树的这一问题,通过使用三维空间来改善树的呈现效果。项目的目的将允... 后缀树是一个功能强大的数据结构,可以用于计算机科学执行字符串后处理操作。使用树结构的一个挑战是,随着树的生长、树的结构变得难以想象。该文的项目就是针对后缀树的这一问题,通过使用三维空间来改善树的呈现效果。项目的目的将允许用户在没有重叠显示的情况下,大幅增加从屏幕上获得的数据量。这个项目将着眼于渲染定向图,如在双曲空间的后缀树。 展开更多
关键词 后缀树 双曲空间 定向图 数据结构 suffix tree 计算机科学 生物学数据 可视化工具 结构体积 测试操作
下载PDF
广义后缀树的概念生成算法
5
作者 林志鸿 王李进 吴清寿 《武夷学院学报》 2023年第6期6-10,共5页
提出一种基于广义后缀树的概念生成算法(generalized suffix tree based concept generation algorithm,GSTCG),将背景中所有对象的属性序列及其后缀建立为一棵广义后缀树,并根据广义后缀树产生候选概念;其次,合并具有相同对象集合的候... 提出一种基于广义后缀树的概念生成算法(generalized suffix tree based concept generation algorithm,GSTCG),将背景中所有对象的属性序列及其后缀建立为一棵广义后缀树,并根据广义后缀树产生候选概念;其次,合并具有相同对象集合的候选概念,再根据规则对候选概念进行扩展;最后,删除冗余的候选概念后得到全部形式概念。在两类不同参数人工数据集上的实验结果表明,GSTCG算法与NextClosure算法在所有背景上得到的概念数量一致,且前者具有更优的时间性能。 展开更多
关键词 形式概念分析 概念格 广义后缀树 数据挖掘
下载PDF
SuffIndex——一种基于后缀树的XML索引结构 被引量:7
6
作者 包小源 宋再生 +2 位作者 唐世渭 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1793-1801,共9页
针对形如∥element1/element2 /… /elementm 的查询 ,提出了一种基于后缀树 (suffixtree)的XML索引结构SuffIndex SuffIndex的构造通过只对OEM数据树遍历一次以及在SuffIndex中引入后缀链 (Sufflink)的方法 ,从而达到较低的构造代价 S... 针对形如∥element1/element2 /… /elementm 的查询 ,提出了一种基于后缀树 (suffixtree)的XML索引结构SuffIndex SuffIndex的构造通过只对OEM数据树遍历一次以及在SuffIndex中引入后缀链 (Sufflink)的方法 ,从而达到较低的构造代价 SuffIndex中所有结点利用Hash表保存到其所有子结点的指针 ,最终使查询∥element1/element2 /… /elementm 的处理代价为O(m) 展开更多
关键词 后缀树 XML 索引
下载PDF
一种改进的基于广义后缀树的文本聚类算法 被引量:7
7
作者 杜红斌 夏克文 +1 位作者 刘南平 吴涛 《信息与控制》 CSCD 北大核心 2009年第3期331-336,共6页
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,... 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出基于信息增益的类别标识提取算法。为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点。实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识。 展开更多
关键词 文本聚类 WEB挖掘 广义后缀树 后缀树聚类(STC)
下载PDF
网页搜索结果聚类与可视化 被引量:5
8
作者 赵华军 钟才明 +2 位作者 李文 王睿智 苗夺谦 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期542-551,共10页
搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结... 搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. 展开更多
关键词 网页聚类 后缀树 可视化 短语簇 算法
下载PDF
全文索引技术时空效率分析 被引量:16
9
作者 刘小珠 彭智勇 《软件学报》 EI CSCD 北大核心 2009年第7期1768-1784,共17页
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从... 全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向. 展开更多
关键词 倒排文件 签名文件 后缀树 后缀数组 自索引 压缩 时空效率
下载PDF
基于重复模式的Web信息抽取 被引量:6
10
作者 高强 张敬之 +1 位作者 耿桦 潘金贵 《计算机科学》 CSCD 北大核心 2007年第4期210-212,221,共4页
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实... 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。 展开更多
关键词 WEB信息抽取 重复模式 后缀树
下载PDF
一种入侵检测系统的模式匹配算法 被引量:4
11
作者 韩忠秋 刘晓洁 +3 位作者 李涛 梁刚 龚勋 姚隽兮 《计算机应用研究》 CSCD 北大核心 2009年第8期3033-3035,共3页
提出了一种基于后缀树自动机的模式匹配算法,匹配中应用后缀启发机制进行启发跳跃,忽略不必要的比较。实验表明,该方法与传统模式匹配方法相比能有效地加快模式匹配的速度,提高入侵检测效率。
关键词 入侵检测系统 模式匹配 后缀树 自动机
下载PDF
基于后缀树的Web论坛信息抽取 被引量:3
12
作者 肖建鹏 张来顺 +1 位作者 任星 宋晓光 《计算机工程与设计》 CSCD 北大核心 2008年第7期1675-1677,共3页
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的。该方法运用构造后缀树... 针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的。该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题。实验结果表明,该方法具有较高的准确性和实用性。 展开更多
关键词 信息抽取 分装器 后缀树 重复模式 论坛
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
13
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 WEB文档聚类 Web文档结构 权重计算
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
14
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 WEB挖掘 层次聚类 WEB搜索 后缀树
下载PDF
一种基于Nutch的网页聚类系统的设计与实现 被引量:3
15
作者 阳小兰 钱程 赵海廷 《计算机工程与应用》 CSCD 北大核心 2011年第5期118-122,共5页
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通... 设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。 展开更多
关键词 NUTCH 聚类 K-MEANS 后缀树
下载PDF
基于存储优化的多模式串匹配算法 被引量:6
16
作者 刘燕兵 刘萍 +1 位作者 谭建龙 郭莉 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1768-1776,共9页
多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cach... 多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cache命中率的思想出发,提出了一种对经典SBOM算法的优化策略,它用Suffix Tree代替SBOM算法中的Factor Oracle结构,同时用剪枝的方法将Suffix Tree降低为近似线性的空间复杂度,然后用双数组Trie表示之,以压缩存储空间.与SBOM算法相比,改进算法不仅能够有效地节省存储空间,而且显著地提高了串匹配的速度,非常适合于在线高速匹配的应用环境. 展开更多
关键词 网络内容过滤 多模式串匹配 后缀树 双数组结构 自动机压缩
下载PDF
基于后缀树模型的文本实时分类系统的研究和实现 被引量:12
17
作者 郭莉 张吉 谭建龙 《中文信息学报》 CSCD 北大核心 2005年第5期16-23,共8页
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算... 本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。 展开更多
关键词 计算机应用 中文信息处理 实时文本分类 向量空间模型 后缀树
下载PDF
基于实体识别的在线主题检测方法 被引量:4
18
作者 付艳 杨冬青 +3 位作者 唐世渭 伍伟 王腾蛟 高军 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第2期227-232,共6页
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率... 为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。 展开更多
关键词 在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类
下载PDF
一种基于条件概率分布的近似重复记录检测方法 被引量:3
19
作者 缪嘉嘉 吴刚 +2 位作者 毛捍东 杨强 邓苏 《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。 展开更多
关键词 信息集成 近似重复记录 动态聚类 概率后缀树
下载PDF
带间隔约束的序列数据质量评价算法设计 被引量:2
20
作者 王慧锋 段磊 +3 位作者 胡斌 邓松 王文韬 秦攀 《计算机科学与探索》 CSCD 北大核心 2015年第10期1180-1194,共15页
序列数据广泛存在于实际应用中,因此关于序列数据挖掘的算法研究一直都是热点。序列数据的质量关系到挖掘结果的可靠性,传统的数据质量评价方法多通过统计指标来分析数据的质量问题,但统计指标无法对非结构化序列数据中各元素之间的关... 序列数据广泛存在于实际应用中,因此关于序列数据挖掘的算法研究一直都是热点。序列数据的质量关系到挖掘结果的可靠性,传统的数据质量评价方法多通过统计指标来分析数据的质量问题,但统计指标无法对非结构化序列数据中各元素之间的关系进行评估。为检测序列数据质量,提出了基于概率后缀树模型的序列数据质量评价算法。具体地,在满足间隔约束的前提下,根据数据质量可靠的序列数据样本生成概率后缀树,并根据概率后缀树对查询序列数据进行质量评价。最后通过真实序列数据集验证了算法的有效性、执行效率和伸缩性。 展开更多
关键词 数据质量 概率后缀树 间隔约束
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部