期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量:4
1
作者 YANGJian-wu 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页
In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction p... In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. 展开更多
关键词 clustering suffix tree Web mining
下载PDF
ISTC: A New Method for Clustering Search Results 被引量:2
2
作者 ZHANG Wei XU Baowen +1 位作者 ZHANG Weifeng XU Junling 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期501-504,共4页
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phr... A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 展开更多
关键词 Web search results clustering suffix tree term frequency-inverse document frequency (TFIDF) independence of phrases
下载PDF
基于STC的中文文本聚类算法 被引量:2
3
作者 王国强 郑海清 牛军钰 《上海师范大学学报(自然科学版)》 2006年第5期21-26,共6页
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果,首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造... 提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果,首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案。 展开更多
关键词 后缀树 文本聚类 文本处理
下载PDF
STC算法的网络服务分类技术研究
4
作者 邓峰 陈家琪 《信息技术》 2013年第9期13-17,共5页
针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义... 针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义关系的聚类标签,在后缀树聚类基础上对这些标签进行二次聚类。通过引入文本预处理和WordNet语义相似度计算的基础上来实现服务自动分类。实验结果表明,该服务自动分类算法具有较好的准备率和查全率,另外根据WordNet提取出抽象的聚类标签,有利于对日益剧增的网络服务进行抽象层次的分类,提高了海量网络服务分类的效率。 展开更多
关键词 网络服务 后缀树聚类(stc)算法 WORDNET 语义相似度计算
下载PDF
一种改进的基于广义后缀树的文本聚类算法 被引量:7
5
作者 杜红斌 夏克文 +1 位作者 刘南平 吴涛 《信息与控制》 CSCD 北大核心 2009年第3期331-336,共6页
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,... 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出基于信息增益的类别标识提取算法。为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点。实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识。 展开更多
关键词 文本聚类 WEB挖掘 广义后缀树 后缀树聚类(stc)
下载PDF
网页搜索结果聚类与可视化 被引量:5
6
作者 赵华军 钟才明 +2 位作者 李文 王睿智 苗夺谦 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期542-551,共10页
搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结... 搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. 展开更多
关键词 网页聚类 后缀树 可视化 短语簇 算法
下载PDF
中文Web文档聚类算法研究 被引量:3
7
作者 林庆 袁晓峰 吴旻 《计算机工程与设计》 CSCD 北大核心 2009年第20期4759-4761,共3页
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方... 在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率。通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC-I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好。 展开更多
关键词 后缀树 文本聚类 搜索引擎 stc-I stc
下载PDF
基于实体识别的在线主题检测方法 被引量:4
8
作者 付艳 杨冬青 +3 位作者 唐世渭 伍伟 王腾蛟 高军 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第2期227-232,共6页
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率... 为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。 展开更多
关键词 在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
9
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 WEB挖掘 层次聚类 WEB搜索 后缀树
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
10
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 WEB文档聚类 Web文档结构 权重计算
下载PDF
一种基于条件概率分布的近似重复记录检测方法 被引量:3
11
作者 缪嘉嘉 吴刚 +2 位作者 毛捍东 杨强 邓苏 《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。 展开更多
关键词 信息集成 近似重复记录 动态聚类 概率后缀树
下载PDF
一种基于Nutch的网页聚类系统的设计与实现 被引量:3
12
作者 阳小兰 钱程 赵海廷 《计算机工程与应用》 CSCD 北大核心 2011年第5期118-122,共5页
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通... 设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。 展开更多
关键词 NUTCH 聚类 K-MEANS 后缀树
下载PDF
一种基于后缀树的Web搜索结果聚类方法 被引量:5
13
作者 吴江宁 王治江 《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别... 为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 WEB搜索 后缀树 文档聚类
下载PDF
快速混合Web文档聚类 被引量:3
14
作者 杨瑞龙 朱庆生 谢洪涛 《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量... 提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 展开更多
关键词 聚类算法 K-MEANS算法 后缀树 WEB文档聚类 基于短语的相似度
下载PDF
一种改进的基于后缀树模型搜索结果聚类算法 被引量:3
15
作者 刘德山 《计算机科学》 CSCD 北大核心 2011年第11期148-152,共5页
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中... 针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Web搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。 展开更多
关键词 搜索结果聚类 后缀树模型 向量空间模型 奇异值分解
下载PDF
数据挖掘中后缀树算法的应用研究 被引量:2
16
作者 赵杰文 原娇杰 《焦作大学学报》 2007年第3期70-72,共3页
后缀树是一种非常重要的数据结构,它在与字符串处理相关的各种领域里有着非常广泛的应用。构造后缀树是应用后缀树解决问题的前提和关键。文章首先引入了一种新颖的数据结构——后缀树的相关概念,在此基础上,对其特点和算法的构建进行... 后缀树是一种非常重要的数据结构,它在与字符串处理相关的各种领域里有着非常广泛的应用。构造后缀树是应用后缀树解决问题的前提和关键。文章首先引入了一种新颖的数据结构——后缀树的相关概念,在此基础上,对其特点和算法的构建进行了论述,并探讨了后缀树及其算法在中文分词、关联分析中的应用,然后以中文文档聚类为例,结合中文需要分词的特点,设计出了基于后缀树聚类算法的聚类系统结构。 展开更多
关键词 后缀树 关联分析 聚类
下载PDF
改进后缀树的中文检索结果聚类研究 被引量:1
17
作者 袁津生 荣元媛 《计算机工程与应用》 CSCD 2014年第21期143-146,共4页
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、... 检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 展开更多
关键词 检索结果聚类 后缀树 聚类标签 中文检索 聚类
下载PDF
后缀树聚类算法在元搜索引擎中的应用 被引量:5
18
作者 冯冰洁 杨天奇 《微计算机信息》 2010年第3期204-206,共3页
元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结... 元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结果的可浏览性,提高了搜索的精度。实验结果表明,STC算法在查准率和时间性能方面都高于传统的聚类算法。 展开更多
关键词 元搜索引擎 文本聚类 后缀树
下载PDF
基于后缀树算法的地区微博摘要技术研究
19
作者 高永兵 张贵娟 +1 位作者 胡文江 马占飞 《计算机工程与应用》 CSCD 北大核心 2018年第9期126-132,144,共8页
地区官方微博中包含了大量相关当地的事件信息,聚合地区官方微博数据可以发掘当地的重要事件;结合地区微博数据地区别称、不同层级,地区标签属性突显等特征提出了基于后缀树算法的地区微博摘要技术研究。利用地区权值树和知网HowNet对... 地区官方微博中包含了大量相关当地的事件信息,聚合地区官方微博数据可以发掘当地的重要事件;结合地区微博数据地区别称、不同层级,地区标签属性突显等特征提出了基于后缀树算法的地区微博摘要技术研究。利用地区权值树和知网HowNet对地区微博数据进行预处理,将意思相近的词汇进行替换统一;利用后缀树聚类算法STC和奇异值分解SVD对地区微博进行聚类;结合地区微博特征对其综合打分,选取有代表性的微博句子生成摘要。实验验证了该方法的可行性,表明所提出的方法能够很好地识别出当地事件并生成可读性高的事件摘要。 展开更多
关键词 地区微博 地区权值树 知网 后缀树聚类 摘要
下载PDF
基于概率后缀树的宏观网络报警事件序列分析 被引量:1
20
作者 师鸣若 姜中华 赵明茹 《电脑开发与应用》 2009年第1期1-2,11,共3页
提出一种基于概率后缀树的宏观网络报警事件序列分析框架,能够分析报警事件序列中存在着某种规律性,检测出存在大规模宏观网络异常的序列,通过网络报警事件数据集,既可以得到网络异常信息,又能够分析报警事件间的关联。
关键词 概率后缀树(PST) 序列分析 关联分析 聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部