期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量:4
1
作者 YANGJian-wu 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页
In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction p... In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. 展开更多
关键词 clustering suffix tree web mining
下载PDF
ISTC: A New Method for Clustering Search Results 被引量:2
2
作者 ZHANG Wei XU Baowen +1 位作者 ZHANG Weifeng XU Junling 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期501-504,共4页
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phr... A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 展开更多
关键词 web search results clustering suffix tree term frequency-inverse document frequency (TFIDF) independence of phrases
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
3
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 web文档聚类 web文档结构 权重计算
下载PDF
中文Web文档聚类算法研究 被引量:3
4
作者 林庆 袁晓峰 吴旻 《计算机工程与设计》 CSCD 北大核心 2009年第20期4759-4761,共3页
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方... 在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率。通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC-I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好。 展开更多
关键词 后缀树 文本聚类 搜索引擎 STC-I STC
下载PDF
一种基于后缀树的Web搜索结果聚类方法 被引量:5
5
作者 吴江宁 王治江 《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别... 为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 web搜索 后缀树 文档聚类
下载PDF
快速混合Web文档聚类 被引量:3
6
作者 杨瑞龙 朱庆生 谢洪涛 《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量... 提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 展开更多
关键词 聚类算法 K-MEANS算法 后缀树 web文档聚类 基于短语的相似度
下载PDF
基于概念分组的Web搜索结果聚类算法 被引量:2
7
作者 李红梅 丁振国 +1 位作者 周水生 周利华 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期130-134,共5页
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间... 为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解. 展开更多
关键词 信息检索 搜索引擎 web文档 聚类 概念分组
下载PDF
基于语义相似度的Web文档聚类算法 被引量:3
8
作者 李毅 王浩 杨静 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第12期1846-1850,共5页
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类... 文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。 展开更多
关键词 web文档聚类 语义相似度 聚类算法 最小树
下载PDF
改进的基于Web的频繁访问路径挖掘算法 被引量:1
9
作者 庞敏 赵乙国 周海英 《测试技术学报》 2009年第3期244-247,共4页
对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法,挖掘效率是比较低的,而且只能得到频繁访问路径.本文在研究访问路径性质的基础上给出了一种能从普通Web日志中挖掘出连续频繁访问路径的算法.设计了一种新颖的数据结构压缩... 对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法,挖掘效率是比较低的,而且只能得到频繁访问路径.本文在研究访问路径性质的基础上给出了一种能从普通Web日志中挖掘出连续频繁访问路径的算法.设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息.同时采用分区搜索的方式,为每个频繁节点构造一棵后缀树,通过遍历该后缀树挖掘出连续频繁访问路径.采用这种方法进行挖掘,无需生成候选集,而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径. 展开更多
关键词 连续频繁访问路径 网络服务器日志 分区搜索 后缀树 频繁节点
下载PDF
求解Web集群文档分布的混沌搜索算法 被引量:1
10
作者 熊智 郭成城 《计算机工程》 CAS CSCD 北大核心 2008年第4期10-12,共3页
提出Web集群文档分布方案,用M/G/1/K PS排队模型对服务器进行建模,将文档分布问题转化为0-1整数规划问题,然后求解该规划问题。针对该类0-1整数规划问题,给出一种基于混沌搜索的求解算法,该算法让多个独立的混沌变量在其各自的轨道中搜... 提出Web集群文档分布方案,用M/G/1/K PS排队模型对服务器进行建模,将文档分布问题转化为0-1整数规划问题,然后求解该规划问题。针对该类0-1整数规划问题,给出一种基于混沌搜索的求解算法,该算法让多个独立的混沌变量在其各自的轨道中搜索,使得对应生成的0-1矩阵能遍历任意一种可能的分布,从而能搜索到全局最优解。设计一种基于贪婪思想的文档分布算法。测试表明,混沌搜索算法能找到全局最优解,优于传统的贪婪算法。 展开更多
关键词 web集群服务器 文档分布 0-1整数规划 混沌搜索算法
下载PDF
改进的基于后缀树的Web搜索结果聚类算法
11
作者 董亚则 李万龙 +1 位作者 李航 郑山红 《吉林大学学报(信息科学版)》 CAS 2016年第4期543-549,共7页
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否... 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。 展开更多
关键词 文本聚类 后缀树 向量空间模型 web检索结果
下载PDF
一种基于形式概念分析的Web文档标签聚类方法
12
作者 李辉 王竞 张福稳 《西华大学学报(自然科学版)》 CAS 2013年第3期54-58,共5页
针对现有搜索引擎的搜索结果数目庞大要从中找到有用信息十分困难的问题,基于将Web搜索结果进行聚类可以方便用户快速浏览搜索结果的思想,提出了一种基于形式概念分析的Web搜索结果聚类方法。首先从搜索结果中集中提取关键短语和非关键... 针对现有搜索引擎的搜索结果数目庞大要从中找到有用信息十分困难的问题,基于将Web搜索结果进行聚类可以方便用户快速浏览搜索结果的思想,提出了一种基于形式概念分析的Web搜索结果聚类方法。首先从搜索结果中集中提取关键短语和非关键短语,然后从搜索结果集到关键短语和非关键短语集上建立形式背景,采用一种较快概念格生成算法在该形式背景上生成概念格,概念格上的一个概念表达了具有确定意义的主题,即得到Web搜索结果的一个类:每个概念内涵具有的关键短语或非关键短语作为类标记;概念的外延所包含的搜索结果文档作为该类的内容;搜索结果各个类之间的层次关系通过概念格上的层次关系得以体现。 展开更多
关键词 web搜索结果组织 文档聚类 形式概念分析
下载PDF
一种基于主题的Web文本聚类算法 被引量:1
13
作者 袁晓峰 《成都大学学报(自然科学版)》 2010年第3期249-252,共4页
设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字... 设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好. 展开更多
关键词 HTBC算法 web文本聚类 主题 搜索引擎 互信息
下载PDF
基于后缀树的Web检索结果聚类标签生成方法 被引量:9
14
作者 骆雄武 万小军 +1 位作者 杨建武 吴於茜 《中文信息学报》 CSCD 北大核心 2009年第2期83-88,共6页
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之... 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 展开更多
关键词 计算机应用 中文信息处理 检索结果聚类 聚类标签生成 后缀树
下载PDF
改进的维吾尔语Web文本后缀树聚类 被引量:1
15
作者 邹志华 田生伟 +1 位作者 禹龙 冯冠军 《中文信息学报》 CSCD 北大核心 2013年第2期118-126,共9页
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提... 该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 维吾尔语 后缀树 短语聚类 停用词表 文档频率
下载PDF
一种改进的基于广义后缀树的文本聚类算法 被引量:7
16
作者 杜红斌 夏克文 +1 位作者 刘南平 吴涛 《信息与控制》 CSCD 北大核心 2009年第3期331-336,共6页
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,... 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出基于信息增益的类别标识提取算法。为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点。实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识。 展开更多
关键词 文本聚类 web挖掘 广义后缀树 后缀树聚类(STC)
下载PDF
搜索引擎结果聚类算法研究 被引量:11
17
作者 张健沛 刘洋 +1 位作者 杨静 代坤 《计算机工程》 CAS CSCD 北大核心 2004年第5期95-97,共3页
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给... 随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT-tree的搜索引擎结果聚类算法。 展开更多
关键词 聚类 搜索引擎 PAT—tree web内容挖掘
下载PDF
网页搜索结果聚类与可视化 被引量:5
18
作者 赵华军 钟才明 +2 位作者 李文 王睿智 苗夺谦 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期542-551,共10页
搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结... 搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. 展开更多
关键词 网页聚类 后缀树 可视化 短语簇 算法
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
19
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 web挖掘 层次聚类 web搜索 后缀树
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
20
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部