期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
一种改进的基于广义后缀树的文本聚类算法 被引量:7
1
作者 杜红斌 夏克文 +1 位作者 刘南平 吴涛 《信息与控制》 CSCD 北大核心 2009年第3期331-336,共6页
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,... 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出基于信息增益的类别标识提取算法。为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点。实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识。 展开更多
关键词 文本 WEB挖掘 广义后缀 后缀(stc)
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
2
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 WEB挖掘 层次 WEB搜索 后缀
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
3
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀 后缀 WEB文档 Web文档结构 权重计算
下载PDF
一种基于后缀树的Web搜索结果聚类方法 被引量:5
4
作者 吴江宁 王治江 《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别... 为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 WEB搜索 后缀 文档
下载PDF
后缀树算法在舆情聚类中的应用 被引量:1
5
作者 彭静 翟英 冯爽 《河北科技大学学报》 CAS 2012年第1期65-68,共4页
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。
关键词 网络舆情 后缀算法 文本
下载PDF
一种改进的基于后缀树模型搜索结果聚类算法 被引量:3
6
作者 刘德山 《计算机科学》 CSCD 北大核心 2011年第11期148-152,共5页
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中... 针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Web搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。 展开更多
关键词 搜索结果 后缀模型 向量空间模型 奇异值分解
下载PDF
改进后缀树的中文检索结果聚类研究 被引量:1
7
作者 袁津生 荣元媛 《计算机工程与应用》 CSCD 2014年第21期143-146,共4页
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、... 检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 展开更多
关键词 检索结果 后缀 标签 中文检索
下载PDF
后缀树聚类算法在元搜索引擎中的应用 被引量:5
8
作者 冯冰洁 杨天奇 《微计算机信息》 2010年第3期204-206,共3页
元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结... 元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结果的可浏览性,提高了搜索的精度。实验结果表明,STC算法在查准率和时间性能方面都高于传统的聚类算法。 展开更多
关键词 元搜索引擎 文本 后缀
下载PDF
改进的基于后缀树的Web搜索结果聚类算法
9
作者 董亚则 李万龙 +1 位作者 李航 郑山红 《吉林大学学报(信息科学版)》 CAS 2016年第4期543-549,共7页
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否... 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。 展开更多
关键词 文本 后缀 向量空间模型 Web检索结果
下载PDF
基于后缀树的Web检索结果聚类标签生成方法 被引量:9
10
作者 骆雄武 万小军 +1 位作者 杨建武 吴於茜 《中文信息学报》 CSCD 北大核心 2009年第2期83-88,共6页
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之... 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 展开更多
关键词 计算机应用 中文信息处理 检索结果 标签生成 后缀
下载PDF
基于后缀树的半监督自适应多密度文本聚类算法 被引量:3
11
作者 文平 刘渊 张春瑞 《小型微型计算机系统》 CSCD 北大核心 2016年第1期100-103,共4页
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之... 半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集. 展开更多
关键词 后缀 半监督 多密度 文本
下载PDF
基于改进后缀树算法中英文聚类引擎的实现 被引量:1
12
作者 胡海龙 孙晨 +1 位作者 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2009年第2期299-304,共6页
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法,通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类,同时用交互聚类的方式替代了传统的递归算法.ISTC算法具有语言无关性,不仅适用于基于单词的西方文字,而且可以... 提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法,通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类,同时用交互聚类的方式替代了传统的递归算法.ISTC算法具有语言无关性,不仅适用于基于单词的西方文字,而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符.在此算法基础上,设计并实现了基于改进后缀树算法的交互聚类引擎,在不同的网络环境下对其进行了系统测试,并与其他元搜索引擎进行了对比.实验结果表明,使用改进后缀树算法进行实时交互式聚类是可行的. 展开更多
关键词 后缀 文本 元搜索引擎
下载PDF
改进的维吾尔语Web文本后缀树聚类 被引量:1
13
作者 邹志华 田生伟 +1 位作者 禹龙 冯冠军 《中文信息学报》 CSCD 北大核心 2013年第2期118-126,共9页
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提... 该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 维吾尔语 后缀 短语 停用词表 文档频率
下载PDF
基于后缀树聚类的主题搜索引擎研究 被引量:4
14
作者 韦美峰 王亚民 《情报理论与实践》 CSSCI 北大核心 2017年第12期123-127,62,共6页
[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过... [目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。 展开更多
关键词 主题过滤 后缀 搜索引擎
下载PDF
基于后缀树的文本聚类算法 被引量:4
15
作者 刘亚明 马力 舒惠 《西安邮电学院学报》 2012年第1期62-66,共5页
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明... 提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。 展开更多
关键词 后缀 后缀 多主题
下载PDF
后缀树聚类在专用搜索引擎中的应用研究与改进 被引量:2
16
作者 刘文婷 滕奇志 《成都信息工程学院学报》 2010年第3期269-274,共6页
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己... 为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。 展开更多
关键词 计算机应用 文本分 文本 搜索引擎 后缀 词频 降维 召回率
下载PDF
基于后缀树的维吾尔文网页聚类算法的研究与实现
17
作者 买买提依明·哈斯木 维尼拉·木沙江 《电脑知识与技术》 2010年第9期7072-7073,7075,共3页
该论文分析维吾尔语的词法特点,选择适合维吾尔文文本聚类的特征,构造可扩展后缀树,选择基类,合并基类,把维吾尔文网页按相似度分成不同的类,并形成类标签。通过实验表明该算法的效率比其他传统的聚类算法比具有较高的性能.大大... 该论文分析维吾尔语的词法特点,选择适合维吾尔文文本聚类的特征,构造可扩展后缀树,选择基类,合并基类,把维吾尔文网页按相似度分成不同的类,并形成类标签。通过实验表明该算法的效率比其他传统的聚类算法比具有较高的性能.大大提高查找信息的命中率。 展开更多
关键词 后缀 stc
下载PDF
利用广义后缀树的最大相似度优先聚类方法
18
作者 蒋程 张建武 《中国科技信息》 2013年第3期89-91,共3页
本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形... 本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。 展开更多
关键词 方法 后缀 最大相似度 向量空间模型
下载PDF
基于STC的中文文本聚类算法 被引量:2
19
作者 王国强 郑海清 牛军钰 《上海师范大学学报(自然科学版)》 2006年第5期21-26,共6页
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果,首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造... 提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果,首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案。 展开更多
关键词 后缀 文本 文本处理
下载PDF
网页搜索结果聚类与可视化 被引量:5
20
作者 赵华军 钟才明 +2 位作者 李文 王睿智 苗夺谦 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期542-551,共10页
搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结... 搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. 展开更多
关键词 网页 后缀 可视化 短语簇 算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部