期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量:4
1
作者 YANGJian-wu 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页
In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction p... In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. 展开更多
关键词 CLUSTERING suffix tree web mining
下载PDF
一种基于后缀树的Web搜索结果聚类方法 被引量:5
2
作者 吴江宁 王治江 《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别... 为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 web搜索 后缀树 文档聚类
下载PDF
基于重复模式的Web信息抽取 被引量:6
3
作者 高强 张敬之 +1 位作者 耿桦 潘金贵 《计算机科学》 CSCD 北大核心 2007年第4期210-212,221,共4页
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实... 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。 展开更多
关键词 web信息抽取 重复模式 后缀树
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
4
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 web文档聚类 web文档结构 权重计算
下载PDF
一种基于后缀树的Web访问模式挖掘算法 被引量:6
5
作者 何丽 韩文秀 《计算机应用》 CSCD 北大核心 2004年第11期68-70,共3页
在Web使用挖掘中,分析用户的行为模式是一个关键的问题。文中提出了一种基于后缀树的最大频繁序列MFS(MaximalFrequentSequences)的有效挖掘算法,该算法能够从增量数据中动态发现和输出MFS。
关键词 web行为模式 web使用挖掘 后缀树 MFS
下载PDF
中文Web文档聚类算法研究 被引量:3
6
作者 林庆 袁晓峰 吴旻 《计算机工程与设计》 CSCD 北大核心 2009年第20期4759-4761,共3页
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方... 在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类。STC-I中,将文档集通过去同义词、近义词、相同句子的方法对文档进行降维处理,并通过计算查询关键字与文本的相似度,对参加聚类的文本打分的方法来降低STC的时间复杂度并提高STC聚类准确率。通过对STC-I与STC、AHC、K-Means算法从聚类的准确性和时间复杂度上进行比较,结果表明,STC-I算法在聚类的准确性和时间复杂度方面都较STC、AHC和K-Means算法好。 展开更多
关键词 后缀树 文本聚类 搜索引擎 STC-I STC
下载PDF
基于互关联后继树的Web日志挖掘技术 被引量:2
7
作者 江宝林 张川 +2 位作者 申展 葛家翔 胡运发 《计算机应用与软件》 CSCD 北大核心 2004年第5期9-11,112,共4页
本文将互关联后继树 (Inter RelatedSuffixTree ,IRST)模型应用于Web日志事务挖掘 ,构造Web日志事务集的互关联后继树结构 ,从中挖掘频繁路径。
关键词 INTERNET web 日志挖掘 互关联后继树 计算机网络 网站
下载PDF
快速混合Web文档聚类 被引量:3
8
作者 杨瑞龙 朱庆生 谢洪涛 《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量... 提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 展开更多
关键词 聚类算法 K-MEANS算法 后缀树 web文档聚类 基于短语的相似度
下载PDF
基于后缀树词序列核挖掘Web文档 被引量:2
9
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 核学习方法 词序列核 字符串核 后缀树 web挖掘
下载PDF
改进的基于Web的频繁访问路径挖掘算法 被引量:1
10
作者 庞敏 赵乙国 周海英 《测试技术学报》 2009年第3期244-247,共4页
对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法,挖掘效率是比较低的,而且只能得到频繁访问路径.本文在研究访问路径性质的基础上给出了一种能从普通Web日志中挖掘出连续频繁访问路径的算法.设计了一种新颖的数据结构压缩... 对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法,挖掘效率是比较低的,而且只能得到频繁访问路径.本文在研究访问路径性质的基础上给出了一种能从普通Web日志中挖掘出连续频繁访问路径的算法.设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息.同时采用分区搜索的方式,为每个频繁节点构造一棵后缀树,通过遍历该后缀树挖掘出连续频繁访问路径.采用这种方法进行挖掘,无需生成候选集,而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径. 展开更多
关键词 连续频繁访问路径 网络服务器日志 分区搜索 后缀树 频繁节点
下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
11
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
基于三元互关联后继树的Web日志挖掘 被引量:1
12
作者 张忠平 高一博 《计算机应用与软件》 CSCD 2011年第10期50-54,共5页
针对二元的互关联后继树模型进行改进,构造三元互关联后继树,并结合Web日志的特点,构造Web事务集的互关联后继树和增量更新模型,设计基于三元互关联后继树的频繁路径挖掘算法,挖掘Web日志中的频繁路径。通过实验证明了基于三元互关联后... 针对二元的互关联后继树模型进行改进,构造三元互关联后继树,并结合Web日志的特点,构造Web事务集的互关联后继树和增量更新模型,设计基于三元互关联后继树的频繁路径挖掘算法,挖掘Web日志中的频繁路径。通过实验证明了基于三元互关联后继树和改进后的模型的出色插入查询性能。 展开更多
关键词 web日志挖掘 web事务 互关联后继树 频繁路径
下载PDF
基于后缀树思想构造Web生物数据搜索的数据模型 被引量:1
13
作者 喻钧 王长元 +1 位作者 Sven Schuierer 喻萌 《西安工程科技学院学报》 2006年第2期206-209,共4页
针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹... 针对Web上的公共生物学数据资源,提出一种适合于在线搜索生物学数据的数据模型.该模型基于后缀树思想,通过建立生物体的DNA、RNA、蛋白质序列数据的后缀树结构,并将之转化为更加空间有效的后缀数组,然后搜索数组以找到查询序列的近似匹配.结果表明,这种数据模型比常规的线性搜索模型在时间和空间开销上更加高效. 展开更多
关键词 生物学数据库 搜索 后缀树 后缀数组
下载PDF
改进的基于后缀树的Web搜索结果聚类算法
14
作者 董亚则 李万龙 +1 位作者 李航 郑山红 《吉林大学学报(信息科学版)》 CAS 2016年第4期543-549,共7页
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否... 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。 展开更多
关键词 文本聚类 后缀树 向量空间模型 web检索结果
下载PDF
基于后缀树的Web检索结果聚类标签生成方法 被引量:9
15
作者 骆雄武 万小军 +1 位作者 杨建武 吴於茜 《中文信息学报》 CSCD 北大核心 2009年第2期83-88,共6页
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之... 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 展开更多
关键词 计算机应用 中文信息处理 检索结果聚类 聚类标签生成 后缀树
下载PDF
针对隐藏Web数据库的Skyline查询方法研究 被引量:3
16
作者 李征宇 李贵 曹科研 《计算机科学与探索》 CSCD 北大核心 2020年第8期1307-1314,共8页
通过Web接口查询服务端"隐藏"数据库的Skyline可以支持Web集成领域许多新应用。尽管受到客户端基于IP地址访问次数、top-k查询结果返回元组个数k,以及Web接口类型等诸多限制,但利用基本查询方法仍可获得隐藏Web数据库的Skyli... 通过Web接口查询服务端"隐藏"数据库的Skyline可以支持Web集成领域许多新应用。尽管受到客户端基于IP地址访问次数、top-k查询结果返回元组个数k,以及Web接口类型等诸多限制,但利用基本查询方法仍可获得隐藏Web数据库的Skyline,遗留的主要问题是查询代价过大。对此提出了混合属性的隐藏Web数据库Skyline的启发式求解方法。首先,利用平行坐标系分析Skyline元组相交性质,随后构造了启发式相交元组查询分解树,并证明了该树的查全性,最后针对典型的Web接口类型给出了启发式求解方法。理论分析和实验结果证实了启发式算法的有效性和相对基本查询方法的优越性。 展开更多
关键词 数据库Skyline 隐藏web数据库 相交元组 平行坐标系 查询分解树
下载PDF
基于可信度的Web信息搜索主动服务研究 被引量:1
17
作者 肖婷 陈红英 《计算机与现代化》 2011年第5期110-113,116,共5页
现有的Web信息搜索方式是基于关键词匹配来进行的,其准确性和可靠性有限。本文以用户需求为中心,收集用户偏好,应用后台软件采用C4.5决策树算法构建文件过滤规则,结合基于主观Bayes方法的不确定性推理为过滤规则追加可信度支持,并用模... 现有的Web信息搜索方式是基于关键词匹配来进行的,其准确性和可靠性有限。本文以用户需求为中心,收集用户偏好,应用后台软件采用C4.5决策树算法构建文件过滤规则,结合基于主观Bayes方法的不确定性推理为过滤规则追加可信度支持,并用模糊规则来描述,确保Web信息搜索的查全率和查准率全面提升。 展开更多
关键词 决策树 主观Bayes web信息搜索 可信度
下载PDF
ISTC: A New Method for Clustering Search Results 被引量:2
18
作者 ZHANG Wei XU Baowen +1 位作者 ZHANG Weifeng XU Junling 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期501-504,共4页
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phr... A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 展开更多
关键词 web search results clustering suffix tree term frequency-inverse document frequency (TFIDF) independence of phrases
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
19
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 web挖掘 层次聚类 web搜索 后缀树
下载PDF
一种改进的基于广义后缀树的文本聚类算法 被引量:7
20
作者 杜红斌 夏克文 +1 位作者 刘南平 吴涛 《信息与控制》 CSCD 北大核心 2009年第3期331-336,共6页
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,... 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法。针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出基于信息增益的类别标识提取算法。为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点。实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识。 展开更多
关键词 文本聚类 web挖掘 广义后缀树 后缀树聚类(STC)
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部