期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于后缀树词序列核挖掘Web文档 被引量:2
1
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 学习方法 词序列核 字符串 后缀树 WEB挖掘
下载PDF
应用于垃圾邮件过滤的词序列核 被引量:5
2
作者 陈孝礼 刘培玉 《计算机应用》 CSCD 北大核心 2011年第3期698-701,共4页
针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支... 针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减系数,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率更高,提高了垃圾邮件过滤的准确率。 展开更多
关键词 支持向量机 词序列核 相关度量 垃圾邮件过滤
下载PDF
一种改进的词序列核算法 被引量:1
3
作者 徐峰 罗军勇 温涛 《计算机应用》 CSCD 北大核心 2009年第4期1124-1127,共4页
在深入研究Kandol提出的词序列核(WSK)算法的基础上,提出了一种降低时间复杂度和空间复杂度的文本特征提取算法,并在一个测试集上进行了分类性能测试,结果表明提出的特征提取算法与词序列核算法相比较,在对文本分类性能损失较小的情况下... 在深入研究Kandol提出的词序列核(WSK)算法的基础上,提出了一种降低时间复杂度和空间复杂度的文本特征提取算法,并在一个测试集上进行了分类性能测试,结果表明提出的特征提取算法与词序列核算法相比较,在对文本分类性能损失较小的情况下,能够显著地降低特征提取时间、空间复杂度。 展开更多
关键词 词序列核 特征抽取 方法
下载PDF
基于词序列核的垃圾邮件过滤 被引量:1
4
作者 陈葡 谢晓尧 徐洋 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2011年第5期419-423,共5页
针对传统的基于词频特征向量核方法的垃圾邮件过滤算法中忽略词汇间的序列信息而导致信息损失影响过滤精度的问题,本文将词序列核与SVM(support vector machines)算法结合,对垃圾邮件进行过滤,相应的实验表明,该方法提高召回率、正确率... 针对传统的基于词频特征向量核方法的垃圾邮件过滤算法中忽略词汇间的序列信息而导致信息损失影响过滤精度的问题,本文将词序列核与SVM(support vector machines)算法结合,对垃圾邮件进行过滤,相应的实验表明,该方法提高召回率、正确率和精确率,从而提高了过滤精度. 展开更多
关键词 词序列核 垃圾短信过滤 方法 SVM
原文传递
Product image sentence annotation based on kernel descriptors and tag-rank
5
作者 张红斌 姬东鸿 +2 位作者 尹兰 任亚峰 殷依 《Journal of Southeast University(English Edition)》 EI CAS 2016年第2期170-176,共7页
Dealing with issues such as too simple image features and word noise inference in product image sentence anmotation, a product image sentence annotation model focusing on image feature learning and key words summariza... Dealing with issues such as too simple image features and word noise inference in product image sentence anmotation, a product image sentence annotation model focusing on image feature learning and key words summarization is described. Three kernel descriptors such as gradient, shape, and color are extracted, respectively. Feature late-fusion is executed in turn by the multiple kernel learning model to obtain more discriminant image features. Absolute rank and relative rank of the tag-rank model are used to boost the key words' weights. A new word integration algorithm named word sequence blocks building (WSBB) is designed to create N-gram word sequences. Sentences are generated according to the N-gram word sequences and predefined templates. Experimental results show that both the BLEU-1 scores and BLEU-2 scores of the sentences are superior to those of the state-of-art baselines. 展开更多
关键词 product image sentence annotation kerneldescriptors tag-rank word sequence blocks building(WSBB) N-gram word sequences
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部