期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于改进Rocchio的网络信息过滤算法
1
作者 谭文娣 《信息与电脑》 2023年第10期79-81,共3页
由于网络上信息内容庞杂,传统基于内容的过滤方法难以建立准确的类别模板,导致信息过滤效果较差,提出基于改进Rocchio的网络信息过滤算法。文章首先利用数据包捕获技术与协议解析技术获取网络文本信息,其次基于改进Rocchio生成类别过滤... 由于网络上信息内容庞杂,传统基于内容的过滤方法难以建立准确的类别模板,导致信息过滤效果较差,提出基于改进Rocchio的网络信息过滤算法。文章首先利用数据包捕获技术与协议解析技术获取网络文本信息,其次基于改进Rocchio生成类别过滤模板,最后对比待过滤信息与类别模板的相似度,实现网络信息过滤。实验结果显示,设计的网络信息过滤算法的查全率为95.7%、查准率为96.8%,具有较好的过滤效果。 展开更多
关键词 改进rocchio 网络信息 信息过滤 过滤算法
下载PDF
一种基于聚类的PU主动文本分类方法 被引量:24
2
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 PU(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习 可信反例 改进rocchio
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部