期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
利用属性集相关性与源误差的多真值发现方法研究 被引量:2
1
作者 卢菁 胡成 刘丛 《小型微型计算机系统》 CSCD 北大核心 2019年第3期601-605,共5页
目前真值发现的研究主要利用数据源质量和数据之间的关系,然而实际数据的分布呈现长尾现象,传统算法在处理尾部数据时,准确率大大下降.本文对数据源进行分类,对头部数据源利用属性集相关性,给予正确集更多的置信度补偿,易于剔除错误数据... 目前真值发现的研究主要利用数据源质量和数据之间的关系,然而实际数据的分布呈现长尾现象,传统算法在处理尾部数据时,准确率大大下降.本文对数据源进行分类,对头部数据源利用属性集相关性,给予正确集更多的置信度补偿,易于剔除错误数据;对尾部数据源,根据误差小的数据源应获得更高的权值分配的理论,将真值发现转化成全局优化问题,通过寻求数据源权值的最佳分配,获得最可能接近真值列表的属性集合.实验表明,本文提出的方法在真实的长尾数据集上,准确率和召回率方面均优于传统算法. 展开更多
关键词 真值发现 数据冲突 长尾现象 相关性 源误差
下载PDF
MOOB:一种改进的基于Bandit模型的推荐算法 被引量:1
2
作者 帖军 孙荣苑 +1 位作者 孙翀 郑禄 《中南民族大学学报(自然科学版)》 CAS 2018年第1期114-119,共6页
提出了一种基于置信区间上界算法的多目标优化推荐算法.该算法可以在保证预测精准度的基础上有效地避免马太效应,并提高推荐系统对长尾物品的挖掘能力.采用Ya Hoo的新闻推荐数据集对算法进行了实验和评价,实验结果表明:多目标优化推荐... 提出了一种基于置信区间上界算法的多目标优化推荐算法.该算法可以在保证预测精准度的基础上有效地避免马太效应,并提高推荐系统对长尾物品的挖掘能力.采用Ya Hoo的新闻推荐数据集对算法进行了实验和评价,实验结果表明:多目标优化推荐算法能够在预测准确率较高的情况下,有效地解决长尾物品发掘问题,避免马太效应,提高推荐系统的精度和广度. 展开更多
关键词 Bandit模型 马太效应 长尾现象 多目标优化 覆盖率
下载PDF
基于频繁模式的长尾文本聚类算法 被引量:1
3
作者 宋中山 张广凯 +1 位作者 尹帆 帖军 《计算机系统应用》 2019年第4期139-144,共6页
短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在"长尾现象",传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets... 短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在"长尾现象",传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework, FIPC).该算法将迭代聚类框架与K中心点算法相结合,运用协同剪枝策略,实现对小类别文本聚类,实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度,并能避免聚类中类簇重叠的问题. 展开更多
关键词 文本聚类 长尾现象 频繁模式 K中心点算法
下载PDF
云环境中大数据挖掘的有效花费研究 被引量:1
4
作者 朱小栋 徐怡 魏紫钰 《上海理工大学学报》 CAS CSCD 北大核心 2020年第3期247-252,共6页
为平衡云计算资源的租用量与云环境中数据挖掘的计算结果准确率,得到最优的性价比,以监督式学习的卷积神经网络(CNN)为例,探究了CNN迭代次数与准确率的演化规律。选择经典图像数据集MNIST和文本数据集IMDB作为代表展开实验,发现在不同... 为平衡云计算资源的租用量与云环境中数据挖掘的计算结果准确率,得到最优的性价比,以监督式学习的卷积神经网络(CNN)为例,探究了CNN迭代次数与准确率的演化规律。选择经典图像数据集MNIST和文本数据集IMDB作为代表展开实验,发现在不同类型的数据集中,当CNN迭代接近最优解时,每提高很小的准确率,耗费的机时陡增,称之为长尾现象。验证在真实云环境中,当大数据挖掘的长尾现象发生且满足企业准确率需求的情况下,选择提前结束取代最高精度时结束,均可以节省大量云资源成本。研究结果对于合理运用云计算资源,降低云服务租用成本,具有实用价值与现实意义。 展开更多
关键词 云计算资源 有效花费 卷积神经网络 长尾现象
下载PDF
基于长尾理论的档案信息服务研究 被引量:4
5
作者 张文静 《档案与建设》 北大核心 2018年第11期35-39,共5页
网络环境下,档案领域存在着一些长尾现象,长尾理论对档案信息服务具有重要的指导作用。论文从长尾理论的内涵出发,认为数字档案馆建设、互联网普及和用户个性化信息需求增长是影响档案信息利用尾部需求的三大因素,并且从档案馆馆藏资源... 网络环境下,档案领域存在着一些长尾现象,长尾理论对档案信息服务具有重要的指导作用。论文从长尾理论的内涵出发,认为数字档案馆建设、互联网普及和用户个性化信息需求增长是影响档案信息利用尾部需求的三大因素,并且从档案馆馆藏资源长尾、档案信息用户长尾、档案利用需求长尾三个方面,阐述了档案信息服务中的长尾现象。同时,论文试图从挖掘馆藏信息资源长尾、聚合档案信息用户需求、提升"尾部"档案利用效率三个方面探讨基于长尾理论的档案信息服务策略,旨在提高和深化档案信息服务。 展开更多
关键词 长尾现象 馆藏资源 档案用户 利用需求
下载PDF
基于小样本置信区间的众包答案决策方法
6
作者 张光园 王宁 《计算机科学》 CSCD 北大核心 2020年第10期26-31,共6页
众包工人的水平良莠不齐,质量控制是众包面临的挑战之一。目前的研究大多通过评估工人质量来保证最终答案的有效性,但是常常忽略众包任务中普遍存在的长尾现象。因此,综合考虑不同任务类型、长尾现象的特点以及工人完成任务的情况,提出... 众包工人的水平良莠不齐,质量控制是众包面临的挑战之一。目前的研究大多通过评估工人质量来保证最终答案的有效性,但是常常忽略众包任务中普遍存在的长尾现象。因此,综合考虑不同任务类型、长尾现象的特点以及工人完成任务的情况,提出构造小样本置信区间来估计工人质量,以解决工人完成任务数量普遍较少情况下的答案决策问题。首先依据黄金标准答案策略对工人质量进行预评估,根据工人质量分布分别对数值型任务和单项选择型任务采用不同的真值初始化方法;然后构造小样本置信区间以准确评估工人质量;最后进行任务答案决策并迭代更新工人质量。为了验证提出方法的有效性,实验在5个真实数据集上进行,与现有方法相比,所提方法能很好地解决长尾现象。特别是在工人完成任务数量普遍较少的情况下,提出的方法在单项选择型任务数据集中的平均准确率高达93%,相比现有方法的最好表现高出16%,且在数值型任务数据集中的MAE值和RMSE值均低于现有方法。 展开更多
关键词 众包 长尾现象 小样本置信区间 工人质量估计 答案决策
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部