期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种对应约束的决策表属性约简算法 被引量:1
1
作者 成红红 张晓琴 +1 位作者 李飞江 钱宇华 《计算机科学》 CSCD 北大核心 2015年第6期50-53,共4页
决策表属性约简是粗糙集理论中的重要问题,经典决策表属性约简方法从保持论域划分能力的角度出发,选择最优条件属性约简集。从决策属性与条件属性的相关性角度出发,将决策表属性约简思想与传统统计学中的对应分析方法相结合,提出了一种... 决策表属性约简是粗糙集理论中的重要问题,经典决策表属性约简方法从保持论域划分能力的角度出发,选择最优条件属性约简集。从决策属性与条件属性的相关性角度出发,将决策表属性约简思想与传统统计学中的对应分析方法相结合,提出了一种量化决策属性与条件属性之间依赖关系的度量,称为投影区分度,并基于此发展了一种决策表属性约简算法。最后用简单实例说明了该方法的正确性。 展开更多
关键词 决策表 属性约简 对应约束 投影区分度
下载PDF
大数据关联关系度量研究综述 被引量:17
2
作者 钱宇华 成红红 +1 位作者 梁新彦 王建新 《数据采集与处理》 CSCD 北大核心 2015年第6期1147-1159,共13页
大数据关联性分析是大数据挖掘的基础,一个好的关联性度量是实施关联分析的关键。本文首先指出大数据时代关联度量面临的挑战和研究现状,从关联关系度量的构造角度出发,对现有的关联关系度量进行整理,归纳总结了这些关联关系的性质和适... 大数据关联性分析是大数据挖掘的基础,一个好的关联性度量是实施关联分析的关键。本文首先指出大数据时代关联度量面临的挑战和研究现状,从关联关系度量的构造角度出发,对现有的关联关系度量进行整理,归纳总结了这些关联关系的性质和适用条件。在回顾关联度量发展历程的基础上,结合大数据时代关联关系的特点,提出构造关联度量可能满足的条件。最后针对多模态数据关联关系度量的若干问题进行探讨和梳理,从3个角度出发,提出应对多模态数据空间转换的挑战,以引起对该领域更深入的思考与研究工作,从而促进大数据挖掘工作的进展。 展开更多
关键词 大数据 关联性分析 关联度量 多模态数据
下载PDF
全粒度聚类算法 被引量:2
3
作者 李飞江 成红红 钱宇华 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第4期505-516,共12页
聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多... 聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多粒度来更合理有效地进行问题求解.本文借鉴人类的这种多粒度认知机理,提出一种新的相似性学习方法,称作全粒度相似性度量方法,基于此发展了一种全粒度聚类算法.而全粒度相似性度量从各个角度观察被测对象,进而会得到两个对象间更加真实的相似度.从UCI数据集中选取5组数据进行实验,最后通过与两种传统的聚类方法比较验证了全粒度聚类算法的合理性与有效性. 展开更多
关键词 相似性度量 聚类分析 全粒度
下载PDF
数据簸箕
4
作者 钱宇华 成红红 +1 位作者 张晓琴 梁吉业 《计算机科学与探索》 CSCD 2013年第11期1009-1017,共9页
大数据时代的到来给数据挖掘和知识发现带来了很大的挑战。簸箕是一种大家熟知的农用工具,能快速将不同的物体分开。基于簸箕的工作机制,提出了一个新颖的学习原理:随机并行序化原理(random parallel ranking principle,RPRP),称为数据... 大数据时代的到来给数据挖掘和知识发现带来了很大的挑战。簸箕是一种大家熟知的农用工具,能快速将不同的物体分开。基于簸箕的工作机制,提出了一个新颖的学习原理:随机并行序化原理(random parallel ranking principle,RPRP),称为数据簸箕,可高效地对数据进行排序和分类。为了验证这种学习原理的有效性与高效性,设计了一种新的聚类方法,即聚类簸箕。实验结果表明,聚类簸箕能够快速且有效地对数据进行聚类。此外,该学习原理也能够用于设计高效的分类器。该数据簸箕有望推动大数据背景下机器学习与知识发现理论与方法的发展。 展开更多
关键词 大数据集 数据簸箕 随机并行序化原理(RPRP) 聚类簸箕
下载PDF
CNN图像标题生成 被引量:7
5
作者 李勇 成红红 +2 位作者 梁新彦 郭倩 钱宇华 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第2期152-157,共6页
图像标题生成任务需要生成一个有意义的句子来准确地描述该图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络来编码文本信息,由于循环神经网络的"串行特性",导致模型的性能低。为解决该问题,基于卷积神... 图像标题生成任务需要生成一个有意义的句子来准确地描述该图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络来编码文本信息,由于循环神经网络的"串行特性",导致模型的性能低。为解决该问题,基于卷积神经网络来构建一种模型,采用不同结构的卷积神经网络来同时处理两个模态的数据,得益于卷积运算的"并行特性",该模型的运行效率有明显提升。在两个公开数据集上进行了实验,实验结果在指定的评价指标上也有一定的提升,表明了该模型对于处理图像标题生成任务的有效性。 展开更多
关键词 多模态数据 图像标题 长短期记忆 神经网络
下载PDF
面向多标记学习的局部粗糙集 被引量:3
6
作者 梁新彦 钱宇华 +1 位作者 郭倩 成红红 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第2期270-279,共10页
多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些... 多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性. 展开更多
关键词 多标记学习 属性约简 局部粗糙集 部分标签决策表
下载PDF
关联学习:关联关系挖掘新视角 被引量:5
7
作者 钱宇华 张明星 成红红 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期424-432,共9页
关联关系挖掘与发现是大数据挖掘与分析的重要基础,现有的关联关系挖掘方法多是对数据进行统计分析,对未知数据缺少关联判别作用.尝试从学习的角度进行关联关系挖掘,给出了关联学习的形式化定义和相关概念,并根据关联学习定义构建学习... 关联关系挖掘与发现是大数据挖掘与分析的重要基础,现有的关联关系挖掘方法多是对数据进行统计分析,对未知数据缺少关联判别作用.尝试从学习的角度进行关联关系挖掘,给出了关联学习的形式化定义和相关概念,并根据关联学习定义构建学习数据集.具体地构建了2类关联图像数据集(two class associated image data sets,TAID),利用卷积神经网络提取关联特征,然后分别用softmax函数和K近邻算法判别关联关系,基于此提出3种关联关系判别器:关联图像卷积神经网络判别器(associated image convolutional neural network discriminator,AICNN)、关联图像LeNet判别器(associated image LeNet discriminator,AILeNet)和关联图像K近邻判别器(associated image K-nearest neighbor discriminator,AIKNN).3种关联判别器在TAID数据集上进行测试,AICNN在64×64像素90000个训练样本上的判别精度达0.8217,AILeNet在256×256像素22500个训练样本上的判别精度达0.8456,AIKNN在256×256像素22500个训练样本上的判别精度达到0.8664.这3种关联判别器有效地证明了学习角度挖掘关联关系的可行性. 展开更多
关键词 关联关系 关联学习 关联判别器 关联图像数据集 关联学习准则
下载PDF
基于邻域视角的关联关系挖掘方法 被引量:7
8
作者 成红红 钱宇华 +1 位作者 胡治国 梁吉业 《中国科学:信息科学》 CSCD 北大核心 2020年第6期824-844,共21页
识别海量变量间潜在的复杂关联关系,判断不同形式关联关系的强弱,是大数据关联关系挖掘的重要任务之一.然而,数据分布的不确定性、关联关系的多样性,使得基于分布假设的关联关系度量和基于数据驱动的非参数度量方法的适用性、准确性难... 识别海量变量间潜在的复杂关联关系,判断不同形式关联关系的强弱,是大数据关联关系挖掘的重要任务之一.然而,数据分布的不确定性、关联关系的多样性,使得基于分布假设的关联关系度量和基于数据驱动的非参数度量方法的适用性、准确性难以保证.因此,设计一种对关联关系形式无偏的有效关联度量方法变得至关重要.本文从大数据背景下潜在关联关系应被公平排序的需求出发,回顾了目前关联度量的公理化条件,给出了大数据关联关系度量可能需满足的性质;讨论了两类基于邻域视角的度量方法存在的不足;提出了本文基于k-NN粒的关联度量方法,称为最大邻域系数.人造数据集和真实数据集实验从不同角度验证了本文所提方法的有效性和优越性.最后指出了实验中发现的有趣现象和有待解决的理论问题,以引起对该领域更深入的思考和研究. 展开更多
关键词 大数据 复杂关联关系挖掘 关联度量 数据驱动 粒计算 k-NN粒
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部