-
题名数据流挖掘算法研究综述
被引量:21
- 1
-
-
作者
蒋盛益
李庆华
李新
-
机构
华中科技大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第5期1130-1132,1169,共4页
-
基金
国家自然科学基金项目(60273075)
-
文摘
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。
-
关键词
数据流
挖掘算法
聚类
分类
频繁模式
-
Keywords
data stream
data stream mining
clustering, classification
frequent pattern
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名音乐情感自动分析研究
被引量:8
- 2
-
-
作者
蒋盛益
李霞
李碧
王连喜
-
机构
广东外语外贸大学信息学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第18期4112-4115,共4页
-
基金
国家自然科学基金项目(60673191)
广东省自然科学基金项目(9151026005000002)
广东省高等学校自然科学研究重点项目(06Z012)
-
文摘
音乐情感自动分析在音乐检索和音乐推荐等方面具有广泛的应用。对3种音乐情感模型进行了对比分析,介绍了音乐情感分类方法,并指出已有研究存在的不足。音乐分割与摘要是高效音乐浏览与推荐的基础,在对音乐分割与摘要方法进行分析的基础上,指出了定长分割策略的不足;借助音乐相似性与情感可视化实现音乐推荐,对音乐相似性度量与可视化方法进行了概述。最后,展望了对音乐情感自动分析的研究方向。
-
关键词
音乐情感
情感识别
情感模型
音乐摘要
音乐检索
音乐推荐
-
Keywords
music emotion
emotion detection
model of emotion
music summarization
music information retrieval
music recommendation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于代价敏感的朴素贝叶斯不平衡数据分类研究
被引量:21
- 3
-
-
作者
蒋盛益
谢照青
余雯
-
机构
广东外语外贸大学信息学院
广东外语外贸大学国际工商管理学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S1期387-390,共4页
-
基金
国家自然科学基金项目(60673191
61070061)
广东省自然科学基金项目(9151026005000002)
-
文摘
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的.
-
关键词
代价敏感
朴素贝叶斯
不平衡数据分类
-
Keywords
cost-sensitive
naive bayes
imbalanced data classification
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名一种增强的局部异常挖掘方法
被引量:8
- 4
-
-
作者
蒋盛益
李庆华
王卉
孟中楼
-
机构
华中科技大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2005年第2期210-216,共7页
-
基金
国家自然科学基金项目 (60 2 73 0 75 )
-
文摘
异常检测在许多领域有重要应用 在提出度量具有混合属性的对象间差异性方法的基础上 ,将加权幂平均引入数据挖掘 ,提出一种基于最近邻的异常检测方法 ,这种方法采用广义局部异常因子GLOF度量对象的异常程度 ,不需要阈值或数据集中异常数据个数的先验知识 理论分析表明 ,GLOF具有好的性质 实验表明 :①对象间差异性定义适合于混合属性的数据集 ;②GLOF比LOF ,CBLOF ,RNN更准确地刻画了局部异常 ;③“Bσ”
-
关键词
数据挖掘
异常检测
加权幂平均
“Bσ”准则
-
Keywords
data mining
outlier detection
weighted power mean
rule of “Bσ”
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于聚类的特征选择方法
被引量:18
- 5
-
-
作者
蒋盛益
郑琪
张倩生
-
机构
广东外语外贸大学信息学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2008年第B12期157-160,共4页
-
基金
国家自然科学基金(No.60673191)
广东省高等学校自然科学研究重点项目(No.06Z012)
广东外语外贸大学科研创新团队项目(No.GW2006-TA-005)
-
文摘
本文提出了一种度量特征区分度的定义,进而提出一种基于聚类的特征选择方法CBFS.该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择;该方法对数据类型没有限制,适用于混合类型数据.在UCI数据集上的实验结果表明,与文献中的方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效和实用的.
-
关键词
聚类
特征区分度
特征选择
-
Keywords
clustering
differentiation of feature
feature selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向微博的社会情绪词典构建及情绪分析方法研究
被引量:18
- 6
-
-
作者
蒋盛益
黄卫坚
蔡茂丽
王连喜
-
机构
广东外语外贸大学语言工程与计算实验室
广东外语外贸大学信息学院
广东外语外贸大学图书馆
-
出处
《中文信息学报》
CSCD
北大核心
2015年第6期166-171,202,共7页
-
基金
国家自然科学基金(61572145)
广东省科技计划项目(2014A040401083)
+1 种基金
教育部人文社会科学研究青年项目(14YJC870021)
广东省哲学社会科学"十二五"规划项目(GD14YXW02)
-
文摘
该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。
-
关键词
微博
社会情绪
词典
情绪分析
-
Keywords
microblogging
social emotions
lexicon
emotional analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于机器学习的上市公司财务预警模型的构建
被引量:14
- 7
-
-
作者
蒋盛益
汪珊
蔡余冲
-
机构
广东外语外贸大学信息学院
广东外语外贸大学财经学院
-
出处
《统计与决策》
CSSCI
北大核心
2010年第9期166-167,共2页
-
基金
国家自然科学基金资助项目(60673191)
广东省高等学校自然科学研究重点项目(06Z012)
广东省自然科学基金项目(9151026005000002)
-
文摘
文章通过运用多种机器学习方法分别建立时间跨度为5年和6年的上市公司财务风险预警模型,初始选择了29个指标,利用数据挖掘的特征选择方法,最终选取9个有代表性的指标来建立模型。实验表明,最近邻分类、多层感知机、BP神经网络及逻辑回归四类方法建立风险预警模型的性能相当,可以较好地预测上市公司财务危机。
-
关键词
分类算法
财务指标
属性选择
预警模型
-
分类号
F224.7
[经济管理—国民经济]
-
-
题名一种改进的BIRCH聚类算法
被引量:27
- 8
-
-
作者
蒋盛益
李霞
-
机构
广东外语外贸大学信息科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第1期293-296,共4页
-
基金
国家自然科学基金资助项目(60673191)
广东省高等学校自然科学研究重点项目(06Z012)
广东外语外贸大学科研创新团队项目(GW2006-TA-005)
-
文摘
BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值T来构建聚类特征(CF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值T及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以下改进:1)改进原BIRCH算法的CF结构,使其可以处理混合型属性数据集;2)启发式为BIRCH算法选择初始阈值T并给出了第二阶段提升阈值的具体操作方法;3)对BIRCH算法的参数B和L做了探讨,指出当参数B=L时算法性能相近,并提出为获得较好聚类效果时B值的取值范围。实验结果表明,改进后的BIRCH算法具有较好的性能。
-
关键词
BIRCH算法
聚类
阈值
混合属性数据
数据挖掘
-
Keywords
BIRCH algorithm
clustering
threshold
heterogeneous attributes
data mining
-
分类号
TP311.138
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于增量式谱聚类的动态社区自适应发现算法
被引量:21
- 9
-
-
作者
蒋盛益
杨博泓
王连喜
-
机构
广东外语外贸大学思科信息学院
语言工程与计算广东省社会科学重点实验室
广东外语外贸大学图书馆
-
出处
《自动化学报》
EI
CSCD
北大核心
2015年第12期2017-2025,共9页
-
基金
国家自然科学基金(61572145)
教育部人文社会科学研究青年项目(14YJC870021)
+4 种基金
广东省科技计划项目(2014A040401083
2015A030401093)
广东省普通高校科技创新项目(2012KJCX0049)
广东外语外贸大学研究生科研创新项目(15GWCXXM-40)
广东大学生科技创新培育专项资金(308-GK151018)资助~~
-
文摘
针对当前复杂网络动态社区发现的热点问题,提出一种面向静态网络社区发现的链接相关线性谱聚类算法,并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法.动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题,利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构,使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构.此后,对于后续相邻的时间片,提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础,通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类,以达到自适应地发现复杂网络动态社区的目的.在多个数据集的实验表明,提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.
-
关键词
谱聚类
拉普拉斯矩阵
拉普拉斯本征分析
增量聚类
社区检测
动态社区
-
Keywords
Spectral clustering
Laplacian matrix
Laplacian eigen analysis
incremental clustering
community detection
dynamic community
-
分类号
O157.5
[理学—基础数学]
-
-
题名基于一趟聚类的不平衡数据下抽样算法
被引量:12
- 10
-
-
作者
蒋盛益
苗邦
余雯
-
机构
广东外语外贸大学信息学院
广东外语外贸大学国际工商管理学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第2期232-236,共5页
-
基金
国家自然科学基金项目(61070061)资助
广东省自然科学基金项目(9151026005000002)资助
广东省高层次人才项目
-
文摘
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
-
关键词
不平衡数据
一趟聚类
下抽样
-
Keywords
imbalanced data classification
one-pass clustering algorithm
under-sampling
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名Chameleon算法的改进
被引量:10
- 11
-
-
作者
蒋盛益
庞观松
张黎莎
-
机构
广东外语外贸大学信息学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2010年第8期1643-1646,共4页
-
基金
国家自然科学基金项目(60673191)资助
广东省自然科学基金项目(9151026005000002)资助
广东省高等学校自然科学研究重点项目(06Z012)资助
-
文摘
结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.
-
关键词
一趟聚类算法
基于图的聚类算法
任意形状簇
-
Keywords
one-pass clustering algorithm
graph-based clustering algorithm
arbitrary shape cluster
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于聚类的有指导的入侵检测方法
被引量:6
- 12
-
-
作者
蒋盛益
李庆华
王卉
孟中楼
-
机构
华中科技大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1042-1045,共4页
-
基金
国家自然科学基金项目(60273075)资助.
-
文摘
提出了一种新的距离定义和基于聚类的有指导的入侵检测方法CBSID(Clustering-basedandSupervisedInterusionDetection),该方法在带标记的训练集上进行聚类,以聚类结果作为分类模型对未见数据进行分类.该方法对于参数和数据输入顺序具有稳健性,可增量更新分类模型.不同于一般的有指导的入侵检测方法,该方法对未知入侵有一定的检测能力.在KDDCUP99数据集上的测试结果表明,CBSID有理想的性能(高的检测率和低的误报率).
-
关键词
入侵检测
聚类
分类
-
Keywords
intrusion detection
clustering
classification
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于特征相关性的特征选择
被引量:16
- 13
-
-
作者
蒋盛益
王连喜
-
机构
广东外语外贸大学信息学院
广东外语外贸大学国际工商管理学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第20期153-156,共4页
-
基金
国家自然科学基金No.60673191
广东省自然科学基金No.9151026005000002
广东省高等学校自然科学研究重点项目(No.06Z012)~~
-
文摘
提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。
-
关键词
特征选择
相关度
特征聚类
分类
-
Keywords
feature selection
similarity
feature clustering
classification
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种两阶段异常检测方法
被引量:7
- 14
-
-
作者
蒋盛益
李庆华
赵延喜
-
机构
华中科技大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第7期1237-1240,共4页
-
基金
国家自然科学基金项目(60273075)资助
-
文摘
提出了一种新的距离和对象异常因子的定义,在此基础上提出了一种两阶段异常检测方法TOD,第一阶段利用一种新的聚类算法对数据进行聚类,第二阶段利用对象的异常因子检测异常.TOD的时间复杂度与数据集大小成线性关系,与属性个数成近似线性关系,算法具有好的扩展性,适合于大规模数据集.理论分析和实验结果表明TOD具有稳健性和实用性.
-
关键词
聚类
异常因子
异常检测
-
Keywords
clustering
outlier factor
outlier detection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名评价对象抽取研究综述
被引量:13
- 15
-
-
作者
蒋盛益
郭林东
王连喜
符斯慧
-
机构
广东外语外贸大学信息科学与技术学院
语言工程与计算广东省社会科学重点实验室
广东外语外贸大学图书馆
-
出处
《自动化学报》
EI
CSCD
北大核心
2018年第7期1165-1182,共18页
-
基金
国家自然科学基金(61572145)
教育部人文社会科学青年项目(14YJ C870021)
+2 种基金
广东省科技计划项目(2014A040401083
2015A030401093)
广东省大学生科技培育专项资金项目(110-GK161017)资助~~
-
文摘
近年来,细粒度情感分析因其在商业决策、舆情分析等领域的重要作用而受到学术界和工业界的广泛关注.评价对象抽取作为情感分析的基本任务之一,是进行细粒度情感分析的关键问题.本文针对评价对象抽取问题的起源、当前主流研究方法和趋势进行了梳理,首先详细阐述评价对象抽取问题的基本概念并对其进行形式化表示,然后结合近年来的研究对评价对象抽取方法进行归纳和总结,并重点分析基于频率、基于模板规则、基于图论、基于条件随机场和基于深度学习的评价对象抽取方法,随后回顾评价对象抽取的评测情况和可用的语料资源,最后分析评价对象抽取的若干难点问题,同时对评价对象抽取研究进展和发展趋势进行总结和展望.
-
关键词
评价对象抽取
细粒度情感分析
评测
资源建设
-
Keywords
Opinion target extraction
fine-grained sentiment analysis
evaluation
resource construction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于引力的聚类方法
被引量:9
- 16
-
-
作者
蒋盛益
李庆华
-
机构
衡阳师范学院计算机系
华中科技大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2005年第2期286-288,300,共4页
-
基金
国家自然科学基金资助项目(60273075)
-
文摘
将万有引力的思想引入聚类分析中,提出了一种基于引力的聚类方法GCA(Gravity basedClusteringApproach),同时给出了一种计算聚类阈值的简单而有效的方法。GCA关于数据库的大小和属性个数具有近似线性时间复杂度,这使得聚类方法GCA具有好的扩展性。实验结果表明GCA可产生高质量的聚类结果。
-
关键词
引力
聚类
阈值
数据挖掘
-
Keywords
Gravity
Clustering
Threshold
data mining
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-
-
题名不平衡数据的无监督特征选择方法
被引量:8
- 17
-
-
作者
蒋盛益
王连喜
-
机构
广东外语外贸大学信息学院
广东外语外贸大学图书馆
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第1期63-67,共5页
-
基金
国家自然科学基金项目(61070061)资助
教育部人文社会科学研究青年项目(11YJCZH086)资助
+1 种基金
广东外语外贸大学青年项目(11Q01)资助
广东省高层次人才项目资助
-
文摘
传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值.
-
关键词
特征选择
不平衡数据集
聚类
特征重要性度量
-
Keywords
feature selection
imbalanced data
clustering
feature importance measure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向不平衡数据的特征加权聚类算法
被引量:4
- 18
-
-
作者
蒋盛益
苗邦
王连喜
-
机构
广东外语外贸大学思科信息学院
广东外语外贸大学图书馆
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第8期1809-1812,共4页
-
基金
国家自然科学基金项目(61070061)资助
广州市科技计划项目(2011J5100004)资助
广州市越秀区科技计划项目(2012-TP-005)资助
-
文摘
不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能.
-
关键词
不平衡数据
一趟聚类
特征加权
-
Keywords
imbalanced data
single-pass clustering algorithm
feature weighted
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于二阶段聚类的重叠社区发现算法
被引量:3
- 19
-
-
作者
蒋盛益
杨博泓
李敏敏
吴美玲
王连喜
-
机构
广东外语外贸大学思科信息学院
淘宝中国软件有限公司
广东外语外贸大学图书馆
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2015年第11期983-991,共9页
-
基金
国家自然科学基金项目(No.61572145)
教育部人文社会科学研究青年项目(No.14YJC870021)
广东省科技计划项目(No.2015A030401093,2014A04041083)资助
-
文摘
针对当前复杂网络重叠社区发现的热点问题,提出基于二阶段聚类的重叠社区发现算法.对网络邻接矩阵进行特征分解时,节点投影到k维欧氏空间后,对节点先后进行硬聚类和软聚类,高效自适应地挖掘网络中的重叠社区结构.在硬聚类阶段中,引入基于距离最小原则的一趟聚类算法对节点进行自适应的硬划分,确定软聚类阶段中的聚类中心和网络的社区数量.在软聚类阶段中,引入以模糊模块度为目标函数的模糊C均值算法,通过迭代优化模糊模块度实现对节点的软划分,挖掘网络中的重叠社区结构.在多个真实网络数据集上的实验验证文中算法能高效挖掘复杂网络中的重叠社区结构.
-
关键词
重叠社区
社区发现
模糊聚类
模糊模块度
特征分解
-
Keywords
Overlapping Community, Community Detection, Fuzzy Clustering, Fuzzy Modularity,Eigen Decomposition
-
分类号
O157.5
[理学—基础数学]
-
-
题名一种增强的k-means聚类算法
被引量:15
- 20
-
-
作者
蒋盛益
李庆华
-
机构
衡阳师范学院计算机系
华中科技大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
2006年第11期56-59,共4页
-
基金
国家自然科学基金资助项目(60273075)
广东外语外贸大学重点项目(GW2005-1-012)
-
文摘
本文针对k-modes算法在类的表示方面存在的不足,提出用摘要信息来表示一个类,并给出了一种适用于混合属性的距离定义,得到增强的k-means算法——k-summary算法。理论分析和实验结果表明,k-summary算法较k-modes算法和k-prototypes算法具有更好的精度。
-
关键词
数据挖掘
聚类算法
κ-summary
算法
-
Keywords
data mining
clustering algorithm
κ-summary algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-