摘要
1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
Data Mining aims at big data in large database. In this paper,we present a new algorithm for clustering analysis based on genetic algorithm. There are two characteristics in our methods. Firstly,the algorithm is general-purposed and our cluster analyzer can cluster large data set with mixed numeric and categorical attributes. Secondly, it improves the efficiency of data mining and the quality of the knowledge-
出处
《计算机科学》
CSCD
北大核心
2002年第6期114-116,共3页
Computer Science
基金
重庆市科技计划项目