摘要
提出一种记录约简的信息量度量方法--基于语义贴近度的信息熵,它将关系看成离散有限集,用统计概率计算关系中记录的概率,基于语义贴近度定义关系中记录的信息量,再用数学期望求出关系的平均信息量(信息熵)作为关系的信息量。
The aim of record reduction is to keep less record count and more information amount.So,ratio of record reduction and Information Entropy Based on Semantic Proximity(IEBSP)are presented as measures.IEBSP regards relation as discrete and limited set,calculates record probability using statistics method,define information amount of relation(information entropy).
出处
《计算机工程与应用》
CSCD
北大核心
2002年第14期193-196,共4页
Computer Engineering and Applications
基金
云南省自然科学基金项目(编号:1999F0015M)
关键词
信息熵
记录约简度量方法
数据挖掘
数据预处理
数据库
record reduction,information amount ,information entropy based on semantic proximity