摘要
语义数据的内积计算是个难点问题,制约了有关语义数据的核分类方法的研究和发展。针对此问题,通过给出一种语义数据相异性度量测度的新定义、计算语义数据内积的简化方法、研究核方法和支撑向量机中的核函数的本质,提出了一种语义数据的核分类方法,并把方法向语义数据、连续属性构成的异构数据的分类问题进行了拓展。仿真实验表明方法具有一定的抗离群数据干扰能力,方法的总体性能优于文献中已有的其他方法。通过在异常检测领域中的应用研究,说明方法能高效地实现不平衡数据的分类,具有一定的实用价值。
A kernel-based nominal data classification(KNDC) method is proposed with a new distance definition and a simple inner product computing method in this paper.It's insensitivity to outliers and classification capability to unbalanced data in real datasets are further analyzed.The calculation on inner product of nominal data is difficult,often regarded as the bottleneck of SVM.The KNDC possesses a lower computation complexity than SVM over the nominal dataset,which is discussed for its validity.Experimental results on the standard datasets demonstrate that the proposed method has promising performance compared with other methods.
出处
《中文信息学报》
CSCD
北大核心
2010年第6期37-42,共6页
Journal of Chinese Information Processing
基金
国家自然科学基金青年科学基金资助项目(60704047)
关键词
核分类方法
语义数据
相异性度量测度
内积计算
kernel-based classification method
nominal dataset
dissimilarity measure
inner production calculation