摘要
文本挖掘是数据挖掘中的一个重要组成部分,传统的文本挖掘方法大部分是基于潜在语义分析的基础上进行的。由于由文本构成的矩阵基本上是大型稀疏的,而传统的潜在语义分析都是基于矩阵的奇异值分解的基础上进行的,矩阵的奇异值分解是一种立方次运算的求矩阵低秩近似方法,因而是一种低效的方法。针对文本矩阵是大型稀疏的特点,将Lanczos双对角算法和Lanczos双对角算法运用于此,并且从文中的算法分析得出,Lanczos双对角算法和扩展的Lanczos双对角算法是两种高效的求大型稀疏矩阵低秩近似的方法。
Text mining plays an important role in data latent semantic analysis. In the past, to get a low rank mining, and classical text mining is based on approximation, singular value decomposition is applied for latent semantic analysis. As we all know, singular value decomposition needs a cubic operation for it; so, it is cost, in particular, when the matrix is large and sparse. To solve this problem, this paper uses Lancos bidiagonalization algorithm and extended Lanezos bidiagonalization algorithm in here, both of them are efficient and effective for a large and sparse matrix.
出处
《信息技术》
2012年第12期92-94,共3页
Information Technology