期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种基于聚类和LSA相结合的文本特征降维方法 被引量:4
1
作者 刘海峰 王元元 +1 位作者 张学仁 刘守生 《情报杂志》 CSSCI 北大核心 2008年第2期3-6,共4页
提出了一种特征选择和特征抽取相结合的特征降维方法。首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好。
关键词 特征聚类 特征选择 特征抽取 文本分类 lsa/svd
下载PDF
结合LSA的中文谱聚类算法研究 被引量:3
2
作者 熊忠阳 暴自强 +1 位作者 李智星 张玉芳 《计算机应用研究》 CSCD 北大核心 2010年第3期917-918,共2页
传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异... 传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验。在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。 展开更多
关键词 文本聚类 潜在语义分析 奇异值分解 谱聚类
下载PDF
LSA在中文短文自动判分系统中的应用研究 被引量:4
3
作者 李莉 张太红 《计算机工程与应用》 CSCD 北大核心 2007年第20期177-180,共4页
对潜在语义分析(Latent Semantic Analysis,LSA)的理论基础进行了介绍,研究了潜在语义分析在中文短文写作自动评分领域的应用方法。从136名大学生的短文写作试卷着手,对比了不同的语义空间构造方法和不同数据标准化方法对机器自动评分... 对潜在语义分析(Latent Semantic Analysis,LSA)的理论基础进行了介绍,研究了潜在语义分析在中文短文写作自动评分领域的应用方法。从136名大学生的短文写作试卷着手,对比了不同的语义空间构造方法和不同数据标准化方法对机器自动评分结果的影响,探讨了SVD的作用和奇异值个数K的取值规律,比较了LSA对不同类型学生的短文写作自动评分结果的差异。通过与两名教师对学生短文写作评分的比较表明,使用机器对主观题进行自动评分是可行的,该方法为自动化考试系统试题多样性提供了有效的解决方案。 展开更多
关键词 潜在语义分析 奇异值分解 主观题自动判分
下载PDF
改进的潜在语义分析中文摘录方法 被引量:8
4
作者 肖升 何炎祥 《计算机应用研究》 CSCD 北大核心 2012年第12期4507-4511,共5页
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输... 中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。 展开更多
关键词 自动文摘 自动摘录 潜在语义分析 奇异值分解 潜在概念
下载PDF
浅析潜在语义分析的原理及其应用 被引量:2
5
作者 王宁 《新世纪图书馆》 2007年第5期67-70,共4页
潜在语义分析(LSA)是一种自动实现知识提取和表征的理论和方法。论文着重介绍了LSA的基本思想、特点、实现方法。
关键词 潜在语义分析 向量空间模型 奇异值分解
下载PDF
基于语义和学习机制的信息过滤模型研究
6
作者 毕晓冬 《潍坊学院学报》 2006年第6期26-29,共4页
信息过滤技术是当前研究的热点。本文先分析了向量空间模型和布尔逻辑模型及其它们的优缺点,在此基础上提出了基于语义和学习机制的信息过滤模型,该模型是对字项文档矩阵使用奇异值分解[1](Singular-Value Decomposition,SVD)的方法来... 信息过滤技术是当前研究的热点。本文先分析了向量空间模型和布尔逻辑模型及其它们的优缺点,在此基础上提出了基于语义和学习机制的信息过滤模型,该模型是对字项文档矩阵使用奇异值分解[1](Singular-Value Decomposition,SVD)的方法来实现信息过滤的,并详细分析了此模型的优缺点。 展开更多
关键词 信息过滤 lsa 向量空间模型 布尔逻辑模型
下载PDF
基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量:17
7
作者 公冶小燕 林培光 +2 位作者 任威隆 张晨 张春云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词... 信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. 展开更多
关键词 共现词 互信息 语义分析(lsa) 奇异值分解(svd) TERM Frequency-Inverse Document Frequency(TF-IDF)
下载PDF
基于RANSAC潜在语义分析的专家库检索
8
作者 蔡嘉诚 《电脑知识与技术(过刊)》 2014年第2X期1141-1143,共3页
随着信息技术的发展,对信息的检索和利用越来越显示出其重要的作用。在知识产权专家库的应用中,由于信息表达的差异化和碎片化,信息检索的准确率和有效率都有待提高。将潜在语义检索方法应用于专家库系统中,可以大大提高检索的准确率和... 随着信息技术的发展,对信息的检索和利用越来越显示出其重要的作用。在知识产权专家库的应用中,由于信息表达的差异化和碎片化,信息检索的准确率和有效率都有待提高。将潜在语义检索方法应用于专家库系统中,可以大大提高检索的准确率和有效率,并且可以避免数据库以及外围系统的重复更新,极大地节约了开发和维护的成本,具有十分重要的实际意义。该文结合RANSAC以及潜在语义检索算法给出了一种适用于专家库信息检索的搜索算法。实验结果表明,该方法在实践中取得了预期的效果。 展开更多
关键词 RANSAC 潜在语义分析 奇异值分解 聚类分析
下载PDF
基于LSA的社会化标注系统标签语义检索研究 被引量:10
9
作者 宣云干 朱庆华 《图书情报工作》 CSSCI 北大核心 2011年第4期11-14,57,共5页
在分析社会化标注系统标签检索研究现状基础上,针对传统方法可计算性不高、完备性不够、无法分辨自然语言的语义模糊性等不足,提出基于潜在语义分析的社会化标注系统标签语义检索模型,改进标签-资源矩阵权重计算算法,完善社会化标注系... 在分析社会化标注系统标签检索研究现状基础上,针对传统方法可计算性不高、完备性不够、无法分辨自然语言的语义模糊性等不足,提出基于潜在语义分析的社会化标注系统标签语义检索模型,改进标签-资源矩阵权重计算算法,完善社会化标注系统的语义标注方法。并以delicious系统为例,抓取数据进行验证分析,通过对比,证明提出的模型和改进的算法能显著提高标签检索效率。 展开更多
关键词 标签 社会化标注系统 标签检索 语义标注 潜在语义分析 奇异值分解
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部