期刊文献+
共找到156篇文章
< 1 2 8 >
每页显示 20 50 100
Research on multi-document summarization based on latent semantic indexing
1
作者 秦兵 刘挺 +1 位作者 张宇 李生 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第1期91-94,共4页
A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decompos... A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decomposition (SVD) to reduce the dimension of the matrix and extract features, and then the sentence similarity is computed. The sentences are clustered according to similarity of sentences. The centroid sentences are selected from each class. Finally, the selected sentences are ordered to generate the summarization. The evaluation and results are presented, which prove that the proposed methods are efficient. 展开更多
关键词 multi-document summarization lsi (latent semantic indexing) CLUSTERING
下载PDF
LSI__LDA:一种混合特征降维方法 被引量:4
2
作者 史庆伟 从世源 唐晓亮 《计算机应用研究》 CSCD 北大核心 2017年第8期2269-2273,共5页
LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特... LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%。实验表明提出的LSI__LDA模型在文本分类中有更好的分类性能。 展开更多
关键词 文本分类 特征降维 潜在语义索引 潜在狄利克雷分配
下载PDF
融合LSI和支持向量聚类的网页文本分类算法 被引量:1
3
作者 史长琼 黄辉 +2 位作者 王大卫 姜腊林 扶宗文 《计算机应用研究》 CSCD 北大核心 2009年第12期4523-4525,共3页
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。
关键词 特征提取 潜在语义索引 网页文本 语义聚类 支持向量聚类
下载PDF
LSI和kNN相结合的文本分类模型研究 被引量:3
4
作者 王天江 叶卫国 +1 位作者 卢正鼎 李永平 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第4期59-60,86,共3页
针对传统文本分类系统的不足 ,提出了一种基于隐含语义索引的kNN的文本分类模型 .该方法既充分利用了向量空间模型在表示方法上的巨大优势 ,又弥补了其忽略语义的不足 ,具备一定的理论和现实意义 .
关键词 文本分类 k最邻参照法 隐含语义索引 奇异值分解
下载PDF
潜在语义标引(LSI)研究综述 被引量:6
5
作者 孙海霞 成颖 《现代图书情报技术》 CSSCI 北大核心 2007年第9期49-53,共5页
在回顾我国潜在语义标引技术的研究成果基础上,分析、总结我国现有潜在语义标引研究的不足,指出我国潜在语义标引的进一步研究方向。
关键词 潜在语义标引 文本处理 信息检索
下载PDF
基于LSI和自组织神经网络的高效文本聚类方法 被引量:7
6
作者 徐建锁 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2004年第11期1026-1030,共5页
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的... 根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度. 展开更多
关键词 文本聚类 隐含语义索引 奇异值分解 自组织神经网络 向量空间模型
下载PDF
文本处理中基于随机映射的加速LSI方法 被引量:1
7
作者 钱晓东 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2005年第4期372-376,共5页
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结... 首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价. 展开更多
关键词 文本处理 隐含语义索引 自组织神经网络 随机映射
下载PDF
基于LSI的图像语义检索 被引量:1
8
作者 沈玉利 郭雷 任建峰 《计算机工程与应用》 CSCD 北大核心 2005年第22期64-65,69,共3页
图像语义检索是实现图像快速、直观、准确查询的有效办法,针对目前直接采用图像低层特征无法满足图像语义查询的问题,该文提出了一种利用LSI技术,实现图像语义的检索方法。
关键词 隐含语义索引 图像语义 图像检索 奇异值分解
下载PDF
基于LSI和SVM分类法的定题邮件过滤研究 被引量:1
9
作者 杨清 李方敏 《计算机工程与应用》 CSCD 北大核心 2006年第35期168-171,共4页
潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,... 潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类,通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。实验结果表明:基于LSI的特征选择的SVM分类算法是一种更有效的信息识别和文本分类方法,不但具有较好的分类性能,同时也能大大减小计算的复杂性。 展开更多
关键词 支持向量机 潜在语义索引 信息查询 监护学习 文本分类
下载PDF
基于文本聚类的LSI文本分类模型 被引量:1
10
作者 邱志宇 安艳辉 《河北师范大学学报(自然科学版)》 CAS 北大核心 2012年第1期24-26,83,共4页
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上... 文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性. 展开更多
关键词 文本分类 隐含语义检索 文本聚类
下载PDF
基于LSI和SVM相结合的文本分类研究 被引量:1
11
作者 刘洋 张秋余 《计算机工程与设计》 CSCD 北大核心 2007年第23期5762-5764,共3页
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,... 传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维。 展开更多
关键词 潜在语义索引 奇异值分解 支持向量机 文本分类 机器学习
下载PDF
一种基于LSI的图像语义检索技术
12
作者 袁磊 曹奎 +1 位作者 冯玉才 吴永英 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第2期105-107,共3页
探讨如何将LSI技术应用于图像检索中 ,以实现基于语义的图像检索的技术途径 .给出了一种新的图像索引方法 ,它使用灰色模型GM (1,1)对图像的像素值进行模型化处理 ,并且使用模型参数的概率分布来描述图像 .在此基础上 ,详细讨论了将隐... 探讨如何将LSI技术应用于图像检索中 ,以实现基于语义的图像检索的技术途径 .给出了一种新的图像索引方法 ,它使用灰色模型GM (1,1)对图像的像素值进行模型化处理 ,并且使用模型参数的概率分布来描述图像 .在此基础上 ,详细讨论了将隐含语义索引技术应用于图像检索中的具体方法 ,并给出了相应的算法 .最后 。 展开更多
关键词 基于内容图像检索 图像表示 图像语义 隐含语义索引 灰色模型GM(1 1) 图像处理 lsi技术
下载PDF
P2P系统分布式LSI的构建和更新
13
作者 张三峰 吴国新 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期39-42,共4页
从P2P系统自组织和动态性特点出发,提出分布式环境下隐语义索引(LSI)构建和更新的P2P网络模型,设计适合P2P系统文档矩阵的降维表示(RDR)合并算法,结合信号和噪声子空间模型从理论上分析RDR合并算法的有效性及算法需要满足的前提条件;使... 从P2P系统自组织和动态性特点出发,提出分布式环境下隐语义索引(LSI)构建和更新的P2P网络模型,设计适合P2P系统文档矩阵的降维表示(RDR)合并算法,结合信号和噪声子空间模型从理论上分析RDR合并算法的有效性及算法需要满足的前提条件;使用M atlab6.5针对标准文集测试RDR合并算法对查询精度的影响.理论分析和数字实验证明,该算法能够解决P2P系统中分布式LSI的构建和更新问题,能在可容忍的查询精度影响范围内,以较低的网络开销和计算量分布式地构建、更新隐语义索引. 展开更多
关键词 奇异值分解 更新算法 隐语义索引 peer—to—peer
下载PDF
基于LSI和软加权的视频语义概念检测
14
作者 张瑞杰 李弼程 魏晗 《信息工程大学学报》 2013年第2期196-201,共6页
视频语义概念检测是跨越"语义鸿沟",实现基于语义的视频检索的前提。其中,视觉词典法是一种有代表性的方法。针对视觉词典法的两个开放性问题,文章提出了一种基于LSI和软加权的视频语义概念检测方法。首先为了解决视觉单词间... 视频语义概念检测是跨越"语义鸿沟",实现基于语义的视频检索的前提。其中,视觉词典法是一种有代表性的方法。针对视觉词典法的两个开放性问题,文章提出了一种基于LSI和软加权的视频语义概念检测方法。首先为了解决视觉单词间的潜在语义关联问题,利用LSI对大规模视觉词典进行降维,得到紧致的语义视觉词典;然后为了克服视觉单词的同义性和多义性问题,采取软加权机制,构造出视觉词汇分布直方图,作为特征向量来代表每幅输入关键帧;最后利用支持向量机建立高层语义的分类模型,完成视频语义概念检测。实验结果表明,新方法较大地提高了视频语义概念检测的精度。 展开更多
关键词 视频语义概念 视觉词典 潜在语义索引 软加权
下载PDF
基于LSI的代码-文档可追溯关联挖掘研究 被引量:1
15
作者 杨雪敏 张毅坤 +2 位作者 崔颖安 张保卫 夏辉 《计算机工程》 CAS CSCD 北大核心 2011年第8期34-36,共3页
软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于... 软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于词项的匹配。实验结果表明,该方法不依赖于代码和文档预先定义的同义词库和知识库,并能一定程度上提高查全率和查准率。 展开更多
关键词 软件维护 可追溯关联挖掘 隐含语义索引 信息检索 跨语言信息检索
下载PDF
基于LSI和词典的文本语义相似度算法 被引量:1
16
作者 王栋 吴军华 《煤炭技术》 CAS 北大核心 2010年第12期217-218,共2页
在文本聚类领域里普遍存在一种问题,文本的概念相似度却被忽略。文中利用基于词典和基于文集的本体解决这种问题。还提出一种能合适地抓住相关语义相似度的修改过的隐含语义索引模型。实验结果表明该方法要优于惯用的文本语义相似度算法。
关键词 本体 语义相似度 隐含语义索引
下载PDF
基于LSI和Rough集的文本分类研究 被引量:2
17
作者 赵顺 迟呈英 《鞍山科技大学学报》 CAS 2005年第5期346-349,355,共5页
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法。在构造VSM的过程中引入了LSI理... 针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法。在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类。实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高。 展开更多
关键词 lsi ROUGH集 文本分类
下载PDF
基于LSI信息融合的实时推荐算法研究 被引量:2
18
作者 何子健 李嘉敏 +3 位作者 李秋锐 余俊辉 郑圆君 李乡儒 《计算机技术与发展》 2018年第7期73-77,82,共6页
目前国内问答社区的用户检索推荐主要基于字符匹配,缺乏对用户的历史行为信息的综合利用。提出了一种基于LSI(latent semantic indexing)的用户实时推荐算法,融合了检索关键词和社区用户历史行为信息,实时推荐与检索内容确实相关的高质... 目前国内问答社区的用户检索推荐主要基于字符匹配,缺乏对用户的历史行为信息的综合利用。提出了一种基于LSI(latent semantic indexing)的用户实时推荐算法,融合了检索关键词和社区用户历史行为信息,实时推荐与检索内容确实相关的高质量用户。在关键词检索的问题上,突破了传统字符匹配的框架,融合了社区用户的历史行为信息进行检索,避免了因字符匹配产生的信息单薄而推荐错误;不同于LSI的传统应用,该系统利用LSI挖掘词语潜在语义和对向量空间降维的两个特性,将LSI应用在实时用户推荐情形,更高效地做出社区用户的推荐。推荐算法的训练和测试以知乎为例。真实数据表明,该算法推荐效果对比知乎推荐现状有明显提升,使推荐用户的历史行为信息与检索关键词相契合。 展开更多
关键词 知乎 潜在语义索引 实时推荐 信息融合
下载PDF
VSM与LSI中的正交假设 被引量:1
19
作者 李孟臣 《现代情报》 北大核心 2005年第8期223-224,F0003,共3页
向量空间模型(VSM)长期以来被用于文本检索,然而潜伏在其中的正交假设却迟迟未能得到解决。国内有些学者认为潜在语义索引模型(LSI)解决了这个问题。然而,本文作者通过对LSI的分析,认为正交假设在LSI中仍然存在。
关键词 向量空间模型 潜在语义索引模型 正交假设
下载PDF
基于LSI和SVM的文本分类研究 被引量:8
20
作者 刘美茹 《计算机工程》 CAS CSCD 北大核心 2007年第15期217-219,共3页
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类... 文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。 展开更多
关键词 特征提取 潜在语义索引 支持向量机
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部