期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
Research on multi-document summarization based on latent semantic indexing
1
作者 秦兵 刘挺 +1 位作者 张宇 李生 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第1期91-94,共4页
A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decompos... A multi-document summarization method based on Latent Semantic Indexing (LSI) is proposed. The method combines several reports on the same issue into a matrix of terms and sentences, and uses a Singular Value Decomposition (SVD) to reduce the dimension of the matrix and extract features, and then the sentence similarity is computed. The sentences are clustered according to similarity of sentences. The centroid sentences are selected from each class. Finally, the selected sentences are ordered to generate the summarization. The evaluation and results are presented, which prove that the proposed methods are efficient. 展开更多
关键词 信息处理技术 索引 多文本摘要 网站 信息过滤系统
下载PDF
A Two-Stage Feature Selection Method for Text Categorization by Using Category Correlation Degree and Latent Semantic Indexing 被引量:2
2
作者 王飞 李彩虹 +2 位作者 王景山 徐娇 李廉 《Journal of Shanghai Jiaotong university(Science)》 EI 2015年第1期44-50,共7页
With the purpose of improving the accuracy of text categorization and reducing the dimension of the feature space,this paper proposes a two-stage feature selection method based on a novel category correlation degree(C... With the purpose of improving the accuracy of text categorization and reducing the dimension of the feature space,this paper proposes a two-stage feature selection method based on a novel category correlation degree(CCD)method and latent semantic indexing(LSI).In the first stage,a novel CCD method is proposed to select the most effective features for text classification,which is more effective than the traditional feature selection method.In the second stage,document representation requires a high dimensionality of the feature space and does not take into account the semantic relation between features,which leads to a poor categorization accuracy.So LSI method is proposed to solve these problems by using statistically derived conceptual indices to replace the individual terms which can discover the important correlative relationship between features and reduce the feature space dimension.Firstly,each feature in our algorithm is ranked depending on their importance of classification using CCD method.Secondly,we construct a new semantic space based on LSI method among features.The experimental results have proved that our method can reduce effectively the dimension of text vector and improve the performance of text categorization. 展开更多
关键词 text categorization feature selection latent semantic indexing(LSI) category correlation degree(CCD)
原文传递
结合情节挖掘的软件实体演化耦合分析方法
3
作者 张鑫雨 晋武侠 +2 位作者 刘靖雯 范铭 刘烃 《软件学报》 EI CSCD 北大核心 2023年第6期2562-2585,共24页
软件系统的实体演化耦合分析有助于共同变更预测、软件供应链风险识别、代码漏洞溯源、缺陷预测、架构问题定位等分析活动.两个代码实体之间存在演化耦合(evolutionary coupling)是指在软件修订历史中,这对实体倾向于共同变更(共变).已... 软件系统的实体演化耦合分析有助于共同变更预测、软件供应链风险识别、代码漏洞溯源、缺陷预测、架构问题定位等分析活动.两个代码实体之间存在演化耦合(evolutionary coupling)是指在软件修订历史中,这对实体倾向于共同变更(共变).已有的演化耦合分析方法难以准确检测软件维护历史中频繁发生的、有“距离”的共变.为了解决这一问题,提出了基于关联规则挖掘、情节挖掘、潜在语义索引模型相结合的演化耦合分析方法(association rule,MINEPI and LSI based method,AR-MIM),以挖掘有“距离”的共同变更关系.实验收集了58个Python项目、242074条训练数据、330660条ground truth的数据集,与已有的4种baseline方法进行了比较,验证了AR-MIM的效果.结果表明:在预测共同变更候选项场景上,AR-MIM的准确性、召回率、F1分数均优于已有方法. 展开更多
关键词 提交历史 演化耦合 情节挖掘 潜在语义索引 关联规则挖掘
下载PDF
基于文本的内容过滤算法的比较 被引量:11
4
作者 何静 刘海燕 张惠民 《计算机工程》 CAS CSCD 北大核心 2002年第11期9-10,113,共3页
内容过滤技术在信息检索技术的基础上发展起来,并逐渐形成了自身的理论体系。文章总结了目前常用的几种内容过滤算法,并对它们的优缺点进行了分析和比较,为不同领域采用适当的内容过滤算法提供了思路。
关键词 文本 内容过滤算法 潜在语义索引 神经网络 用户模板 信息查询 网络安全 计算机网络
下载PDF
自然语言处理中主题模型的发展 被引量:233
5
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
下载PDF
隐含语义索引及其在中文文本处理中的应用研究 被引量:41
6
作者 周水庚 关佶红 胡运发 《小型微型计算机系统》 CSCD 北大核心 2001年第2期239-243,共5页
信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得... 信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得文档之间的语义关系更为明晰 .实验和理论结果证实了隐含语义索引能够取得更好的检索效果 .本文论述了隐含语义索引的理论基础 ,研究了隐含语义索引在中文文本处理中的应用 ,包括中文文本检索、中文文本分类和中文文本聚类等 . 展开更多
关键词 信息检索 隐含语义索引 中文文本处理 中文信息处理
下载PDF
一种基于潜在语义结构的文本分类模型 被引量:27
7
作者 曾雪强 王明文 陈素芬 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期99-102,共4页
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽... 潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构. 展开更多
关键词 文本分类 潜在语义索引 偏最小二乘法
下载PDF
基于潜在语义标引的WEB文档自动分类 被引量:9
8
作者 戚涌 徐永红 刘凤玉 《计算机工程与应用》 CSCD 北大核心 2004年第22期28-31,共4页
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若... Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。 展开更多
关键词 WEB挖掘 潜在语义标引 最佳鉴别变换 分类
下载PDF
基于示例的中文文本过滤模型 被引量:13
9
作者 林鸿飞 姚天顺 《大连理工大学学报》 CAS CSCD 北大核心 2000年第3期375-378,共4页
简要描述了文本过滤的背景 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模板 ,然后进行文本过滤 .在用户反馈的基础上 ,... 简要描述了文本过滤的背景 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模板 ,然后进行文本过滤 .在用户反馈的基础上 ,扩充示例文本数量 ,进而采用基于潜在语义标注的文本过滤方法 ,改进用户模板 ,提高过滤效率 . 展开更多
关键词 广西结构 潜在语义索引 中文文本过滤模型 TREC
下载PDF
基于P2P的隐含语义索引模型的研究 被引量:5
10
作者 郭敏 董健全 宋智 《计算机工程与设计》 CSCD 北大核心 2005年第11期2910-2912,2954,共4页
P2P作为一种新型的网络结构正受到越来越多的关注。目前在大多数P2P网络中的信息检索方法都是依据关键词匹配,通过查询请求与信息标识之间的简单匹配关系来获得查询结果。但是关键词匹配会产生很多用户不需要的结果。隐含语义索引是基... P2P作为一种新型的网络结构正受到越来越多的关注。目前在大多数P2P网络中的信息检索方法都是依据关键词匹配,通过查询请求与信息标识之间的简单匹配关系来获得查询结果。但是关键词匹配会产生很多用户不需要的结果。隐含语义索引是基于文本语义的检索模型。为提高系统的查准率,扩展在P2P下的查询方式,本文提出了在P2P网络中引入隐含语义索引模型进行信息检索,并模拟实现了一个基于P2P网络的隐含语义索引模型的试验平台。 展开更多
关键词 P2P 隐含语义索引模型 检索
下载PDF
基于非负矩阵分解的隐含语义图像检索 被引量:7
11
作者 梁栋 杨杰 +1 位作者 卢进军 常宇畴 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第5期787-790,共4页
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空... 提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的. 展开更多
关键词 图像检索 隐含语义索引 非负矩阵分解 奇异值分解 语义空间
下载PDF
一种基于语义聚类的典型日负荷曲线选取方法 被引量:14
12
作者 孟令奎 段红伟 +1 位作者 黄长青 孙琤 《华北电力大学学报(自然科学版)》 CAS 北大核心 2013年第1期43-48,共6页
将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,利用概率潜在语义分析模型(PLSA)进行问题求解。方法首先通过K均值聚类和负荷曲线时段划分形成观测特征词和目标文档,通过阈值计算获得特征词-目标共生矩阵;然后基于Davies... 将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,利用概率潜在语义分析模型(PLSA)进行问题求解。方法首先通过K均值聚类和负荷曲线时段划分形成观测特征词和目标文档,通过阈值计算获得特征词-目标共生矩阵;然后基于Davies-Bouldin指标计算PLSA模型的最佳主题数目,并对模型参数求解获得每个目标文档中特征词的潜在主题;最后依据电力负荷曲线与特征词的对应关系形成新的聚类,并采用选取策略获得各聚类的典型日。实验表明,方法能够较好的反映节假日、气候等因素的影响,典型日选取合理可行。 展开更多
关键词 概率潜在语义分析模型 典型日负荷曲线 Davies—Bouldin指标
下载PDF
潜在语义索引方法在信息过滤中的应用 被引量:16
13
作者 牛伟霞 张永奎 《计算机工程与应用》 CSCD 北大核心 2001年第9期57-60,共4页
信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推迟,其核心技术之一是用户兴趣主题模型的表示。文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤。初步实验的... 信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推迟,其核心技术之一是用户兴趣主题模型的表示。文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤。初步实验的结果表明,该方法与传统的向量空间方法相比,效率有明显提高。 展开更多
关键词 信息过滤 潜在语义索引 兴趣主题模型 信息检索 WEB 互联网
下载PDF
基于潜在语义索引的Web信息预测采集过滤方法 被引量:9
14
作者 李振星 陆大珏 +2 位作者 任继成 唐卫清 唐荣锡 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第1期142-147,共6页
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向 提出一种基于潜在语义索引的Web信息预测采集过滤方法 在样本文档集潜在语义索引对文档相似计算的基础上 ,构造出用户兴趣模型 ,判断页面相关性... Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向 提出一种基于潜在语义索引的Web信息预测采集过滤方法 在样本文档集潜在语义索引对文档相似计算的基础上 ,构造出用户兴趣模型 ,判断页面相关性进行文本过滤 通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程 在保持定向采集精度的同时 ,缩短采集时间、减少存储、加快检索 。 展开更多
关键词 潜在语义索引 信息采集 Web检索系统 网络资源 互联网
下载PDF
隐含语义检索及其应用 被引量:9
15
作者 陈越 郭力 《现代图书情报技术》 CSSCI 北大核心 2001年第6期27-29,共3页
隐含语义检索 ( Latent Semantic Indexing,LSI)是一种基于概念的文献检索方式。它区别于传统的基于用户查询条件与文档的单词匹配的文献检索方法 ,根据文档与查询条件在语义上的关联而向用户提交查询结果。本文介绍了隐含语义检索在文... 隐含语义检索 ( Latent Semantic Indexing,LSI)是一种基于概念的文献检索方式。它区别于传统的基于用户查询条件与文档的单词匹配的文献检索方法 ,根据文档与查询条件在语义上的关联而向用户提交查询结果。本文介绍了隐含语义检索在文献检索中的一种实现方法 。 展开更多
关键词 文献检索 LSI 检索原理 隐含语义检索 ASNIC语言
下载PDF
基于Stacking集成学习的水稻表型组学实体分类研究 被引量:21
16
作者 袁培森 杨承林 +2 位作者 宋玉红 翟肇裕 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2019年第11期144-152,共9页
为研究整合水稻表型组学相关知识,系统地建立水稻表型组学知识图谱,通过分布式爬虫框架从国家水稻数据中心网站获取水稻表型组学数据集,并以互动百科为辅助数据源获取水稻表型组学数据。对水稻表型组学数据采用TF-IDF技术结合潜在语义... 为研究整合水稻表型组学相关知识,系统地建立水稻表型组学知识图谱,通过分布式爬虫框架从国家水稻数据中心网站获取水稻表型组学数据集,并以互动百科为辅助数据源获取水稻表型组学数据。对水稻表型组学数据采用TF-IDF技术结合潜在语义模型进行预处理,并对水稻表型组学实体进行人工分类和标注。为实现水稻表型组学实体分类,研究了基于堆叠式两阶段集成学习的分类器组合模型,结合K-近邻算法、支持向量机、随机森林、梯度提升决策树机器学习方法,提升水稻表型组学实体数据分类的性能。研究表明,基于堆叠式两阶段集成学习的分类器组合模型对不同类别的水稻表型组学数据都具有较好的多分类能力,对于不平衡的水稻表型组学数据集,本文方法的分类器组合模型对水稻表型组学数据分类效果最佳,Gene类别的F1为90.47%,总体准确率达80.55%,比支持向量机、K-近邻、随机森林和梯度提升决策树4种基分类器的分类准确率平均高6.78个百分点。 展开更多
关键词 水稻表型组学 实体分类 堆叠式集成学习 知识图谱 潜在语义模型
下载PDF
基于潜在语义索引和遗传算法的文本特征提取方法 被引量:16
17
作者 郝占刚 王正欧 《情报科学》 CSSCI 北大核心 2006年第1期104-107,共4页
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value De-composition)可以有效地降低向量空间的维数,但通过维数约简后的文... 本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value De-composition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的维数,并能提高分类准确率。 展开更多
关键词 特征提取 潜在语义索引 遗传算法 KOHONEN网络
下载PDF
基于潜在语义索引的文本浏览机制 被引量:29
18
作者 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 2000年第5期49-56,共8页
文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制 ,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点 ,利用潜在语义索引 ,减少词汇间的“斜交”现象 ,在语义空间上进行项与项、文本... 文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制 ,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点 ,利用潜在语义索引 ,减少词汇间的“斜交”现象 ,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类 ,给予层次分类以确定的含义。最后 ,实现以分层概念为基础的信息导航。 展开更多
关键词 文本浏览 潜在语义索引 概念标注 特征抽取
下载PDF
中文文本的可视化表示 被引量:7
19
作者 林鸿飞 高天 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期501-504,共4页
由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ... 由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能 ,帮助用户有目的、有选择地浏览文本 。 展开更多
关键词 文本层次分析 文本可视化表示 向量空间模型 文本分类 潜在语义索引
下载PDF
基于潜在语义索引的文本特征词权重计算方法 被引量:17
20
作者 李媛媛 马永强 《计算机应用》 CSCD 北大核心 2008年第6期1460-1462,1466,共4页
潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"... 潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"Sigmiod函数"和"位置因子"的新权重方案。突出了文本中不同特征词的重要程度,更有利于潜在语义空间的构造。通过实验平台"中文潜在语义索引分析系统"的测试结果表明,该权重方法更利于基于潜在语义的检索性能的提高。 展开更多
关键词 潜在语义索引 Sigmiod函数 位置因子 权重算法
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部