期刊文献+
共找到305篇文章
< 1 2 16 >
每页显示 20 50 100
Latent semantic analysis for query interfaces of deep web sites 被引量:2
1
作者 茅琴娇 冯博琴 潘善亮 《Journal of Southeast University(English Edition)》 EI CAS 2008年第3期312-314,共3页
To further enhance the efficiencies of search engines,achieving capabilities of searching,indexing and locating the information in the deep web,latent semantic analysis is a simple and effective way.Through the latent... To further enhance the efficiencies of search engines,achieving capabilities of searching,indexing and locating the information in the deep web,latent semantic analysis is a simple and effective way.Through the latent semantic analysis of the attributes in the query interfaces and the unique entrances of the deep web sites,the hidden semantic structure information can be retrieved and dimension reduction can be achieved to a certain extent.Using this semantic structure information,the contents in the site can be inferred and the similarity measures among sites in deep web can be revised.Experimental results show that latent semantic analysis revises and improves the semantic understanding of the query form in the deep web,which overcomes the shortcomings of the keyword-based methods.This approach can be used to effectively search the most similar site for any given site and to obtain a site list which conforms to the restrictions one specifies. 展开更多
关键词 deep web information retrieval latent semantic analysis singular value decomposition
下载PDF
Semi-supervised learning based probabilistic latent semantic analysis for automatic image annotation 被引量:1
2
作者 Tian Dongping 《High Technology Letters》 EI CAS 2017年第4期367-374,共8页
In recent years,multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas,especially for automatic image annotation,whose purpose is to provide an efficie... In recent years,multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas,especially for automatic image annotation,whose purpose is to provide an efficient and effective searching environment for users to query their images more easily. In this paper,a semi-supervised learning based probabilistic latent semantic analysis( PLSA) model for automatic image annotation is presenred. Since it's often hard to obtain or create labeled images in large quantities while unlabeled ones are easier to collect,a transductive support vector machine( TSVM) is exploited to enhance the quality of the training image data. Then,different image features with different magnitudes will result in different performance for automatic image annotation. To this end,a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible. Finally,a PLSA model with asymmetric modalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores. Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PLSA for the task of automatic image annotation. 展开更多
关键词 automatic image annotation semi-supervised learning probabilistic latent semantic analysis(Plsa) transductive support vector machine(TSVM) image segmentation image retrieval
下载PDF
Metaphor Analysis Method Based on Latent Semantic Analysis
3
作者 TAO Ran WEI Yaping YANG Tangfeng 《Journal of Donghua University(English Edition)》 CAS 2021年第1期83-90,共8页
Current research on metaphor analysis is generally knowledge-based and corpus-based,which calls for methods of automatic feature extraction and weight calculation.Combining natural language processing(NLP),latent sema... Current research on metaphor analysis is generally knowledge-based and corpus-based,which calls for methods of automatic feature extraction and weight calculation.Combining natural language processing(NLP),latent semantic analysis(LSA),and Pearson correlation coefficient,this paper proposes a metaphor analysis method for extracting the content words from both literal and metaphorical corpus,calculating correlation degree,and analyzing their relationships.The value of the proposed method was demonstrated through a case study by using a corpus with keyword“飞翔(fly)”.When compared with the method of Pearson correlation coefficient,the experiment shows that the LSA can produce better results with greater significance in correlation degree.It is also found that the number of common words that appeared in both literal and metaphorical word bags decreased with the correlation degree.The case study also revealed that there are more nouns appear in literal corpus,and more adjectives and adverbs appear in metaphorical corpus.The method proposed will benefit NLP researchers to develop the required step-by-step calculation tools for accurate quantitative analysis. 展开更多
关键词 latent semantic analysis(lsa) METAPHOR natural language processing(NLP) pearson correlation coefficient
下载PDF
Fast and robust training of a probabilistic latent semantic analysis model by the parallel learning and data segmentation
4
作者 Masaharu Kato Tetsuo Kosaka +1 位作者 Akinori Ito Shozo Makino 《通讯和计算机(中英文版)》 2009年第5期28-35,共8页
关键词 LAM MIP Plsa 计算机通讯
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
5
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于MapReduce的并行PLSA算法及在文本挖掘中的应用 被引量:7
6
作者 李宁 罗文娟 +2 位作者 庄福振 何清 史忠植 《中文信息学报》 CSCD 北大核心 2015年第2期79-86,共8页
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来... PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 展开更多
关键词 概率主题模型 MAPREDUCE 并行 语义分析
下载PDF
基于PLSA方法的用户兴趣聚类 被引量:5
7
作者 陈冬玲 王大玲 +1 位作者 于戈 于芳 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第1期53-56,共4页
为了在个性化搜索过程中能够准确地挖掘到用户的潜在兴趣并进行相应的聚类分析,提出采用潜语义空间的Zipf分布的特性,并结合PLSA(概率潜在语义分析)来获取全文的语义.即先通过Zipf分布原理找到文档的潜在语义空间,在此空间中对用户的兴... 为了在个性化搜索过程中能够准确地挖掘到用户的潜在兴趣并进行相应的聚类分析,提出采用潜语义空间的Zipf分布的特性,并结合PLSA(概率潜在语义分析)来获取全文的语义.即先通过Zipf分布原理找到文档的潜在语义空间,在此空间中对用户的兴趣进行聚类,并建立用户兴趣描述文件(user profile),即建立用户兴趣层次树.实验表明,所提出聚类算法的聚类效果明显优于传统的VSM(向量空间模型)的聚类效果,同时,在著名的CTI数据集上的个性化推荐实验结果也充分说明基于潜在语义空间构建的用户兴趣描述与用户真实兴趣相符合. 展开更多
关键词 用户兴趣描述文件 Plsa 潜语义空间 ZIPF分布 用户兴趣层次树
下载PDF
一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT 被引量:7
8
作者 戴新宇 田宝明 +1 位作者 周俊生 陈家骏 《电子学报》 EI CAS CSCD 北大核心 2008年第8期1626-1630,共5页
本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有... 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果. 展开更多
关键词 直推式谱图 潜在语义分析 文本分类 图构造
下载PDF
基于API潜在语义的勒索软件早期检测方法
9
作者 罗斌 郭春 +3 位作者 申国伟 崔允贺 陈意 平源 《电子学报》 EI CAS CSCD 北大核心 2024年第4期1288-1295,共8页
加密型勒索软件通过加密用户文件来勒索赎金.现有的基于第一条加密应用编程接口(Application Programming Interface,API)的早期检测方法无法在勒索软件执行加密行为前将其检出.由于不同家族的勒索软件开始执行其加密行为的时刻各不相同... 加密型勒索软件通过加密用户文件来勒索赎金.现有的基于第一条加密应用编程接口(Application Programming Interface,API)的早期检测方法无法在勒索软件执行加密行为前将其检出.由于不同家族的勒索软件开始执行其加密行为的时刻各不相同,现有的基于固定时间阈值的早期检测方法仅能将少量勒索软件在其执行加密行为前准确检出.为进一步提升勒索软件检测的及时性,本文在分析多款勒索软件运行初期调用动态链接库(Dynamic Link Library,DLL)和API行为的基础上,提出了一个表征软件从开始运行到首次调用加密相关DLL之间的时间段的概念——运行初始阶段(Initial Phase of Operation,IPO),并提出了一个以软件在IPO内产生的API序列为检测对象的勒索软件早期检测方法,即基于API潜在语义的勒索软件早期检测方法(Ransomware Early Detection Method based on API Latent Semantics,REDMALS).REDMALS采集IPO内的API序列后,采用TF-IDF(Term Frequency-Inverse Document Frequency)算法以及潜在语义分析(Latent Semantic Analysis,LSA)算法对采集的API序列生成特征向量及提取潜在的语义结构,再运用机器学习算法构建检测模型用于勒索软件检测.实验结果显示运用随机森林算法的REDMALS在构建的变种测试集和未知测试集上可分别获得97.7%、96.0%的准确率,且两个测试集中83%和76%的勒索软件样本可在其执行加密行为前被检出. 展开更多
关键词 勒索软件 早期检测 API TF-IDF 潜在语义分析 随机森林
下载PDF
基于LSA降维的RPCL文本聚类算法 被引量:5
10
作者 高茂庭 王正欧 《计算机工程与应用》 CSCD 北大核心 2006年第23期138-140,共3页
文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数... 文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。 展开更多
关键词 文本聚类 次胜者受罚竞争学习 隐含语义分析 聚类分析
下载PDF
基于LSA降维的KNN文本分类算法 被引量:7
11
作者 李良俊 张斌 杨明 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期33-36,共4页
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.
关键词 潜在语义分析 KNN 文本分类 降维
下载PDF
基于PLSA模型的文本分割 被引量:25
12
作者 石晶 戴国忠 《计算机研究与发展》 EI CSCD 北大核心 2007年第2期242-248,共7页
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用·基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系·实验以汉语的整句作为基本块,尝试了多种相似性度... 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用·基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系·实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6·06%,远远低于其他同类算法· 展开更多
关键词 文本分割 概率潜在语义分析 相似性度量 边界识别
下载PDF
基于LSA和SVM的文本分类模型的研究 被引量:10
13
作者 王永智 滕至阳 +1 位作者 王鹏 聂江涛 《计算机工程与设计》 CSCD 北大核心 2009年第3期729-731,734,共4页
为了提高文本分类的准确性,研究并设计了一个基于潜在语义分析和支持向量机的多类文本分类模型。利用潜在语义分析进行特征抽取,消除多义词和同义词在文本表示时造成的偏差,并实现文本向量的降维。使用具有良好分类精度和泛化能力的支... 为了提高文本分类的准确性,研究并设计了一个基于潜在语义分析和支持向量机的多类文本分类模型。利用潜在语义分析进行特征抽取,消除多义词和同义词在文本表示时造成的偏差,并实现文本向量的降维。使用具有良好分类精度和泛化能力的支持向量机进行分类,提出一种改进的一对一多类分类算法,改善不可分问题。实验结果表明,该模型在类别数目较少时具有较好的分类效果。 展开更多
关键词 文本分类 潜在语义分析 支持向量机 特征抽取 一对一分类法
下载PDF
使用LSA降维的改进ART2神经网络文本聚类 被引量:4
14
作者 徐晨凯 高茂庭 《计算机工程与应用》 CSCD 2014年第24期133-138,177,共7页
针对文本数据高维度的特点和聚类的动态性要求,结合隐含语义分析(LSA)降维,提出一种改进的ART2神经网络文本聚类算法,通过LSA凸显文本和词条之间的语义关系,减少无用噪声,降低数据维度和计算复杂性;采用改进的折中学习方法,减少计算步骤... 针对文本数据高维度的特点和聚类的动态性要求,结合隐含语义分析(LSA)降维,提出一种改进的ART2神经网络文本聚类算法,通过LSA凸显文本和词条之间的语义关系,减少无用噪声,降低数据维度和计算复杂性;采用改进的折中学习方法,减少计算步骤,加快ART2神经网络计算速度,并利用最近邻动态重组方法提高ART2网络聚类的稳定性,减弱算法对样本输入顺序的依赖。实验表明,改进的文本聚类算法能有效地实现动态文本聚类。 展开更多
关键词 ART2神经网络 最近邻 隐含语义分析(lsa) 降维 文本聚类 聚类分析
下载PDF
面向儿科医学试题的答案解析自动推荐方法研究
15
作者 王娟 侯丽 +4 位作者 孙月萍 李佳明 杨丽 董良广 李云汉 《医学信息学杂志》 CAS 2024年第10期11-17,共7页
目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解... 目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解析,然后利用CoSENT模型计算候选解析、试题题干和答案选项之间的相似度,选取相似度最高的候选解析作为最终答案解析。结果/结论该方法答案解析精确率达到72.6%,相较单一方法或模型明显提高查全率和精确率,有效提高了编撰试题答案解析的效率,减轻教育工作者负担,并可为教育研究提供重要的数据支持。 展开更多
关键词 医学试题 答案解析 隐性语义索引 MC-BERT CoSENT 自然语言处理
下载PDF
TCBLSA:一种中文文本聚类新方法 被引量:15
16
作者 王国勇 徐建锁 《计算机工程》 CAS CSCD 北大核心 2004年第5期21-22,37,共3页
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异... 根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。 展开更多
关键词 文本聚类 隐含语义分析 奇异值分解 向量空间模型
下载PDF
LSA在中文短文自动判分系统中的应用研究 被引量:4
17
作者 李莉 张太红 《计算机工程与应用》 CSCD 北大核心 2007年第20期177-180,共4页
对潜在语义分析(Latent Semantic Analysis,LSA)的理论基础进行了介绍,研究了潜在语义分析在中文短文写作自动评分领域的应用方法。从136名大学生的短文写作试卷着手,对比了不同的语义空间构造方法和不同数据标准化方法对机器自动评分... 对潜在语义分析(Latent Semantic Analysis,LSA)的理论基础进行了介绍,研究了潜在语义分析在中文短文写作自动评分领域的应用方法。从136名大学生的短文写作试卷着手,对比了不同的语义空间构造方法和不同数据标准化方法对机器自动评分结果的影响,探讨了SVD的作用和奇异值个数K的取值规律,比较了LSA对不同类型学生的短文写作自动评分结果的差异。通过与两名教师对学生短文写作评分的比较表明,使用机器对主观题进行自动评分是可行的,该方法为自动化考试系统试题多样性提供了有效的解决方案。 展开更多
关键词 潜在语义分析 奇异值分解 主观题自动判分
下载PDF
基于WordNet本体和PLSA的语义Web服务发现 被引量:2
18
作者 邢少敏 周伯生 陈天影 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第11期1325-1329,共5页
提出了一种基于WordNet本体标注和概率潜在语义分析(PLSA,ProbabilisticLatent Semantic Analysis)的语义Web服务发现方法OntoPLSA.首先使用WordNet本体标注Web服务的操作名、参数以及用户请求,以经过标注后的输出参数集合为词汇集,服... 提出了一种基于WordNet本体标注和概率潜在语义分析(PLSA,ProbabilisticLatent Semantic Analysis)的语义Web服务发现方法OntoPLSA.首先使用WordNet本体标注Web服务的操作名、参数以及用户请求,以经过标注后的输出参数集合为词汇集,服务描述文档集合为文档集,组成词汇-文档矩阵,以该矩阵为输入,使用PLSA方法对服务集进行分类,并将用户请求带入PLSA模型,确定其所属的类;然后在类中以标注后的输出参数为键,含有这个输出的服务的列表为键值,建立一个映射表,查找与用户请求的输出相似的映射表键,进而找出对应的键值,即服务列表;最后根据QoS(Quality of Service)和用户请求中的输入参数确定满足条件的服务结果集合.在415个Web服务组成的数据集上的测试结果表明,性能较其他方法有优势,召回率和R准确率也得到了改善. 展开更多
关键词 本体标注 概率潜在语义分析 WEB服务 索引 分类 语义 服务发现
下载PDF
集成模糊LSA与MIL的图像分类算法 被引量:4
19
作者 李大湘 彭进业 李展 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第10期1796-1802,1809,共8页
针对自然图像的分类问题,提出一种基于模糊潜在语义分析(LSA)与直推式支持向量机(TSVM)相结合的半监督多示例学习(MIL)算法.该算法将图像当作多示例包,分割区域的底层视觉特征当作包中的示例.为了将MIL问题转化成单示例问题进行求解,首... 针对自然图像的分类问题,提出一种基于模糊潜在语义分析(LSA)与直推式支持向量机(TSVM)相结合的半监督多示例学习(MIL)算法.该算法将图像当作多示例包,分割区域的底层视觉特征当作包中的示例.为了将MIL问题转化成单示例问题进行求解,首先利用K-Means方法对训练包中所有的示例进行聚类,建立"视觉词汇表";然后根据"视觉字"与示例之间的距离定义模糊隶属度函数,建立模糊"词-文档"矩阵,再采用LSA方法获得多示例包(图像)的模糊潜在语义模型,并通过该模型将每个多示例包转化成单个样本;采用半监督的TSVM训练分类器,以利用未标注图像来提高分类精度.基于Corel图像库的对比实验结果表明,与传统的LSA方法相比,模糊LSA的分类准确率提高了5.6%,且性能优于其他分类方法. 展开更多
关键词 多示例学习 场景图像分类 模糊潜在语义分析
下载PDF
基于多特征融合与PLSA-GMM的图像自动标注 被引量:6
20
作者 孙君顶 李海华 +1 位作者 靳姣林 张毅 《测控技术》 CSCD 2017年第4期31-35,39,共6页
为减少图像检索中图像信息的缺失与语义鸿沟的影响,提出了一种基于多特征融合与PLSA-GMM的图像自动标注方法。首先,提取图像的颜色特征、形状特征和纹理特征,三者融合作为图像的底层特征;然后,基于概率潜在语义分析(PLSA)与高斯混合模型... 为减少图像检索中图像信息的缺失与语义鸿沟的影响,提出了一种基于多特征融合与PLSA-GMM的图像自动标注方法。首先,提取图像的颜色特征、形状特征和纹理特征,三者融合作为图像的底层特征;然后,基于概率潜在语义分析(PLSA)与高斯混合模型(GMM)建立图像底层特征、视觉语义主题与标注关键词间的联系,并基于该模型实现对图像的自动标注。采用Corel 5k数据库进行验证,实验结果证明了本文方法的有效性。 展开更多
关键词 多特征融合 概率潜在语义分析 高斯混合模型 图像自动标注
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部