期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
基于共现潜在语义向量空间模型的语义核构建 被引量:10
1
作者 牛奉高 张亚宇 《情报学报》 CSSCI CSCD 北大核心 2017年第8期834-842,共9页
实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本... 实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。 展开更多
关键词 共现潜在语义向量空间模型 语义 共现潜在语义向量空间模型语义 文本聚类
下载PDF
共现潜在语义向量空间模型的进一步研究 被引量:2
2
作者 牛奉高 李星 《情报杂志》 CSSCI 北大核心 2017年第12期166-172,共7页
[目的/意义]文献的向量表示是文献聚类的首要任务。共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能。然而,对该模... [目的/意义]文献的向量表示是文献聚类的首要任务。共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能。然而,对该模型的研究还有待深入:该模型对英文文献的聚类适用性尚需检验;是否可以考虑利用除max统计量以外的其它统计量构建模型?聚类效果又会如何?面对大量的文献数据,模型的维度往往较高,运算成本大,所以有必要对模型进行优化处理。[方法/过程]首先将CLSVSM用于对英文文献集(数据来源于Web of Science,简记为WOS)的主题聚类并与VSM的聚类结果进行比较;然后利用除max统计量以外的三个常用统计量min,ave,med构建相应的CLSVSM模型,并用这四个统计量构建的CLSVSM模型对中英文文献进行聚类比较。更重要的是,我们提出了截尾共现潜在语义向量空间模型(TCLSVSM)并检验其聚类性能。[结果/结论]实验显示:CLSVSM对英文文献聚类同样适用;四种统计量构建的模型中CLSVSM-max对中英文文献的聚类效果最佳;TCLSVSM不仅能保证聚类性能,而且能显著降低运算成本。 展开更多
关键词 向量空间模型 CLSVSM TCLSVSM 分析 聚类
下载PDF
共现潜在语义向量空间模型及其应用
3
作者 牛奉高 《中国科技成果》 2021年第14期8-9,共2页
随着互联网技术的普遍发展,世界进入了信息爆炸时代。将无结构的文本信息结构化使其能够充分地表现文本语义信息是文本挖掘、信息检索的关键基础性问题。文本表示效果的好坏将直接影响到自然语言处理任务,如信息检索、分类与聚类等效果... 随着互联网技术的普遍发展,世界进入了信息爆炸时代。将无结构的文本信息结构化使其能够充分地表现文本语义信息是文本挖掘、信息检索的关键基础性问题。文本表示效果的好坏将直接影响到自然语言处理任务,如信息检索、分类与聚类等效果的好坏。在国家自然科学基金项目“共现潜在语义向量空间模型及其语义核的构建与应用研究”中,通过对传统的向量空间模型进行改进,构建一种新的文本表示模型CLSVSM。该模型能有效挖掘文本信息中词与词之间的潜在语义关系,对文本信息的表示更加精准完善,在如文本聚类、话题发现等多种自然语言处理任务中均有出色的表现。 展开更多
关键词 自然语言处理 信息检索 向量空间模型 文本挖掘 文本聚类 信息爆炸时代 文本信息 在语义
原文传递
基于向量空间模型的词共现研究及其在文本分类中的应用 被引量:23
4
作者 吴光远 何丕廉 +1 位作者 曹桂宏 聂颂 《计算机应用》 CSCD 北大核心 2003年第z1期138-140,145,共4页
文中提出了一种基于向量空间模型的词共现模型算法 ,通过选取整篇文档为窗口单元 ,统计中高频特征词的共现信息 ,改进了模型的效果 ,并将得到的词共现资源应用于文本分类的研究中。
关键词 向量空间模型 互信息 文本分类 窗口单元
下载PDF
一种结合关键词与共现词对的向量空间模型 被引量:4
5
作者 唐守忠 齐建东 《计算机工程与科学》 CSCD 北大核心 2014年第5期971-976,共6页
提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后... 提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。 展开更多
关键词 向量空间模型 词对 语义相关性 文本分类
下载PDF
基于向量空间模型的专题文献过滤算法研究 被引量:3
6
作者 焦玉英 刘伟成 孙吉红 《情报学报》 CSSCI 北大核心 2005年第5期562-566,共5页
本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法.概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准... 本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法.概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性,从而使专题研究中文献过滤的召回率和准确率都有显著提高. 展开更多
关键词 向量空间模型 专题文献 过滤算法 语义 文献检索
下载PDF
基于词共现模型的垃圾邮件过滤方法研究 被引量:4
7
作者 张燕平 史科 +1 位作者 徐庆鹏 谢飞 《中文信息学报》 CSCD 北大核心 2009年第6期61-66,71,共7页
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮... 垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。 展开更多
关键词 计算机应用 中文信息处理 向量空间模型 垃圾邮件过滤 模型 交叉覆盖算法
下载PDF
潜在语义标引在中文信息检索中的研究与实现 被引量:16
8
作者 居斌 《计算机工程》 CAS CSCD 北大核心 2007年第5期193-196,共4页
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理... 随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。 展开更多
关键词 在语义标引 向量空间模型 信息检索 中文
下载PDF
基于词共现模型与DOM的石油主题采集策略
9
作者 李村合 李晗 《微计算机应用》 2008年第2期28-31,共4页
提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化... 提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化词共现模型的特点。实验证明该策略使采集和分类的性能都有了一定的提高。 展开更多
关键词 模型 DOM树 文本分类 主题采集 向量空间模型
下载PDF
基于向量空间的信息检索模型的改进 被引量:3
10
作者 原媛 彭建华 张汝云 《计算机工程与设计》 CSCD 北大核心 2008年第23期6012-6015,共4页
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨。在仅用统计词频表示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜... 向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨。在仅用统计词频表示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型。实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率。 展开更多
关键词 向量空间模型 基于概念的特征选择 在语义索引 知网 奇异值分解
下载PDF
基于频繁关键字共现的诗词风格分类模型研究 被引量:3
11
作者 吴春龙 周昌乐 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第1期41-44,共4页
为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规... 为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息. 展开更多
关键词 文本分类 向量空间模型 FKC-VSM 最邻近算法 APRIORI算法 频繁关键字
下载PDF
基于潜在语义分析的智能答疑系统研究与实现 被引量:2
12
作者 乌庆敏 杨思春 《计算机技术与发展》 2008年第9期251-252,F0003,共3页
文中研究的是基于常问问题库(FAQ库)的智能答疑系统。FAQ库是很多智能答疑系统中的一个重要组成部分,它把用户常问的问题和相关答案保存起来,对于用户输入的问题,可以首先在FAQ库中查找答案。如果能够找到相似的问题,就可以直接将问题... 文中研究的是基于常问问题库(FAQ库)的智能答疑系统。FAQ库是很多智能答疑系统中的一个重要组成部分,它把用户常问的问题和相关答案保存起来,对于用户输入的问题,可以首先在FAQ库中查找答案。如果能够找到相似的问题,就可以直接将问题所对应的答案返回给用户。为解决智能答疑系统因词的同义或多义现象而导致的"漏答"或"错答",采用一种基于加权潜在语义分析模型的相似度计算方法。针对特定教育领域的智能答疑系统,改进了反映词与词之间相关性的权值计算。通过对特定课程中常问问题的实验,结果显示明显优于向量空间模型。 展开更多
关键词 智能答疑 在语义分析 相似度 向量空间模型
下载PDF
一种基于向量空间模型的改进文本分类算法 被引量:2
13
作者 牛玲 《情报杂志》 CSSCI 北大核心 2006年第6期63-64,67,共3页
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义... 探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。 展开更多
关键词 向量空间模型 文本分类 信息检索 在语义索引 在语义索引 算法 主题词
下载PDF
基于潜在语义分析的汉语问答系统答案提取 被引量:44
14
作者 余正涛 樊孝忠 +1 位作者 郭剑毅 耿增民 《计算机学报》 EI CSCD 北大核心 2006年第10期1889-1893,共5页
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,... 为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果. 展开更多
关键词 问答系统 答案提取 相似度 向量空间模型 在语义分析
下载PDF
基于潜在语义分析的信息检索 被引量:29
15
作者 盖杰 王怡 武港山 《计算机工程》 CAS CSCD 北大核心 2004年第2期58-60,共3页
潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法 。
关键词 在语义分析 信息检索 语义 向量空间模型
下载PDF
潜在语义分析理论及其应用 被引量:35
16
作者 盖杰 王怡 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期9-12,20,共5页
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过... 潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。 展开更多
关键词 在语义分析 上下文 语义 向量空间模型
下载PDF
基于潜在语义分析的中文文本层次分类技术 被引量:15
17
作者 王怡 盖杰 +1 位作者 武港山 王继成 《计算机应用研究》 CSCD 北大核心 2004年第8期151-154,165,共5页
从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类... 从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类精度的同时提高了分类及其后处理速度 ,并设计实现了一个原型系统。 展开更多
关键词 在语义分析 类重心分类 向量空间模型 文本分类 特征向量
下载PDF
基于潜在语义分析的文本连贯性分析 被引量:3
18
作者 汤世平 樊孝忠 朱建勇 《计算机应用与软件》 CSCD 北大核心 2008年第2期95-96,共2页
文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域... 文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域。基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构。实验结果表明,该方法是有效的,其准确率达到74.96%。 展开更多
关键词 向量空间模型 在语义分析 文本连贯性 计算机辅助评估
下载PDF
基于改进潜在语义分析算法的文本情感分类研究 被引量:2
19
作者 王旭仁 郑秋辉 +2 位作者 刘丽珍 黄向阳 刘杰 《计算机教育》 2014年第19期50-53,共4页
针对文本挖掘过程中存在的搜索空间过大问题,介绍潜在语义分析的方法,指出该方法应用在文本情感分类中,具有空间占用小的优点,阐述潜在语义分析算法通过对词项和文档矩阵进行奇异值分解,能够有效降低文本情感分类的搜索空间并对词项在... 针对文本挖掘过程中存在的搜索空间过大问题,介绍潜在语义分析的方法,指出该方法应用在文本情感分类中,具有空间占用小的优点,阐述潜在语义分析算法通过对词项和文档矩阵进行奇异值分解,能够有效降低文本情感分类的搜索空间并对词项在语义层面进行分析,解决一词多义的问题。 展开更多
关键词 在语义分析 文本情感分类 向量空间模型
下载PDF
基于潜语义标引的自然语言检索 被引量:3
20
作者 陶跃华 孙茂松 《现代图书情报技术》 CSSCI 北大核心 2001年第5期40-41,共2页
在信息检索中 ,向量空间模型是最有效的数学工具之一。由于自然语言检索的特殊性 ,以及传统信息检索模型受到同义词、多义词的影响 ,检索的查准率不高。为了提高自然语言检索的查准率 ,我们对基于概念的信息检索模型——潜语义标引 ( L... 在信息检索中 ,向量空间模型是最有效的数学工具之一。由于自然语言检索的特殊性 ,以及传统信息检索模型受到同义词、多义词的影响 ,检索的查准率不高。为了提高自然语言检索的查准率 ,我们对基于概念的信息检索模型——潜语义标引 ( LSI)模型进行了探讨 ,并分析了基于 LSI的两个实例。 展开更多
关键词 自然语言 信息检索 语义标引 向量空间模型
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部