期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
Research on Dynamic Discovery Model of User Interest Based on Time and Space Vector
1
作者 Jinxiu Lin Zhaoxin Zhang +1 位作者 Lejun Chi Yang Wang 《国际计算机前沿大会会议论文集》 2018年第2期7-7,共1页
关键词 USER INTEREST model vsm Time and space vector
下载PDF
基于SPI与VSM的Web访问控制与过滤系统的研究与设计 被引量:1
2
作者 陈世强 贺刚 谢坤武 《计算机应用与软件》 CSCD 2009年第7期126-128,共3页
对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支。基于Winsock SPI技术实现了一个Web访问控制与过滤系统。系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤。系统既能过滤新... 对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支。基于Winsock SPI技术实现了一个Web访问控制与过滤系统。系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤。系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好。 展开更多
关键词 信息过滤 spi 向量空间模型 相似度
下载PDF
VSM模型在文档结构识别中的应用 被引量:10
3
作者 宋昊苏 李宁 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页
借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计... 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 展开更多
关键词 文档结构识别 向量空间模型 文档格式校验 文档理解
下载PDF
基于VSM的电子作业反抄袭系统的设计与实现 被引量:2
4
作者 周小平 王佳 马晓轩 《实验技术与管理》 CAS 北大核心 2013年第3期109-111,共3页
针对日益严重的电子作业抄袭现象,在分析目前的电子作业抄袭检测系统无法将抄袭作业拒绝于提交之前等问题的基础上,阐述了一套基于空间向量模型TF-IDF方法的电子作业反抄袭系统。该系统在对电子作业进行分词的基础上,使用空间向量模型的... 针对日益严重的电子作业抄袭现象,在分析目前的电子作业抄袭检测系统无法将抄袭作业拒绝于提交之前等问题的基础上,阐述了一套基于空间向量模型TF-IDF方法的电子作业反抄袭系统。该系统在对电子作业进行分词的基础上,使用空间向量模型的TF-IDF方法计算文本相似度,并依据相似度判断电子作业是否有抄袭行为。为了解决因短时间内大量的电子作业提交而导致系统崩溃,系统使用MSMQ建立电子作业提交队列,同时,系统还提供了电子作业评阅及系统设置等功能。系统使用时间优先策略来认定抄袭作业,有效地从抄袭者和被抄袭者上杜绝了抄袭行为。 展开更多
关键词 电子作业反抄袭系统 抄袭检测 文本相似度 向量空间模型
下载PDF
基于多约简Fisher-VSM和SVM的文本情感分类 被引量:1
5
作者 邢玉娟 谭萍 曹晓丽 《计算机应用与软件》 CSCD 2016年第9期301-305,共5页
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从... 为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。 展开更多
关键词 文本情感分类 Fisher判别比 向量空间模型 支持向量机
下载PDF
基于改进的VSM的词义排歧策略
6
作者 赵晨光 蔡东风 《计算机应用》 CSCD 北大核心 2010年第6期1671-1672,1693,共3页
为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达... 为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达到80%以上。实验结果表明,该方法对语境信息的描述更加全面,有利于进一步的语义分析。 展开更多
关键词 向量空间模型 词义排歧 语境相似度 特征向量 词语搭配
下载PDF
基于N-Level VSM在Web信息检索中的研究 被引量:3
7
作者 付克志 林鸿飞 《计算机工程与应用》 CSCD 北大核心 2006年第19期158-160,179,共4页
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特... 分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。 展开更多
关键词 向量空间模型 查全率 查准率 相似性 时间复杂度
下载PDF
基于隐含语义分析的微博话题发现方法 被引量:36
8
作者 马雯雯 魏文晗 邓一贵 《计算机工程与应用》 CSCD 2014年第1期96-100,共5页
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话... 随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。 展开更多
关键词 隐含语义分析 向量空间模型 话题发现 微博 两阶段聚类 LATENT SEMANTIC Analysis(LSA) vector space model(vsm)
下载PDF
基于语义相似度的论坛话题追踪方法 被引量:22
9
作者 席耀一 林琛 +2 位作者 李弼程 周杰 许旭阳 《计算机应用》 CSCD 北大核心 2011年第1期93-96,共4页
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相... 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。 展开更多
关键词 话题追踪 论坛 关键词 语义相似度 向量空间模型
下载PDF
基于向量空间模型的文本聚类算法 被引量:50
10
作者 姚清耘 刘功申 李翔 《计算机工程》 CAS CSCD 北大核心 2008年第18期39-41,44,共4页
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。... 文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。 展开更多
关键词 向量空间模型 文本聚类 语料库
下载PDF
基于潜在语义分析的汉语问答系统答案提取 被引量:44
11
作者 余正涛 樊孝忠 +1 位作者 郭剑毅 耿增民 《计算机学报》 EI CSCD 北大核心 2006年第10期1889-1893,共5页
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,... 为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果. 展开更多
关键词 问答系统 答案提取 相似度 向量空间模型 潜在语义分析
下载PDF
潜在语义分析理论及其应用 被引量:35
12
作者 盖杰 王怡 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期9-12,20,共5页
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过... 潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。 展开更多
关键词 潜在语义分析 上下文 语义 向量空间模型
下载PDF
基于向量空间模型和专利文献特征的相似专利确定方法 被引量:11
13
作者 陈芨熙 顾新建 +1 位作者 陈国海 魏江 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第10期1848-1852,1869,共6页
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性... 为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索. 展开更多
关键词 专利文献 专利检索 文本分类 向量空间模型
下载PDF
社会化标签系统中个性化的用户建模方法 被引量:10
14
作者 夏宁霞 苏一丹 +1 位作者 覃华 张敏 《计算机应用》 CSCD 北大核心 2011年第6期1667-1670,共4页
针对社会化标签系统中现有用户兴趣模型建立的缺陷,即:使用一些零散标签的集合来表示用户兴趣,而忽略标签的联合使用现象。提出一种将共现技术引入自然法的用户建模方法,该方法以自然法为基础,向用户模型中添加适量的标签对,较好地体现... 针对社会化标签系统中现有用户兴趣模型建立的缺陷,即:使用一些零散标签的集合来表示用户兴趣,而忽略标签的联合使用现象。提出一种将共现技术引入自然法的用户建模方法,该方法以自然法为基础,向用户模型中添加适量的标签对,较好地体现了标签之间的联系,又同时考虑了体现用户兴趣的标签自身的权重。在PKDD2009数据集上测试实验结果表明,该模型较之已提出的自然法和共现法,取得了更高的准确率和召回率。 展开更多
关键词 社会化标签 个性化 用户兴趣模型 向量空间模型 标签共现
下载PDF
基于类别特征向量表示的中文文本分类算法 被引量:11
15
作者 何建英 陈蓉 +2 位作者 徐淼 刘佳 于中华 《计算机应用研究》 CSCD 北大核心 2008年第2期337-338,344,共3页
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验... 采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。 展开更多
关键词 中文文本分类 向量空间模型 评价函数 特征提取
下载PDF
基于句类特征的作者写作风格分类研究 被引量:19
16
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
下载PDF
文本分类实现技术 被引量:15
17
作者 王灏 黄厚宽 田盛丰 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期173-179,共7页
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文... 文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展. 展开更多
关键词 文本分类 特征提取 维数约简 向量空间模型 相似度 组合模型
下载PDF
基于词同现频率的文本特征描述 被引量:8
18
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配
下载PDF
基于词语关联的文本特征词提取方法 被引量:10
19
作者 廖浩 李志蜀 +1 位作者 王秋野 张意 《计算机应用》 CSCD 北大核心 2007年第12期3009-3012,共4页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。 展开更多
关键词 词语关联 词共现率 向量空间模型 特征提取 权重计算
下载PDF
专题搜索引擎中信息过滤的研究与实现 被引量:10
20
作者 李世明 赵恒永 李世友 《计算机工程与设计》 CSCD 北大核心 2006年第8期1392-1394,1397,共4页
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来... 在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来的工作做了展望。 展开更多
关键词 搜索引擎 信息过滤 网页级别 向量空间模型
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部