期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
An improved algorithm for weighting keywords in web documents 被引量:1
1
作者 孙双 贺樑 +1 位作者 杨静 顾君忠 《Journal of Shanghai University(English Edition)》 CAS 2008年第3期235-239,共5页
In this paper, an improved algorithm, web-based keyword weight algorithm (WKWA), is presented to weight keywords in web documents. WKWA takes into account representation features of web documents and advantages of t... In this paper, an improved algorithm, web-based keyword weight algorithm (WKWA), is presented to weight keywords in web documents. WKWA takes into account representation features of web documents and advantages of the TF*IDF, TFC and ITC algorithms in order to make it more appropriate for web documents. Meanwhile, the presented algorithm is applied to improved vector space model (IVSM). A real system has been implemented for calculating semantic similarities of web documents. Four experiments have been carried out. They are keyword weight calculation, feature item selection, semantic similarity calculation, and WKWA time performance. The results demonstrate accuracy of keyword weight, and semantic similarity is improved. 展开更多
关键词 improved vector space model (IVSM) representation feature feature item keyword weight semantic similarity
下载PDF
面向云环境密文排序检索的字典划分向量空间模型 被引量:1
2
作者 陆佳行 戴华 +2 位作者 刘源龙 周倩 杨庚 《计算机应用》 CSCD 北大核心 2023年第7期1994-2000,共7页
针对传统向量空间模型(TVSM)生成的向量维度高,计算文档与检索关键词相关度的向量点积运算耗时长的问题,提出一种面向云环境密文排序检索的字典划分向量空间模型(DPVSM)。首先给出DPVSM的具体定义,并证明了DPVSM中检索关键词与文档的相... 针对传统向量空间模型(TVSM)生成的向量维度高,计算文档与检索关键词相关度的向量点积运算耗时长的问题,提出一种面向云环境密文排序检索的字典划分向量空间模型(DPVSM)。首先给出DPVSM的具体定义,并证明了DPVSM中检索关键词与文档的相关度得分与TVSM中的相关度得分完全相等;然后,采用等长字典划分方法,提出加密向量生成算法和文档与检索关键词相关度得分计算算法。实验结果表明,DPVSM文档向量的空间开销远少于TVSM,且文档数量越多开销降低越多;此外,DPVSM的检索向量的空间开销以及相关度得分计算的耗时也远低于TVSM。显然,DPVSM在生成向量的空间效率和相关度得分计算的时间效率上均优于TVSM。 展开更多
关键词 云计算 向量空间模型 可搜索加密 字典划分 多关键词检索
下载PDF
支持语义的P2P搜索研究 被引量:7
3
作者 王志晓 张大陆 +1 位作者 刘雷 姚传茂 《计算机工程与应用》 CSCD 北大核心 2007年第3期8-11,共4页
传统的P2P系统基于单特征词搜索,且不支持语义,有一定的局限性。向量空间模型VSM技术的应用解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相似文档在邻近的节点范围内聚集,提高了搜索的速度;语义思想的应用,使P2P系统能够理... 传统的P2P系统基于单特征词搜索,且不支持语义,有一定的局限性。向量空间模型VSM技术的应用解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相似文档在邻近的节点范围内聚集,提高了搜索的速度;语义思想的应用,使P2P系统能够理解搜索请求,有利于检索性能,特别是查全率的提高。仿真实验的结果表明:实现了多特征词的搜索;搜索收敛的速度较快;支持语义,检索性能得到了提高;节点达到了较好的负载平衡。 展开更多
关键词 对等网 语义 多特征词搜索 向量空间模型 负载平衡
下载PDF
基于类别关键词的突发事件新闻文本分类方法 被引量:11
4
作者 张永奎 李红娟 《计算机应用》 CSCD 北大核心 2008年第B06期139-140,143,共3页
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较... 对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值。 展开更多
关键词 文本分类 类别关键词 向量空间模型 突发事件新闻
下载PDF
基于VSM的权重改进文档相似度算法研究 被引量:9
5
作者 韩如冰 叶得学 《软件》 2012年第10期103-105,共3页
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用。文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法。基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文... 向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用。文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法。基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文档中关键词的权重。通过特定领域FAQ的检索测试结果表明,改进的算法很大程度上提高了检索的查准率、查全率。 展开更多
关键词 向量空间模型 关键词权重 查准率 查全率
下载PDF
基于N元汉字串模型的文本表示和实时分类的研究与实现 被引量:5
6
作者 王映 常毅 +1 位作者 谭建龙 白硕 《计算机工程与应用》 CSCD 北大核心 2005年第5期88-91,共4页
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本... 该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。 展开更多
关键词 文本分类 中文信息处理 向量空间模型 N元汉字串 关键词匹配
下载PDF
基于关键词抽取的自动文摘算法 被引量:11
7
作者 蒋效宇 《计算机工程》 CAS CSCD 2012年第3期183-186,共4页
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词... 针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。 展开更多
关键词 自动文摘 向量空间模型 关键词抽取 词汇链 未登录词识别
下载PDF
基于用户兴趣建模中加权关键词的表示 被引量:3
8
作者 蔡银珊 黄英铭 《广西民族师范学院学报》 2010年第5期72-74,共3页
对用户兴趣建模所应用的向量空间模型进行分析,引入关键词依赖模型的方法,将表征用户兴趣的关键词向量中的词定义为图的顶点,词间的关系定义为图的边,并计算相应的权重来表示用户兴趣模型。
关键词 用户兴趣 关键词依赖 向量空间模型
下载PDF
基于加权二部图匹配的中文段落相似度计算 被引量:4
9
作者 张绍阳 曹家波 +1 位作者 王子凡 曲卫东 《计算机工程与应用》 CSCD 北大核心 2017年第18期95-101,共7页
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作... 为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。 展开更多
关键词 段落相似度 句子主干提取 二部图匹配 向量空间模型 中文分词
下载PDF
基于中文关键词提取的预案智能匹配方案 被引量:1
10
作者 金保华 林青 吴怀广 《郑州轻工业学院学报(自然科学版)》 CAS 2013年第2期78-82,86,共6页
针对当下在公共社会领域中突发事件应急预案结构复杂、难以为决策者进行信息筛选和整合的热点问题,提出了一种基于中文关键词提取的预案智能匹配方案.在运用框架理论解决预案结构存储的基础上,对存储的预案文本进行预处理分词;选用词语... 针对当下在公共社会领域中突发事件应急预案结构复杂、难以为决策者进行信息筛选和整合的热点问题,提出了一种基于中文关键词提取的预案智能匹配方案.在运用框架理论解决预案结构存储的基础上,对存储的预案文本进行预处理分词;选用词语的词频、词性以及存在于预案框架中的位置作为提取出来的中文关键词特征值;利用均方误差最小的线性估计法训练关键词权重的调节因子,能够有效提高关键词提取的准确率.实验结果表明,在预案智能匹配方案中运用此种中文关键词提取算法比传统的FIFA算法效果更佳. 展开更多
关键词 应急预案 中文关键词提取 智能匹配 矢量空间模型
下载PDF
基于同态加密的多关键词检索方案 被引量:2
11
作者 向广利 李安康 +1 位作者 林香 熊彬 《计算机工程与应用》 CSCD 北大核心 2018年第2期97-101,共5页
随着云存储服务的发展,越来越多的数据拥有者选择将数据外包给云服务商存储。为了保证数据的安全性,云服务器上的数据应该以密文形式存储。现有的多关键词密文检索技术不能兼顾准确性和安全性的问题,提出一种利用改进的向量空间模型和... 随着云存储服务的发展,越来越多的数据拥有者选择将数据外包给云服务商存储。为了保证数据的安全性,云服务器上的数据应该以密文形式存储。现有的多关键词密文检索技术不能兼顾准确性和安全性的问题,提出一种利用改进的向量空间模型和同态加密技术进行多关键词检索的方案。性能分析表明该方案能够有效地解决密文的多关键词检索问题。 展开更多
关键词 同态加密 向量空间模型 密文检索 多关键词
下载PDF
个性化信息服务中的内容过滤技术研究
12
作者 张宇光 鞠彦辉 《情报科学》 CSSCI 北大核心 2005年第1期131-133,共3页
本文通过资源的表达、用户兴趣文件的表达和匹配技术来研究矢量空间模型表示法和概率模型表示法 ,提出了一个改进的概率模型表示法 。
关键词 信息过滤 向量空间模型表示法 概率模型表示法
下载PDF
用Java实现基于向量空间的搜索引擎优化
13
作者 周必水 郦泓 《计算机应用研究》 CSCD 北大核心 2003年第2期150-153,共4页
介绍了在一个已有搜索引擎的基础上进行前台优化的方法,实现检索的多样化。应用了向量空间信息检索方法,扩展了传统的信息检索,利用HTML文档结构提高了在WWW环境下的检索效率。
关键词 Java 向量空间 搜索引擎 优化 信息检索 关键字匹配 计算机网络 Internet INTRANET WWW
下载PDF
基于向量空间模型的多关键字检索技术 被引量:1
14
作者 彭喜化 黄睿 《重庆职业技术学院学报》 2006年第3期151-153,共3页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,本文提出了一种改进的向量模型;针对Web信息检索的特点,给出了一种多关键字查询向量的构建方法。最后通过文档向量与查询向量之间的相关度对检索结果进行优化,提高查准率。
关键词 向量空间模型 多关键字 相关度
下载PDF
基于复合关键词向量空间的林产品贸易网站用户兴趣模型 被引量:2
15
作者 王梓 高金萍 陈钊 《计算机工程与科学》 CSCD 北大核心 2013年第5期154-160,共7页
根据林产品贸易信息的特点,利用一种复合关键词向量空间模型来表示林产品贸易信息网站的用户兴趣模型:向量空间中的每一个复合关键词包括供求分类、林产品名称和产地三个关键词以及林产品的规格、价格范围和公司名称集合等信息,每一个... 根据林产品贸易信息的特点,利用一种复合关键词向量空间模型来表示林产品贸易信息网站的用户兴趣模型:向量空间中的每一个复合关键词包括供求分类、林产品名称和产地三个关键词以及林产品的规格、价格范围和公司名称集合等信息,每一个复合关键词均拥有一个用户的感兴趣度值。利用用户的浏览、注册、发布信息等行为以及引入兴趣度值的遗忘因子,为用户兴趣模型提供了学习和更新方法。通过引入用户的短期兴趣集合,使得兴趣模型得以体现用户的长期兴趣和短期兴趣。最后,基于此用户兴趣模型给出了基于内容的推荐算法,并通过对比实验阐明了其优势。 展开更多
关键词 林产品 贸易信息网站 用户兴趣建模 复合关键词 向量空间模型
下载PDF
基于自动分类的搜索引擎过滤系统 被引量:2
16
作者 康平波 王文杰 《计算机工程》 CAS CSCD 北大核心 2004年第2期95-97,共3页
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往... 随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。 展开更多
关键词 文本自动分类 主题词 向量空间模型
下载PDF
支持多关键字分级的可搜索同态加密方案 被引量:3
17
作者 李宏霞 庞晓琼 《计算机工程与应用》 CSCD 北大核心 2016年第22期93-98,共6页
为满足加密文件的多关键字检索需求并解决云存储下用户的隐私与数据安全的问题,提出改进的分级的多关键字可搜索加密方案。该方案保障数据与查询机密性的同时,利用向量空间模型构建可搜索索引,使用同态加密算法进行加解密,支持查询结果... 为满足加密文件的多关键字检索需求并解决云存储下用户的隐私与数据安全的问题,提出改进的分级的多关键字可搜索加密方案。该方案保障数据与查询机密性的同时,利用向量空间模型构建可搜索索引,使用同态加密算法进行加解密,支持查询结果的分级检索,有效避免了服务器端返回相关度不大的文件。进一步的安全分析和性能评估表明,该方案在安全性上满足CCA2安全,降低了通信开销,也消除了不必要的流量开销。 展开更多
关键词 多关键字分级检索 同态加密 向量空间模型 云计算
下载PDF
基于同态加密的全文检索方案设计与实现 被引量:5
18
作者 韩邦 李子臣 汤永利 《计算机工程与应用》 CSCD 北大核心 2020年第21期103-107,共5页
为了有效保障外包数据的安全性,满足用户高效检索储存在云中的数据。提出一种基于同态加密的云存储全文检索方案。该方案以整数向量加密技术为基础,建立向量空间模型,进而在密文下计算检索向量与文档向量的余弦相似度,进行检索。方案利... 为了有效保障外包数据的安全性,满足用户高效检索储存在云中的数据。提出一种基于同态加密的云存储全文检索方案。该方案以整数向量加密技术为基础,建立向量空间模型,进而在密文下计算检索向量与文档向量的余弦相似度,进行检索。方案利用加密算法的同态性,在上传文件,检索以及下载文件的整个过程中,云服务器均无法获取明文数据,方案可进行多关键词检索。在第三方不可信云存储场景中具有准确和更高的检索效率,方案描述简单,保证了用户数据的机密性,在实际场景中具有良好的应用。 展开更多
关键词 云存储 同态性 向量空间模型 整数向量加密 多关键词
下载PDF
基于重启型随机游走模型的图上关键字搜索 被引量:4
19
作者 蒋凯 关佶红 《计算机工程》 CAS CSCD 北大核心 2011年第3期42-43,46,共3页
摘要:基于重启型随机游走模型和个人化PageRank算法,提出一种新的图上关键字搜索算法。该算法将向量空间模型和随机游走模型进行有效的结合,使查询搜索得到的结果可以匹配查询关键字,通过充分挖掘利用图中隐含的结构信息,更好地提供搜... 摘要:基于重启型随机游走模型和个人化PageRank算法,提出一种新的图上关键字搜索算法。该算法将向量空间模型和随机游走模型进行有效的结合,使查询搜索得到的结果可以匹配查询关键字,通过充分挖掘利用图中隐含的结构信息,更好地提供搜索结果。实验结果证明了该算法的有效性。 展开更多
关键词 关键字搜索 随机游走 重启型随机游走模型 向量空间模型
下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:5
20
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 TextRank算法 Bert 词向量技术 向量空间模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部