期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于句子相似度的论文抄袭检测模型研究 被引量:9
1
作者 冷强奎 秦玉平 王春立 《计算机工程与应用》 CSCD 北大核心 2011年第24期199-201,共3页
提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表... 提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。 展开更多
关键词 句子相似度 抄袭检测 局部词频 最长有序公共子序列
下载PDF
基于余弦相似度和实例加权改进的贝叶斯算法 被引量:9
2
作者 王行甫 付欢欢 王琳 《计算机系统应用》 2016年第8期166-170,共5页
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标.针对以上问题,提出了一种基于余弦相似度进行实例加权改进的... 面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标.针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法.算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类.基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率. 展开更多
关键词 实例加权 朴素贝叶斯 余弦相似度 逆文本频率 文本分类
下载PDF
基于改进的TF-IDF软件测试错误信息分析方法 被引量:1
3
作者 王茹 严明 王柳舒 《计算机应用》 CSCD 北大核心 2016年第A02期259-261,共3页
针对软件测试领域人工分析测试用例错误信息工作量大、时间效率低的问题,提出了一种基于改进的词频-逆文本词频(TF-IDF)软件测试错误信息文本分析方法。首先,根据错误信息文本的特点对目标错误信息文本进行预处理,减少了干扰信息,缩短... 针对软件测试领域人工分析测试用例错误信息工作量大、时间效率低的问题,提出了一种基于改进的词频-逆文本词频(TF-IDF)软件测试错误信息文本分析方法。首先,根据错误信息文本的特点对目标错误信息文本进行预处理,减少了干扰信息,缩短了计算时间;然后,结合关键词集合、TF-IDF和向量空间模型(VSM)计算文本特征向量,其中关键词集合避免了多次对数据库中错误信息文本进行TF-IDF权值计算,提高了计算效率;接着,利用余弦相似计算目标错误信息文本与数据库文本之间的相似度,并对相似度排序,从而找到相似度最高的错误信息,进而找到相关联的变更请求(CR);最后,自动关联CR。实验结果表明,该方法在软件测试错误信息分析方面能够有效提高时间效率。 展开更多
关键词 向量空间模型 TF-IDF 文本相似度量 余弦相似 软件测试
下载PDF
基于二元模糊匹配的编程题智能评分方法
4
作者 冷强奎 刘雨晴 秦玉平 《计算机技术与发展》 2020年第2期71-74,共4页
针对传统编程题自动评分方法不能准确衡量学生程序与参考答案之间的接近程度等问题,提出了一种基于二元模糊匹配的编程题智能评分方法。第一元为结构匹配,检测学生程序在变量声明、数据输入、函数调用、控制结构等方面与参考答案的相似... 针对传统编程题自动评分方法不能准确衡量学生程序与参考答案之间的接近程度等问题,提出了一种基于二元模糊匹配的编程题智能评分方法。第一元为结构匹配,检测学生程序在变量声明、数据输入、函数调用、控制结构等方面与参考答案的相似程度,目的是快速判断学生程序中是否存在关键的采分点。第二元为词语匹配,首先进行词频统计,以确定每个词的权重。然后,分别构造学生程序与参考答案的向量空间模型,并计算两者的余弦相似度,来作为评判词语相似的依据。最终的分数由结构相似度和词语相似度的加权分数计算得出。由于该二元匹配方法不关心程序中结构/词语的先后顺序和是否为精确表达,因此被称为是模糊的。仿真实验表明,该方法具有不错的评分准确性,尽管与人工评分相比还存在一定的差距,但当试题规模较大时,可以作为人工评分的替代手段。 展开更多
关键词 二元模糊匹配 自动评分 词频统计 余弦相似度 向量空间模型
下载PDF
基于双语LDA的跨语言文本相似度计算方法研究 被引量:7
5
作者 程蔚 线岩团 +2 位作者 周兰江 余正涛 王红斌 《计算机工程与科学》 CSCD 北大核心 2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相... 基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 展开更多
关键词 双语LDA 跨语言文本相似度 余弦相似度 主题频率-逆文档频率
下载PDF
自动文摘的方法研究 被引量:3
6
作者 卫佳君 宋继华 《计算机技术与发展》 2011年第8期188-191,共4页
文中总结了自动文摘的主要研究方法和策略并把方法分成了三大类:自动摘录、基于信息抽取的自动文摘和基于理解的自动文摘。自动摘录方法是从文章中抽取重要句子来形成文摘;基于信息抽取的文摘方法是用从文章中抽取的信息填充已经编好的... 文中总结了自动文摘的主要研究方法和策略并把方法分成了三大类:自动摘录、基于信息抽取的自动文摘和基于理解的自动文摘。自动摘录方法是从文章中抽取重要句子来形成文摘;基于信息抽取的文摘方法是用从文章中抽取的信息填充已经编好的框架,然后用模板将内容输出;基于理解的文摘方法是利用自然语言处理技术生成文摘。文中重点总结了单主题文章和多主题文章的自动摘录方法,在多种算法进行优缺点比较后提出了一种新的多主题划分方法。 展开更多
关键词 句子权值 相似度 关联网络 词频 聚类 主题划分
下载PDF
基于句向量的文本相似度计算方法 被引量:7
7
作者 刘继明 于敏敏 袁野 《科学技术与工程》 北大核心 2020年第17期6950-6955,共6页
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权... 为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency,PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency,SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。 展开更多
关键词 平滑逆频率 句向量 词性 词序相似度
下载PDF
基于逆概念频率的词语相似度计算 被引量:1
8
作者 孙晶 张东站 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第2期257-262,共6页
词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基... 词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%. 展开更多
关键词 知网 词语相似度 逆概念频率 义原权重
下载PDF
基于TextRank算法的联合打分文本摘要生成 被引量:9
9
作者 朱玉佳 祝永志 董兆安 《通信技术》 2021年第2期323-326,共4页
自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文... 自动文本摘要生成是自然语言处理领域中颇具挑战性的问题之一,其任务是为书籍、篇章、新闻或者微博等某一文本资源生成简洁而又具有意义的文本摘要。TextRank算法是一种基于图的文本摘要生成算法,只利用当前文档即可实现关键词提取和文摘生成,因其简洁有效而得到广泛应用。本文在TextRank算法的基础上提出一个无监督抽取式联合打分模型。一方面,结合词频逆句频余弦相似度与词向量余弦相似度共同计算句子得分;另一方面,采用最大边缘相关度算法(Maximal Marginal Relevance,MMR)将抽取得到的摘要去除冗余。实验表明,改进后的方法生成的摘要具有更高的质量,尤其具有更好的梗概性和多样性。 展开更多
关键词 文本摘要生成 TextRank 词频逆句频余弦相似度 最大边缘相关度 词向量
下载PDF
基于多特征融合模型的自动摘要 被引量:3
10
作者 吴世鑫 黄德根 张云霞 《计算机工程与设计》 北大核心 2020年第3期650-655,共6页
为解决文本自动摘要任务中特征挖掘不充分的问题,选取句子的词汇、相对位置、长度和句间相似度4个特征,提出一种基于多特征融合模型的摘要系统。基于句法树的词汇特征充分利用语法信息,消除传统方法获取关键词的局限性,相对位置特征通... 为解决文本自动摘要任务中特征挖掘不充分的问题,选取句子的词汇、相对位置、长度和句间相似度4个特征,提出一种基于多特征融合模型的摘要系统。基于句法树的词汇特征充分利用语法信息,消除传统方法获取关键词的局限性,相对位置特征通过获取位置的高阶信息对句子进行赋值,长度特征过滤掉过长的句子,基于平滑逆向频率句嵌入方法构造句向量,有效计算句子间的相似度。实验结果表明,该系统提高了文本自动摘要的准确度。 展开更多
关键词 文本摘要 多特征融合 句法树 平滑逆向频率句嵌入 语义相似度
下载PDF
基于平滑逆频率和依存句法的句子相似度计算方法 被引量:2
11
作者 刘继明 谭云丹 袁野 《科学技术与工程》 北大核心 2019年第20期278-282,共5页
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助... 综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中“词语依存关系”三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84.4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。 展开更多
关键词 平滑逆频率 依存句法 句子相似度计算
下载PDF
融合词频-逆向文件频率的受限玻尔兹曼机推荐算法 被引量:5
12
作者 王成 李千目 《南京理工大学学报》 CAS CSCD 北大核心 2021年第5期551-557,共7页
针对数据稀疏性导致推荐算法准确度不高的难题,提出一种融合词频-逆向文件频率(Term frequency-inverse document frequency,TF-IDF)的受限玻尔兹曼机(Restricted Boltzmann machine,RBM)推荐算法,利用受限玻尔兹曼机构建用户项目二维... 针对数据稀疏性导致推荐算法准确度不高的难题,提出一种融合词频-逆向文件频率(Term frequency-inverse document frequency,TF-IDF)的受限玻尔兹曼机(Restricted Boltzmann machine,RBM)推荐算法,利用受限玻尔兹曼机构建用户项目二维评分矩阵,利用余弦相似度计算方法得出初始推荐评分,最后融合词频-逆向文件频率算法生成最终推荐结果集。对MovieLens1M的电影评分数据进行实验,结果显示,该文提出的混合推荐算法的平均绝对误差(Mean absolute error,MAE)和均方根误差(Root mean square error,RMSE)分别为0.6028和0.6225,比传统受限玻尔兹曼机分别提高3.22%与6.06%,也优于对照混合推荐模型的准确率。该算法能提高用户评分预测精度,进一步提升推荐质量。 展开更多
关键词 机器学习 受限玻尔兹曼机 词频-逆向文件频率 余弦相似度 对比散度
下载PDF
基于语义空间的抽取式单文档摘要方法
13
作者 杨山 杨雅婷 +1 位作者 温正阳 米成刚 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期237-242,共6页
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句... 目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统. 展开更多
关键词 文本摘要 word2Vec TextRank 词频逆文本频率指数 句子-原文相似度 序列到序列
下载PDF
基于语句-词条矩阵的聚簇式动态增长聚类算法 被引量:1
14
作者 孙辉 陈晓云 马志新 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1814-1817,共4页
W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和... W eb信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息。为此该文提出了一种基于语句词条矩阵的聚簇式动态增长聚类算法。该平面分割的算法的整个工作过程有3个步骤:预处理W eb数据,进行文本摘取和过滤处理;形成每个文档的语句词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类。对该算法进行了实验分析。结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。 展开更多
关键词 文档聚类 词频和反向词频 语句词条矩阵 文档矩阵集合
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部