期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于改进的TF-IDF方法的文本相似度算法研究 被引量:10
1
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似度算法 TF-IDF方法 词语关联 马尔可夫模型 文本分类
下载PDF
一种改进的文本相似度算法在政务系统中的应用 被引量:3
2
作者 贾惠娟 《信息技术与信息化》 2016年第7期49-52,共4页
为了更好的提高政务工作的生产效率,提出了编辑距离、改进的空间向量模型以及特征词库相结合的一种改进的文本相似度算法模型。改进算法充分考虑了政务文本的特征,以及特征词分类及权重影响,有效降低了计算的维度、缩小了计算的范围,大... 为了更好的提高政务工作的生产效率,提出了编辑距离、改进的空间向量模型以及特征词库相结合的一种改进的文本相似度算法模型。改进算法充分考虑了政务文本的特征,以及特征词分类及权重影响,有效降低了计算的维度、缩小了计算的范围,大大提高了应用系统中检索数据返回的速率。系统运行结果也表明了改进的文本相似度算法在检测相似政务文本方面效果和性能有显著提高。 展开更多
关键词 文本相似度算法 TF-IDF 向量空间 编辑距离 电子政务
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
3
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似 文本表示 语义相似文本聚类算法
下载PDF
文本相似度计算在企业信息检索中的应用
4
作者 黄炜 《科学技术与工程》 2011年第15期3571-3575,3584,共6页
企业信息检索系统所要解决的核心问题就是:提高检索关键字集合的规范性与完备性,通过对文本相似度计算及相关分类算法,达到检索关键字集合规范性及完备性提高的目的。给出了线性序列相似度的定义,讨论了匹配矩阵的性质,给出了一种计算... 企业信息检索系统所要解决的核心问题就是:提高检索关键字集合的规范性与完备性,通过对文本相似度计算及相关分类算法,达到检索关键字集合规范性及完备性提高的目的。给出了线性序列相似度的定义,讨论了匹配矩阵的性质,给出了一种计算线性序列相似度的算法,并对算法作出了优化。 展开更多
关键词 信息检索 文本相似度算法 全局优化 状态空间
下载PDF
汉字关联性量化方法及其在文本相似性分析中的应用 被引量:1
5
作者 赵彦斌 李庆华 《计算机应用》 CSCD 北大核心 2006年第6期1396-1397,1400,共3页
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文... 文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。 展开更多
关键词 汉字关联 信息矩阵 文本相似度算法
下载PDF
基于文本相似性匹配的计算机辅助翻译软件研究 被引量:2
6
作者 何斌 《甘肃科技》 2020年第1期25-28,共4页
提出并实现了一个基于文本相似性查找的计算机辅助翻译软件的解决方案。采用文本相似度算法较好的实现了检索的匹配程度,并运用云计算和并行运行等方法提高响应速度。通过典型案例应用对计算机辅助翻译软件进行了匹配度与响应速度测试,... 提出并实现了一个基于文本相似性查找的计算机辅助翻译软件的解决方案。采用文本相似度算法较好的实现了检索的匹配程度,并运用云计算和并行运行等方法提高响应速度。通过典型案例应用对计算机辅助翻译软件进行了匹配度与响应速度测试,测试结果表明该方案实现的计算机辅助翻译软件查准率与响应速度完全满足用户需求。 展开更多
关键词 计算机辅助翻译软件 文本相似度算法 查准率
下载PDF
继电保护信息语义智能识别算法的研究与应用 被引量:3
7
作者 钱海 邱金辉 +3 位作者 张道农 姜健琳 尹浙洪 沈亚东 《电力系统保护与控制》 EI CSCD 北大核心 2018年第3期83-88,共6页
为了应对当前存在于继电保护领域的语义不标准现象,设计一种继电保护信息语义智能识别算法。该智能算法基于字典管理、语义匹配、检索预处理以及检索管理4大模块。结合采集储存算法、预处理算法和文本相似度算法设计出一种智能自我学习... 为了应对当前存在于继电保护领域的语义不标准现象,设计一种继电保护信息语义智能识别算法。该智能算法基于字典管理、语义匹配、检索预处理以及检索管理4大模块。结合采集储存算法、预处理算法和文本相似度算法设计出一种智能自我学习的语义智能处理机制。该算法通过逐步提高计算机自识别率来实现对不标准继电保护语义的统计,从而丰富语义知识积累库,以便增加对不标准语义标准化的正确率。根据对不同类型不标准语义数据的测试,对得到的标准语义数据进行分析验证,证明了此继电保护信息语义智能识别算法具有准确的性能和良好的可行性。 展开更多
关键词 继电保护系统 文本相似度算法 人工智能
下载PDF
Android智能终端二维码安全检测系统的设计与实现 被引量:5
8
作者 伊恩泽 佟新 +3 位作者 魏震 冯晓萌 侯永跃 董晓梅 《电脑知识与技术(过刊)》 2017年第3X期61-64,共4页
随着二维码技术的应用与推广,二维码已成为病毒传播的新通道,如钓鱼网站、手机病毒、恶意程序等通过二维码传播的潜在风险日益严重。文中分别分析了恶意钓鱼网站、跨站脚本攻击和恶意APP应用下载等攻击方式的特点,设计并实现了一个全方... 随着二维码技术的应用与推广,二维码已成为病毒传播的新通道,如钓鱼网站、手机病毒、恶意程序等通过二维码传播的潜在风险日益严重。文中分别分析了恶意钓鱼网站、跨站脚本攻击和恶意APP应用下载等攻击方式的特点,设计并实现了一个全方位深层次的二维码安全检测系统。为提高查询效率,该系统将黑白名单同时保存在客户端服务器端进行黑/白名单检测、并重点针对恶意钓鱼网站采用文本相似度算法、SIFT(尺度不变特征检测)匹配算法、SVM(支持向量机)进行综合分析。该系统不仅可以应用于普通用户的日常扫码行为,同时该系统可被政府机构二维码安全监管提供参考工具。 展开更多
关键词 二维码安全检测 黑/白名单检测 文本相似度算法 SVM SIFT算法
下载PDF
基于Python的企业办公文档检索系统的开发与应用
9
作者 王瑶 陈翔 高艳彬 《信息与电脑》 2021年第2期126-129,共4页
近年来,企业办公系统的更新速度越来越快,对于不同的系统功能和版本,随之产生了大量的帮助文档。当用户遇到一些问题时,如果让用户从这些文档中去寻找解决问题的办法,将会浪费很多时间。本文使用Python语言,通过对收集到的帮助文档内容... 近年来,企业办公系统的更新速度越来越快,对于不同的系统功能和版本,随之产生了大量的帮助文档。当用户遇到一些问题时,如果让用户从这些文档中去寻找解决问题的办法,将会浪费很多时间。本文使用Python语言,通过对收集到的帮助文档内容进行处理,最终搭建了一个基于Flask的企业办公帮助文档检索系统。办公系统的用户只需要输入简单的问题描述,就可返回解决该问题的帮助文档,方便系统使用人员快速准确地定位问题的解决办法,从而有利于提高工作效率。 展开更多
关键词 帮助文档 PYTHON 文本处理 文本相似度算法
下载PDF
学术论文复制检测的研究进展及新方法 被引量:1
10
作者 王秀红 《图书情报工作》 CSSCI 北大核心 2009年第5期111-114,共4页
综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象... 综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。 展开更多
关键词 学术论文 复制检测 抄袭剽窃检测 统计语言模型 文本相似度算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部