期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
集合相似度自连接算法研究
1
作者 李享 《软件》 2024年第4期95-97,共3页
在当前信息技术条件下,如何提升数据处理效率成为未来工作中不容忽视的问题,本文在集合相似度融合算法的基础上,介绍集合相似度连接策略,对如何实现集合相似度自连接算法提出合理意见,并通过实验评估方法,综合判断本文方法的技术优势。... 在当前信息技术条件下,如何提升数据处理效率成为未来工作中不容忽视的问题,本文在集合相似度融合算法的基础上,介绍集合相似度连接策略,对如何实现集合相似度自连接算法提出合理意见,并通过实验评估方法,综合判断本文方法的技术优势。根据研究结果可知,本文提出的新方法可以显著提升集合相似度计算效率,值得推广。 展开更多
关键词 集合相似度 自连接算法 固定步长算法 变步长算法
下载PDF
基于区间值相似度集合的多规则近似推理模型
2
作者 赵宜宾 曾文艺 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第1期6-10,共5页
给出区间值相似度集合的概念,并基于区间值相似度集合详细研究了多规则近似推理模型及其推理算法,讨论了基于区间值相似度集合的简单近似推理模型的还原性.最后,通过1个实例验证了推理模型和推理算法的有效性.
关键词 区间值模糊集合 区间值模糊关系 区间值相似集合 区间值近似推理
下载PDF
基于关键词相似度的Web用户挖掘研究与实现 被引量:1
3
作者 刘城霞 吴菲滢 《计算机科学与应用》 2013年第4期232-238,共7页
在Web挖掘极度盛行的今天,收集大量网络数据已经不是问题,而如何在海量数据中抽取去噪后的有用数据成为要解决的关键问题。本文研究将网站用户的搜索关键词分析聚类,作为用户的兴趣、爱好标签,以供运营分析人员参考。文中根据世界知识... 在Web挖掘极度盛行的今天,收集大量网络数据已经不是问题,而如何在海量数据中抽取去噪后的有用数据成为要解决的关键问题。本文研究将网站用户的搜索关键词分析聚类,作为用户的兴趣、爱好标签,以供运营分析人员参考。文中根据世界知识或分类体系计算词语语义距离后转化为词语相似度的方法,将词语间距离依据词频、词权重等因子加工计算出关键词集合间相似度矩阵后,用欧式距离表示其关键字集的相似度;之后聚类算法利用现有R软件中开源算法包——基于隐马尔科夫模型的depmix算法包进行的用户聚类算法。最终用某搜索引擎用户的真实数据,经过数据去噪后所得实验数据进行聚类,并于前台展示聚类及用户周边相关结果。 展开更多
关键词 词语相似 关键词集合相似度 用户聚类
下载PDF
关于专利类别间相似度量化方法的研究 被引量:2
4
作者 辛颖梅 钱海峰 +2 位作者 倪魏巍 徐冬梅 孙志挥 《科技创新导报》 2009年第15期90-92,共3页
针对专利类别内容相似度量化的问题,本文提出了一个基于语义的相似度量化方法。该算法首先通过有监督的特征选择方法提取每个专利类的关键词语集合,然后通过《知网》计算各个集合之间的相似度,最后在此基础上通过特征集合语义相似度计... 针对专利类别内容相似度量化的问题,本文提出了一个基于语义的相似度量化方法。该算法首先通过有监督的特征选择方法提取每个专利类的关键词语集合,然后通过《知网》计算各个集合之间的相似度,最后在此基础上通过特征集合语义相似度计算公式TSC计算专利类别间的关联度。实验表明,该方法能有效的解决相似度自动量化的问题。 展开更多
关键词 专利文本 知网 特征集合相似度
下载PDF
基于局部敏感布隆过滤器的集合相似检测技术
5
作者 黄志鹏 《数据通信》 2016年第6期47-51,共5页
集合的相似度查询(Set Similarity Queries)是当前研究的热点。而这些热点研究主要基于集合元素的性质,所以这类查询技术并不能体现集合自身其具有的整体属性,元素的空间分布,即一个集合的所有元素在特定的度量空间下的分布情况。为了... 集合的相似度查询(Set Similarity Queries)是当前研究的热点。而这些热点研究主要基于集合元素的性质,所以这类查询技术并不能体现集合自身其具有的整体属性,元素的空间分布,即一个集合的所有元素在特定的度量空间下的分布情况。为了解决元素的空间分布属性的集合相似度检测,我们设计了利用局部敏感哈希函数构建的布隆过滤器SDLBF来表示空间分布集合相似度。两个集合之间的空间分布相似度由布隆过滤器之间的海明距离来度量。并且从理论分析上其假阳性错误率和假阴性错误率。最后通过实验证明了SDLBF的可行性和可靠性。 展开更多
关键词 局部敏感哈希 布隆过滤器 集合相似度 空间分布
下载PDF
Dtrie-allpair:高效的集合T-覆盖连接算法 被引量:2
6
作者 贾连印 奚建清 +3 位作者 李孟娟 游进国 刘勇 苗德成 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期109-117,共9页
传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任... 传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任何候选集,有效解决了高候选集产生的问题,克服了传统算法因生成并验证候选集而带来的开销.文中还研究了数据库中记录的顺序及记录中元素顺序对Dtrie-allpair算法性能的影响,并在msweb、msnbc两个数据集下对Dtrie-allpair算法与All-pair、PPJoin算法进行对比.结果表明:Dtrie-allpair算法具有明显的优势,覆盖阈值较小时优势更明显;对msweb数据集,阈值为2时,Dtrie-allpair算法的效率相对于All-pair、PPJoin算法提高近两个数量级;通过对数据集进行频率降序和长度升序组合预处理可大幅降低Dtrie-allpair算法访问的trie结点数量,从而显著提升性能. 展开更多
关键词 集合相似度 T-覆盖连接 覆盖阈值 基于trie的动态索引 All-pair算法 PP-Join算法 频率降序 升序
下载PDF
一种基于集合的Web用户会话实时聚类算法 被引量:1
7
作者 王凯丽 《价值工程》 2010年第13期182-183,共2页
随着互联网的普及和电子商务、个性化推荐技术等的发展,Web使用挖掘成为了数据挖掘的新的研究热点。针对Web用户会话聚类,提出了一种基于序列对集合的用户会话实时聚类方法。对聚类算法进行了分析与比较,给出了时空复杂度,实验比较了BO... 随着互联网的普及和电子商务、个性化推荐技术等的发展,Web使用挖掘成为了数据挖掘的新的研究热点。针对Web用户会话聚类,提出了一种基于序列对集合的用户会话实时聚类方法。对聚类算法进行了分析与比较,给出了时空复杂度,实验比较了BOM算法与BOC算法的效率,并验证了BOC算法的有效性与时效性。 展开更多
关键词 WEB 实时聚类 集合相似度 相似
下载PDF
带有可信度因子的直觉模糊近似推理方法
8
作者 蔡茹 雷英杰 +1 位作者 申晓勇 曹珊 《火力与指挥控制》 CSCD 北大核心 2010年第7期9-12,共4页
针对基于相似度的直觉模糊近似推理问题,提出一种基于加权相似度量的直觉模糊推理方法。首先定义一种新的直觉模糊相似度度量公式,加入权重参数解决各维特征分配不均匀的问题,弥补了现有直觉模糊相似度量的缺陷。然后构建基于直觉模糊... 针对基于相似度的直觉模糊近似推理问题,提出一种基于加权相似度量的直觉模糊推理方法。首先定义一种新的直觉模糊相似度度量公式,加入权重参数解决各维特征分配不均匀的问题,弥补了现有直觉模糊相似度量的缺陷。然后构建基于直觉模糊产生式规则的直觉模糊近似推理模型,加入可信度因子解决了随机性引起的信息不确定问题,同时给出模型的推理算法和计算步骤。最后通过实例验证了该方法的实用性和有效性,其在意图识别、目标识别等信息融合领域有良好的应用前景。 展开更多
关键词 直觉模糊集合 近似推理 相似 可信
下载PDF
基于区间值相似度集合的区间值近似推理
9
作者 曾文艺 赵宜宾 《山东大学学报(工学版)》 CAS 北大核心 2013年第2期96-100,共5页
在引入区间值相似度集合概念的基础上,给出基于区间值相似度集合的区间值近似推理的数学模型,并研究了其相关性质和推理算法,最后通过实例验证其推理算法的可行性与有效性。
关键词 区间值模糊集合 区间值相似集合 区间值模糊关系 区间值近似推理
原文传递
基于内容和兴趣漂移模型的电影推荐算法研究 被引量:32
10
作者 吕学强 王腾 +1 位作者 李雪伟 董志安 《计算机应用研究》 CSCD 北大核心 2018年第3期717-720,802,共5页
针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用TextRank、Word2Vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于Wo... 针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用TextRank、Word2Vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于Word2Vec训练结果进行电影内容相似度计算,一定程度上解决了近义词、网络词等带来的准确率下降问题;然后基于长短期兴趣漂移模型,统计用户对不同内容属性的偏好权重,并随时间窗口动态计算电影相似度矩阵,缓解了用户兴趣随时间漂移而改的问题;最后根据不同推荐策略获得推荐结果。实验结果证明,该算法比对比方法正确率提高了5%左右,同时兴趣模型提取了用户长短期兴趣标签,在工业界及基于标签的算法等场景中都具有很高的实用价值。 展开更多
关键词 个性推荐 词向量模型 用户偏好 兴趣漂移 聚类 集合相似度
下载PDF
半结构化实体解析算法 被引量:1
11
作者 韦海浪 李贵 +2 位作者 李征宇 韩子扬 曹科研 《数据挖掘》 2020年第1期1-15,共15页
实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编辑相似度计算子字符串之间关联度,在此基础上引入二分图最大加... 实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编辑相似度计算子字符串之间关联度,在此基础上引入二分图最大加权匹配算法度量记录之间的关联度。由于该方法的计算时间复杂度比较高,对于Web大数据集实体解析来说,所需的时间成本较大,因此,该文还提出了一种基于集合相似度的实体解析算法,将记录看作所有属性值的集合,每个属性值作为集合中的元素,用一个标记数组来表示每个元素,根据这些标记数组为每个记录创建一个签名,找出与签名相匹配的其他相似记录。并且采用优化后的最大匹配算法来选出真正相似的记录。最后,该文采用实际数据集进行实验验证了上述方法比传统方法更有效。 展开更多
关键词 实体解析 编辑相似 集合相似度 二分图最大加权匹配
下载PDF
面向不平衡微博数据集的转发行为预测方法 被引量:2
12
作者 赵煜 邵必林 +1 位作者 边根庆 宋丹 《计算机应用》 CSCD 北大核心 2015年第7期1959-1964,共6页
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其... 针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。 展开更多
关键词 集合与微博主题词集合之间的相似计算采用向 微博 转发预测 不均匀数据集 过采样 随机森林
下载PDF
面向行业电商知识图谱应用的实体对齐算法 被引量:1
13
作者 陈富强 肖明明 +3 位作者 韩凯南 任毅 王文文 李克 《高技术通讯》 CAS 2022年第12期1302-1311,共10页
针对多源异构知识图谱数据融合中的实体对齐问题,本文面向行业电商领域电商平台真实数据,提出了一种基于领域知识的集合相似度实体对齐算法。首先,基于领域知识针对性设计数据预处理技术,如实体属性值原子化、统一术语和去除冗余等,以... 针对多源异构知识图谱数据融合中的实体对齐问题,本文面向行业电商领域电商平台真实数据,提出了一种基于领域知识的集合相似度实体对齐算法。首先,基于领域知识针对性设计数据预处理技术,如实体属性值原子化、统一术语和去除冗余等,以规范化电商底层多源异构数据、提升数据处理效率和准确性;然后,以行业电商知识图谱应用为导向,筛选实体对生成高质量候选集,优化集合相似度测量和实体对排序方法,实现实体对的高效匹配。实验结果表明,本文算法可有效提高多源异构数据融合的准确率,大幅减少人工干预,可为行业电商发展提供新思路。 展开更多
关键词 多源异构数据 知识图谱 实体对齐 集合相似度 电子商务
下载PDF
SOA服务识别方法的研究
14
作者 张易成 倪枫 《软件》 2022年第5期25-28,共4页
本文讨论面向服务体系架构(Service Oriented Architecture,SOA)中对于已有系统中的业务进行分析,使用服务识别方法(Service Identification Method),识别出可用系统服务,同时给出了服务质量的计算方式。结合新业务的发生,使用服务识别... 本文讨论面向服务体系架构(Service Oriented Architecture,SOA)中对于已有系统中的业务进行分析,使用服务识别方法(Service Identification Method),识别出可用系统服务,同时给出了服务质量的计算方式。结合新业务的发生,使用服务识别方法,以服务质量作为参考指标,将服务的寻找转换为使用集合匹配的方式,找到相似度高的服务。以此实现SOA中服务复用的目的。 展开更多
关键词 SOA 服务识别 服务质量 集合相似度
下载PDF
基于CMeSH语义系统的领域自由词-主题词语义映射研究 被引量:8
15
作者 孙海霞 李军莲 +2 位作者 李丹亚 吴英杰 李晓瑛 《现代图书情报技术》 CSSCI 北大核心 2013年第11期46-51,共6页
基于CMeSH的语义关系和生物医学词汇字长特点,设计文献自由词到CMeSH主题词语义自动映射方案,包括文献自由词与CMeSH主题词的语义相似度计算模型和"最佳"目标主题词识别方案,并以疾病类和微生物类词汇为例进行实验效果分析。
关键词 中文医学主题词表 集合相似度 语义相似 语义映射 过滤规则
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部