期刊文献+
共找到1,419篇文章
< 1 2 71 >
每页显示 20 50 100
Similarity measurement method of high-dimensional data based on normalized net lattice subspace 被引量:4
1
作者 李文法 Wang Gongming +1 位作者 Li Ke Huang Su 《High Technology Letters》 EI CAS 2017年第2期179-184,共6页
The performance of conventional similarity measurement methods is affected seriously by the curse of dimensionality of high-dimensional data.The reason is that data difference between sparse and noisy dimensionalities... The performance of conventional similarity measurement methods is affected seriously by the curse of dimensionality of high-dimensional data.The reason is that data difference between sparse and noisy dimensionalities occupies a large proportion of the similarity,leading to the dissimilarities between any results.A similarity measurement method of high-dimensional data based on normalized net lattice subspace is proposed.The data range of each dimension is divided into several intervals,and the components in different dimensions are mapped onto the corresponding interval.Only the component in the same or adjacent interval is used to calculate the similarity.To validate this method,three data types are used,and seven common similarity measurement methods are compared.The experimental result indicates that the relative difference of the method is increasing with the dimensionality and is approximately two or three orders of magnitude higher than the conventional method.In addition,the similarity range of this method in different dimensions is [0,1],which is fit for similarity analysis after dimensionality reduction. 展开更多
关键词 high-dimensional data the curse of dimensionality similarITY NORMALIZATION SUBSPACE NPsim
下载PDF
Coupled Attribute Similarity Learning on Categorical Data for Multi-Label Classification
2
作者 Zhenwu Wang Longbing Cao 《Journal of Beijing Institute of Technology》 EI CAS 2017年第3期404-410,共7页
In this paper a novel coupled attribute similarity learning method is proposed with the basis on the multi-label categorical data(CASonMLCD).The CASonMLCD method not only computes the correlations between different ... In this paper a novel coupled attribute similarity learning method is proposed with the basis on the multi-label categorical data(CASonMLCD).The CASonMLCD method not only computes the correlations between different attributes and multi-label sets using information gain,which can be regarded as the important degree of each attribute in the attribute learning method,but also further analyzes the intra-coupled and inter-coupled interactions between an attribute value pair for different attributes and multiple labels.The paper compared the CASonMLCD method with the OF distance and Jaccard similarity,which is based on the MLKNN algorithm according to 5common evaluation criteria.The experiment results demonstrated that the CASonMLCD method can mine the similarity relationship more accurately and comprehensively,it can obtain better performance than compared methods. 展开更多
关键词 COUPLED similarITY MULTI-LABEL categorical data CORRELATIONS
下载PDF
An Information Content and Set of Common Superconcepts-Based Algorithm to Estimate Similarity between Concepts of Ontologies
3
作者 Gbede Sylvain Gbame Maho Wielfrid Morie Konan Marcelin Brou 《Open Journal of Applied Sciences》 2023年第11期1896-1909,共14页
Ontologies have been used for several years in life sciences to formally represent concepts and reason about knowledge bases in domains such as the semantic web, information retrieval and artificial intelligence. The ... Ontologies have been used for several years in life sciences to formally represent concepts and reason about knowledge bases in domains such as the semantic web, information retrieval and artificial intelligence. The exploration of these domains for the correspondence of semantic content requires calculation of the measure of semantic similarity between concepts. Semantic similarity is a measure on a set of documents, based on the similarity of their meanings, which refers to the similarity between two concepts belonging to one or more ontologies. The similarity between concepts is also a quantitative measure of information, calculated based on the properties of concepts and their relationships. This study proposes a method for finding similarity between concepts in two different ontologies based on feature, information content and structure. More specifically, this means proposing a hybrid method using two existing measures to find the similarity between two concepts from different ontologies based on information content and the set of common superconcepts, which represents the set of common parent concepts. We simulated our method on datasets. The results show that our measure provides similarity values that are better than those reported in the literature. 展开更多
关键词 ONTOLOGY data Structure similarity Measure Concepts Information Content
下载PDF
定点形变数据中暂态短持时异常信号的检测方法研究
4
作者 张源 崔庆谷 《大地测量与地球动力学》 CSCD 北大核心 2024年第1期100-104,共5页
分别将线性叠加及零延迟相乘算法用于人工合成数据中的暂态信号检测实验,对比2种算法在暂态信号识别中的效果。结果表明,将同台多道、多台多道数据进行零延时相乘能够更有效地压制数据中的干扰和噪声,使准同步暂态信号得到放大凸显,实... 分别将线性叠加及零延迟相乘算法用于人工合成数据中的暂态信号检测实验,对比2种算法在暂态信号识别中的效果。结果表明,将同台多道、多台多道数据进行零延时相乘能够更有效地压制数据中的干扰和噪声,使准同步暂态信号得到放大凸显,实现暂态异常信号的初步检测与识别。在此基础上,利用零延时相乘算法处理2002~2022年云南定点形变观测数据,从中识别出11组暂态短持时信号,并进一步分析信号与云南境内M_(S)5.0以上地震的时空关联性。 展开更多
关键词 暂态短持时信号 同类同分向数据 零延迟相乘 信号检测与识别
下载PDF
基于重要度的航空器系统定量相似性评估方法
5
作者 闫锋 苏忠允 孙有朝 《航空计算技术》 2024年第1期11-15,20,共6页
目前民航飞机机型的更新换代越来越快,新型飞机设备清单的制定也成为了关键。将已有成熟机型的设备清单进行进一步的修改优化后使用,可以加快研发进展,如何界定是否适合优化使用较为困难,因此提出一种基于重要度与余弦相似性理论的航空... 目前民航飞机机型的更新换代越来越快,新型飞机设备清单的制定也成为了关键。将已有成熟机型的设备清单进行进一步的修改优化后使用,可以加快研发进展,如何界定是否适合优化使用较为困难,因此提出一种基于重要度与余弦相似性理论的航空器系统相似性评估方法。分析波音和空客相似机型的液压系统功能与结构,进行功能危险性评估;建立故障树,根据部件故障发生概率,计算部件概率重要度与关键重要度。根据重要度数据进行余弦相似性计算,结果近似于1,表明相似机型液压系统之间具有一定的相似相关性。方法可以对航空器系统是否相似相关进行判断,提供了依赖已有相似机型进行修改完善新型飞机设备清单的支撑。 展开更多
关键词 重要度 飞机液压系统 故障数据分析 余弦相似度
下载PDF
融合巴氏系数与综合相似度的改进加权Slope One算法
6
作者 王文丰 周雨虹 +4 位作者 周波 韩佳 韩龙哲 董芳 赵阳 《南昌工程学院学报》 CAS 2024年第3期82-87,共6页
针对传统加权Slope One算法因过度依赖用户共同评分项导致在过稀疏数据集中预测准确度低的问题,提出一种融合巴氏系数与综合相似度的改进加权Slope One算法(BS-WSO)。首先,引入巴氏系数和用户行为偏好对用户相似度计算方法进行改进,依... 针对传统加权Slope One算法因过度依赖用户共同评分项导致在过稀疏数据集中预测准确度低的问题,提出一种融合巴氏系数与综合相似度的改进加权Slope One算法(BS-WSO)。首先,引入巴氏系数和用户行为偏好对用户相似度计算方法进行改进,依此筛选出待预测的近邻集合;其次,为了优化预测评分,利用巴氏系数和项目流行度计算项目相似度,并将其作为权重因子融入评分计算;最后,将BS-WSO与几种代表性算法进行比较,仿真实验结果表明,BS-WSO算法能有效克服数据过稀疏情况下预测准确度低的缺陷,提高推荐精确度。 展开更多
关键词 协同过滤 数据稀疏性 相似度 用户偏好
下载PDF
基于双前沿面数据包络分析的云制造服务功能匹配
7
作者 张志颖 张红艳 +1 位作者 刘茹梦 魏旭光 《计算机集成制造系统》 EI CSCD 北大核心 2024年第4期1374-1388,共15页
针对云制造环境下功能匹配过程中属性权重需提前确定,进而影响匹配精度的问题,提出了一种基于本体相似度的双前沿面数据包络分析(DEA)匹配方法,该方法根据总体几何平均相似度进行服务排序,并自动生成属性权重。首先,为了提高匹配效率,... 针对云制造环境下功能匹配过程中属性权重需提前确定,进而影响匹配精度的问题,提出了一种基于本体相似度的双前沿面数据包络分析(DEA)匹配方法,该方法根据总体几何平均相似度进行服务排序,并自动生成属性权重。首先,为了提高匹配效率,从基本信息、类型、状态及功能四方面对云制造服务与需求进行描述;然后,引入信息量并改进相似度计算方法,提出基于概念语义距离、信息量和概念层次顺序的本体概念综合语义相似度计算方法;在此基础上,运用双前沿面DEA模型衡量总体效率,以此进行服务排序;最后通过算例证明了该方法的可行性。所提方法为改善云制造服务功能匹配效果提供了参考。 展开更多
关键词 云制造服务 功能匹配 双前沿面数据包络分析 综合相似度
下载PDF
基于用户层次聚类的联邦学习优化方法
8
作者 谭玉玲 欧国成 +1 位作者 曹灿明 柴争议 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期469-478,488,共11页
联邦学习通过分布式机器学习训练出一种全局模型,该模型能够泛化所有的本地用户数据,以达到保护用户数据隐私的目的。由于用户间的行为、环境等不同,造成了数据异构问题,进而使得用户局部模型的性能往往远高于全局模型。针对上述问题,... 联邦学习通过分布式机器学习训练出一种全局模型,该模型能够泛化所有的本地用户数据,以达到保护用户数据隐私的目的。由于用户间的行为、环境等不同,造成了数据异构问题,进而使得用户局部模型的性能往往远高于全局模型。针对上述问题,该文提出了一种基于用户层次聚类的联邦学习方法。设计了一种联邦学习收敛评估的方法,用于判断全局模型收敛程度;当全局模型收敛时进行聚类用户操作,能够更加准确地找出相似程度较高的用户;通过余弦相似性的层次聚类方法,将具有相似性的用户进行聚类操作,从而减少因数据异构带来的影响。此外该文还采用较大深度的模型WideResNet提高用户本地训练精度。该文采用数据集EMNIST、CIFAR10,调整用户数据之间的角度,分别进行了两类用户和三类用户的聚类联邦学习实验。实验结果显示,与相关经典联邦学习算法FedAvg相比,采用聚类策略后,其训练准确度提高约10%。 展开更多
关键词 联邦学习 数据异构 层次聚类 余弦相似性 WideResNet
下载PDF
综合天气相似分析方法及其气象预报服务应用
9
作者 李宇中 董良淼 +3 位作者 梁存桂 刘国忠 覃月凤 黄伊曼 《气象科技》 2024年第4期571-582,共12页
为改进传统“切片”式天气形势相似分析方法存在的不同切片相似结果不一致、预报稳定性欠佳问题,借鉴大数据思维,将天气系统视为一个由高中低层大气相互配合、静力热力动力条件相互影响的综合体,以多种气象要素再分析格点资料为基础,采... 为改进传统“切片”式天气形势相似分析方法存在的不同切片相似结果不一致、预报稳定性欠佳问题,借鉴大数据思维,将天气系统视为一个由高中低层大气相互配合、静力热力动力条件相互影响的综合体,以多种气象要素再分析格点资料为基础,采用机器学习PCA方法对原始数据进行降维、浓缩,经归一化处理后构建出适于综合天气相似分析的样本衍生特征因子矩阵;然后使用KNN算法计算样本间各特征维度的相似距离、并结合方差贡献率赋予其相应的权重,最终按综合相似距离大小排序给出目标样本在历史天气形势库中的综合最相似序列,从而实现对传统相似天气预报方法的升级改进。对比分析和测试应用表明,该方法可提供多要素、多层次“立体”综合相似下的一致性结论,有助于预报员更好地理解天气系统结构和演变过程、进而更准确地研判可能发生的相关天气现象,在精细化气象预报服务方面有良好的应用前景。在2023年以来的几次广西区域性极端降水气象预报服务中,该方法取得了较为显著的应用效果。 展开更多
关键词 数据驱动 相似距离 PCA降维 衍生特征 KNN
下载PDF
基于映射距离比离群因子的离群点检测算法
10
作者 张忠平 姚春辰 +3 位作者 孙光旭 刘硕 张睿博 魏永辉 《计算机集成制造系统》 EI CSCD 北大核心 2024年第5期1719-1732,共14页
针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似... 针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似度的概念,通过定义差异相似度剪枝因子过滤掉数据集中的大部分正常点。其次,定义映射k距离,通过映射距离与可达距离的比值刻画数据对象的局部离群程度,通过可达密度刻画数据对象的全局离群程度。最后,结合数据对象相互近邻点的平均排位定义映射距离比离群因子来检测离群点。在人工数据集以及真实数据集上分别对该算法与其他经典的离群点检测算法在精确率、AUC值和离群点发现曲线上进行实验对比分析。实验结果证明MDROF算法在离群点检测的准确性和稳定性上明显优于对比算法。 展开更多
关键词 数据挖掘 离群点检测 差异相似度剪枝 映射k距离 映射距离比
下载PDF
面向稀疏数据的协同过滤算法相似度
11
作者 赵文涛 冯婷婷 《计算机工程与设计》 北大核心 2024年第6期1728-1734,共7页
针对数据稀疏加剧导致传统相似度模型的推荐准确性低的问题,提出一种混合的协同过滤相似度模型。引入Jensen-Shannon(JS)散度作为基函数,利用全局评级概率分布衡量用户间评级偏好相似度。定义融合评级值的结构型相似度作为权重因子,针... 针对数据稀疏加剧导致传统相似度模型的推荐准确性低的问题,提出一种混合的协同过滤相似度模型。引入Jensen-Shannon(JS)散度作为基函数,利用全局评级概率分布衡量用户间评级偏好相似度。定义融合评级值的结构型相似度作为权重因子,针对用户的共同评级项目设计差异化的相似度计算方式,提高相似用户的区分度,得到基于相对区间跨度的相似度。在不同稀疏度数据集上与7种具有代表性的相似度方法进行对比实验,其结果表明了所提方法在预测和推荐准确性指标上均有良好性能。 展开更多
关键词 稀疏数据 协同过滤 相似度 散度 用户评级偏好 全局结构 相对区间跨度
下载PDF
面向密度分布不均数据的加权逆近邻密度峰值聚类算法
12
作者 吕莉 陈威 +2 位作者 肖人彬 韩龙哲 谭德坤 《智能系统学报》 CSCD 北大核心 2024年第1期165-175,共11页
针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首... 针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首先在局部密度公式中引入基于sigmoid函数的权重系数,增加稀疏区域样本的权重,结合逆近邻思想,重新定义了样本的局部密度,有效提升类簇中心的识别率;其次,引入改进的样本相似度策略,利用样本间的逆近邻及共享逆近邻信息,使得同一类簇样本间具有较高的相似度,可有效改善稀疏区域样本分配错误的问题。在密度分布不均、复杂形态和UCI数据集上的对比实验表明,本文算法的聚类效果优于IDPC-FA、FNDPC、FKNN-DPC、DPC和DPCSA算法。 展开更多
关键词 密度峰值聚类 密度分布不均 逆近邻 共享逆近邻 样本相似度 局部密度 分配策略 数据挖掘
下载PDF
基于面板数据模型的拱坝缺失数据填补方法 被引量:1
13
作者 崔欣然 石立 +3 位作者 陆希 顾昊 吴艳 朱明远 《水力发电学报》 CSCD 北大核心 2024年第3期94-107,共14页
混凝土拱坝作为重要的水工建筑物,由于监测设备故障、人为因素等影响,导致其监测数据频繁出现缺失的现象,降低了大坝安全评估与预测的有效性与准确性。传统方法多仅依赖单测点测值进行插补,忽略了测点之间的相关性与异质性。本文提出了... 混凝土拱坝作为重要的水工建筑物,由于监测设备故障、人为因素等影响,导致其监测数据频繁出现缺失的现象,降低了大坝安全评估与预测的有效性与准确性。传统方法多仅依赖单测点测值进行插补,忽略了测点之间的相关性与异质性。本文提出了一种基于面板数据模型的变形缺失数据插补方法。首先,改进传统变形相似性增量速度指标,解决了其分母可能等于零的问题。其次,提出了一种组合加权方法以计算变形相似性综合指标,并采用改进的基于密度聚类方法对变形监测点进行分类。随后,建立了面板模型,以填补不同区域内的缺失数据。本文提出的方法可以更准确地填补混凝土拱坝变形数据的缺失,从而能够有效地解决变形监测数据缺失的问题。 展开更多
关键词 缺失数据填补 变形相似性指标 聚类方法 面板数据模型 混凝土拱坝
下载PDF
多用户源头无线传感网络不完整数据挖掘算法
14
作者 左丽娜 刘小贞 +1 位作者 李伟杰 何首武 《传感技术学报》 CAS CSCD 北大核心 2024年第8期1454-1459,共6页
针对无线传感网络多用户源头数据受噪声影响,导致数据缺失的问题,为了提高数据的完整性,提出多用户源头无线传感网络不完整数据挖掘算法。采用组合广义形态滤波方法对多用户源头无线传感网络数据展开去噪处理,避免噪声数据影响数据填补... 针对无线传感网络多用户源头数据受噪声影响,导致数据缺失的问题,为了提高数据的完整性,提出多用户源头无线传感网络不完整数据挖掘算法。采用组合广义形态滤波方法对多用户源头无线传感网络数据展开去噪处理,避免噪声数据影响数据填补结果;采用集成学习方法对数据进行深度挖掘,将挖掘出的数据展开分类处理;利用低秩矩阵填充理论对分类后的数据展开首次填补,在此基础上引入曲线相似分类对缺失数据进行二次填补,完成多用户源头无线传感网络数据的完整挖掘。仿真结果表明,所提方法在不同数据集中获得的均方根误差低于0.164%,信噪比高于41.8dB,补全后的数据平均绝对误差为0.023%、平均百分比误差为3.5%、均方根误差为0.021%。因此,所提方法具有较好的去噪效果和较高的数据填补性能。 展开更多
关键词 无线传感网络 组合广义形态滤波方法 集成学习 曲线相似分类 数据挖掘
下载PDF
面向抽取式阅读理解的数据增强研究
15
作者 胡新荣 徐伟 +4 位作者 罗瑞奇 刘军平 朱强 杨捷 李立军 《软件导刊》 2024年第6期32-37,共6页
在抽取式阅读理解中,语言模型在训练数据较少情况下的表现不佳,使用EDA方法虽能有效增加数据量,但会造成数据中语义信息损失,导致模型训练效果不佳。针对上述问题,结合EDA提出面向少样本情况下抽取式阅读理解的数据增强方法,在保留数据... 在抽取式阅读理解中,语言模型在训练数据较少情况下的表现不佳,使用EDA方法虽能有效增加数据量,但会造成数据中语义信息损失,导致模型训练效果不佳。针对上述问题,结合EDA提出面向少样本情况下抽取式阅读理解的数据增强方法,在保留数据中问题正确答案的前提下对数据进行单词级和句子级数据增强。同时,为了对句子语义影响最小的单词进行数据增强,使用基于语义相似度的数据增强方法(DASS)计算句子中某一个单词删除前后的语义相似度,以判断该单词对句子语义的影响,选择对语义影响最小的单词进行数据增强,提升训练数据质量,以提升语言模型鲁棒性。在HotpotQA数据集上的实验结果表明,DASS可以解决模型在样本数量较少时获取语义信息不足的问题,在样本数量为500时,模型预测的F1值提升23.94%,在对整个数据集使用该方法时,模型预测的F1值提升了2.54%。 展开更多
关键词 抽取式阅读理解 EDA 数据增强 语义相似度 机器阅读理解
下载PDF
决策树算法在船舶自主巡航数据消冗中的应用
16
作者 生力军 陈施奇 《舰船科学技术》 北大核心 2024年第12期157-161,共5页
船舶在进行智能化管理和航行时,需依据可靠的自主巡航数据完成,将大量的传感器数据和监测信息作为输入,以便系统能够作出正确的决策。然而,这些数据可能存在冗余信息干扰,影响着智能决策系统的可靠性,因此研究决策树算法在船舶自主巡航... 船舶在进行智能化管理和航行时,需依据可靠的自主巡航数据完成,将大量的传感器数据和监测信息作为输入,以便系统能够作出正确的决策。然而,这些数据可能存在冗余信息干扰,影响着智能决策系统的可靠性,因此研究决策树算法在船舶自主巡航数据消冗中的应用。采用滤波、插值以及混合式时序数据生成的方式,进行船舶自主巡航数据的时序处理,生成规范的船舶自主巡航时序数据;依据处理后的数据生成决策树,划分船舶自主巡航数据类别;通过计算同类间数据相似度,并设计消除器,实现船舶自主巡航数据消冗处理,获取没有冗余的巡航数据。测试结果显示,该算法的数据时序处理效果较好,可以完成不同数据类别之间的划分,同时能够计算同类数据之间的相似度,最大空间缩减比为27.8%。 展开更多
关键词 决策树算法 船舶自主巡航 数据消冗 时序数据 数据相似度 数据分类
下载PDF
基于质谱熵的小分子化合物相似性计算方法研究
17
作者 吴丽萍 向诚 +1 位作者 张海强 李勇 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期115-124,共10页
在二级质谱(MS2)数据检索中,通常利用质谱数据之间的相似性进行检索。针对质谱数据相似性计算中数据不整齐导致的检索效率和准确性不高以及商用软件相似性计算方法单一的问题,研究提出了“拼接填充”与“匹配填充”两种MS2数据对齐方法... 在二级质谱(MS2)数据检索中,通常利用质谱数据之间的相似性进行检索。针对质谱数据相似性计算中数据不整齐导致的检索效率和准确性不高以及商用软件相似性计算方法单一的问题,研究提出了“拼接填充”与“匹配填充”两种MS2数据对齐方法,并基于信息熵采用质谱熵相似性计算方法进行相似性检索。首先对归一化后的原始质谱数据进行特征提取,保留能突出质谱数据特征的数据,再分别采用两种数据对齐方法对质谱数据进行预处理;然后基于信息熵方法,分别计算未知质谱与已知质谱混合后的虚拟质谱与两者质谱的熵差,获得未知质谱与已知质谱的相关系数即相似性;最后选择小分子化合物的质谱数据集进行实例验证。结果表明:两种质谱数据预处理方法能够解决相似性计算中质谱长度不等的问题,基于质谱熵的相似性计算方法稳定且结果可靠,适用于小分子化合物的相似性检索,同时也为商用软件的谱图相似性计算提供了新的方案。 展开更多
关键词 小分子化合物 相似性计算 二级质谱数据 信息熵 质谱熵
下载PDF
基于孤立森林的多离群点数据检测算法设计 被引量:1
18
作者 李加军 《现代电子技术》 北大核心 2024年第5期139-142,共4页
精准找出异常离群数据有利于确保大规模数据在应用中的精确度,为此,设计了基于孤立森林的多离群点数据检测算法。首先,采用近似符号聚合算法处理大规模数据的多条件时间序列,再通过计算欧氏距离分析多条件时间序列的相似度,而后采用加... 精准找出异常离群数据有利于确保大规模数据在应用中的精确度,为此,设计了基于孤立森林的多离群点数据检测算法。首先,采用近似符号聚合算法处理大规模数据的多条件时间序列,再通过计算欧氏距离分析多条件时间序列的相似度,而后采用加权调整法调整相似曲线,剔除其中的异常数据,完成对大规模数据的清洗;利用清洗后的数据构建孤立树形成孤立森林,将待检测数据作为孤立森林的输入量,通过计算数据样本点到每棵树根节点的距离,实现对离群点数据的检测。实验结果表明:该算法能够有效地检测出离群点数据,在针对大规模数据离群点的检测时,检测结果精确度较高。 展开更多
关键词 孤立树 孤立森林 离群点 大规模数据 异常检测 相似度测量 数据清洗 时间序列
下载PDF
基于频繁序列挖掘的出租车轨迹特性分析
19
作者 龙雪琴 王晗 王瑞璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期24-33,共10页
为进一步厘清不同出租车路径选择行为的差异性,采用频繁序列挖掘方法提取了同一个OD对间的频繁路径,构建路径选择集,分别从静态和动态两个角度分析路径集的相似特性。以西安市出租车的轨迹数据为研究对象,通过栅格划分与路网匹配,获得... 为进一步厘清不同出租车路径选择行为的差异性,采用频繁序列挖掘方法提取了同一个OD对间的频繁路径,构建路径选择集,分别从静态和动态两个角度分析路径集的相似特性。以西安市出租车的轨迹数据为研究对象,通过栅格划分与路网匹配,获得了不同OD对之间的路径集合。重新定义了频繁路径,采用PrefixSpan演变算法,在得到频繁子序列的基础上引入动态阈值和频繁度指标挖掘频繁路径,提取了最短路径和其他路径,完成了3类有效路径集的构建,并分析了路径集的一般属性。其后,将路径上二维时间序列(轨迹)间的相似度表示为动态相似度,将一维有向序列(路段)间的相似度表示为静态相似度,基于改进的最长公共子序列和动态时间规整算法对3类路径进行了相似性分析。结果表明:频繁路径与最短路径的相似度较高,意味着大多数出租车仍然选择具有最低出行时间的路段,但不一定会选择最短路径;时间和距离仍是出行者选择路径时主要考虑的因素,但出行者并不完全追求时间最短或距离最短;试验得到的动态相似度计算结果显著高于静态相似度计算结果,说明路径上的二维时序相似度高于一维形状相似度;两种方法下频繁路径和最短路径的相似度均最高,最短路径和其他路径的相似度均最低,比较结果的一致性说明可以用动态轨迹的相似度来大致度量静态路径的相似度。文中的频繁路径挖掘算法具有一定的可靠性,可为城市交通管理者进行路径推荐、道路规划等提供支持。 展开更多
关键词 交通运输工程 轨迹数据 频繁序列挖掘 路径选择集 相似特性分析
下载PDF
基于时空金字塔匹配的轨迹相似度算法
20
作者 李莉 王克斌 +2 位作者 黄亮 吕金娜 邢春玉 《控制工程》 CSCD 北大核心 2024年第4期583-590,共8页
轨迹相似性度量是轨迹数据挖掘的基础问题。受设备型号、信号强度和周围环境的影响,轨迹数据具有噪声大、数据量大、采样不均匀等特征,给轨迹相似性度量带来了极大的挑战。因此,提出了基于时空金字塔匹配的轨迹相似度算法,通过在时间和... 轨迹相似性度量是轨迹数据挖掘的基础问题。受设备型号、信号强度和周围环境的影响,轨迹数据具有噪声大、数据量大、采样不均匀等特征,给轨迹相似性度量带来了极大的挑战。因此,提出了基于时空金字塔匹配的轨迹相似度算法,通过在时间和空间维度上对轨迹进行不同粒度的划分,然后利用不同粒度的权重组合来衡量轨迹之间的相似性。该算法能够有效克服轨迹噪声的影响,同时兼顾了轨迹的时间特性和空间特性,并具有较低的计算复杂度。最后,利用真实的信令数据集和人工合成的全球定位系统数据集进行实验,实验结果证明了该算法在准确率和计算复杂度方面都优于目前的主流算法。 展开更多
关键词 轨迹 时空数据 相似度 金字塔匹配
下载PDF
上一页 1 2 71 下一页 到第
使用帮助 返回顶部