期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于类区分度的高维不平衡特征选择算法 被引量:2
1
作者 杨杰明 高聪 +3 位作者 曲朝阳 刘鹏 陈宇阳 赵才博 《科技通报》 2019年第1期218-223,共6页
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行... 传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。 展开更多
关键词 特征选择 类区分度 高维不平衡数据 特征冗余
下载PDF
基于类间区分度的属性约简方法 被引量:1
2
作者 饶亚 贾修一 +1 位作者 李同军 商琳 《计算机科学与探索》 CSCD 北大核心 2019年第8期1422-1430,共9页
属性约简是粗糙集理论中最重要的研究问题之一。近年来,粗糙集理论下的属性约简问题引发了学者们广泛的关注。然而,大多数属性约简方法都是基于不可分辨或可分辨关系所提出的,属性约简的性能仅仅取决于等价类或近似集的变化,却忽略了不... 属性约简是粗糙集理论中最重要的研究问题之一。近年来,粗糙集理论下的属性约简问题引发了学者们广泛的关注。然而,大多数属性约简方法都是基于不可分辨或可分辨关系所提出的,属性约简的性能仅仅取决于等价类或近似集的变化,却忽略了不具有等价关系的对象所在的不同类簇间关系的变化情况。因此,引入了类间区分度的概念,相较于等价类和上下近似集而言,它可以反映类簇区分程度随属性变化而变化的情况。对类间重合度和类间区分度进行了解释及定义,并结合启发式搜索策略,提出了一种基于类间区分度的属性约简方法,实验验证了所提方法的有效性。 展开更多
关键词 属性约简 粗糙集理论 间重合 区分
下载PDF
一种大规模高维数据快速聚类算法 被引量:18
3
作者 刘铭 王晓龙 刘远超 《自动化学报》 EI CSCD 北大核心 2009年第7期859-866,共8页
提出了一种面向大规模高维数据的自组织映射聚类算法.算法通过压缩神经元的特征集合,仅选择与神经元代表的文档类相关的特征构造神经元的特征向量,从而减少了聚类时间.同时由于选取的特征能够将映射到不同神经元的文档类进行有效区分,... 提出了一种面向大规模高维数据的自组织映射聚类算法.算法通过压缩神经元的特征集合,仅选择与神经元代表的文档类相关的特征构造神经元的特征向量,从而减少了聚类时间.同时由于选取的特征能够将映射到不同神经元的文档类进行有效区分,避免了无关特征的干扰,因而提升了聚类的精度.实验结果表明该方法能够有效加快聚类的速度,提升聚类的准确度,达到比较理想的聚类效果. 展开更多
关键词 向量压缩 神经元合并 内相似 区分
下载PDF
文本分类中一种改进的特征项权重计算方法 被引量:5
4
作者 张琳 李朝辉 《福建师范大学学报(自然科学版)》 CAS 北大核心 2020年第2期49-54,共6页
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡... TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的. 展开更多
关键词 TF-IDF 区分 内贡献 文本分
下载PDF
基于随机森林的电网GIS数据分布式存储方法
5
作者 杨秋勇 王建欣 +1 位作者 符飞虎 罗政 《电子设计工程》 2024年第17期27-30,35,共5页
内部电网地理信息系统(Geographic Information Systern,GIS)数据体量增加,对电网数据存储性能造成了极大的困难,为此,提出一种基于随机森林的电网GIS数据分布式存储方法。以跨域资源共享(Cross-Origin Resource Sharing,CORS)技术在电... 内部电网地理信息系统(Geographic Information Systern,GIS)数据体量增加,对电网数据存储性能造成了极大的困难,为此,提出一种基于随机森林的电网GIS数据分布式存储方法。以跨域资源共享(Cross-Origin Resource Sharing,CORS)技术在电网GIS空间信息服务平台中获取的电网GIS数据为基础,根据类区分度数值选择电网GIS数据特征,引入随机森林算法分类处理电网GIS数据,将其合理分发给不同的服务器,采用并行处理手段存储分类数据,从而实现了电网GIS数据的分布式存储。实验数据显示:应用所提方法后,电网GIS数据分类精度达到了96.8%,电网GIS数据分布式存储时间最小值为5.2 s,充分证实了所提方法数据存储性能更佳。 展开更多
关键词 数据分 电网GIS数据 并行处理 分布式存储 随机森林算法 类区分度
下载PDF
一种基于时频原子特征的雷达辐射源信号识别方法 被引量:12
6
作者 王希勤 刘婧瑶 +1 位作者 孟华东 刘一民 《红外与毫米波学报》 SCIE EI CAS CSCD 北大核心 2011年第6期566-570,共5页
提出了一种全新的基于时频原子特征的雷达辐射源信号识别方法.训练阶段,在过完备时频原子库的基础上,以类区分度为度量,提取少数最能区分不同类别信号的时频原子作为一组固定的特征;识别阶段,以原子和信号的内积的绝对值作为分类器的输... 提出了一种全新的基于时频原子特征的雷达辐射源信号识别方法.训练阶段,在过完备时频原子库的基础上,以类区分度为度量,提取少数最能区分不同类别信号的时频原子作为一组固定的特征;识别阶段,以原子和信号的内积的绝对值作为分类器的输入特征,采用有监督模糊自适应共振网络进行辐射源的自动识别.对5类典型雷达辐射源信号的实验结果表明,该方法大大减小了识别过程中特征提取的计算量,输入特征具有类内聚集性强、类间区分度大的特点,在信噪比大于3 dB时可以获得高的识别正确率. 展开更多
关键词 雷达辐射源 特征提取 时频原子 类区分度 模糊自适应共振网络
下载PDF
一种新的鲁棒声纹特征提取与融合方法 被引量:1
7
作者 罗元 孙龙 《计算机科学》 CSCD 北大核心 2016年第8期297-299,317,共4页
为提高说话人确认系统在噪声环境下的鲁棒性,在利用听觉外周模型改进Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的基础上,结合感知线性预测系数(Perceptual Linear Predictive Coefficient,PLPC),以类间区分度为依据,... 为提高说话人确认系统在噪声环境下的鲁棒性,在利用听觉外周模型改进Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的基础上,结合感知线性预测系数(Perceptual Linear Predictive Coefficient,PLPC),以类间区分度为依据,在特征域对两种声纹特征进行融合,提出一种新的声纹特征提取方法,并对基于该特征的说话人确认系统的噪声鲁棒性进行研究。针对不同信噪比的语音信号进行了融合特征与原始特征的对比实验,结果表明,融合特征在模拟餐厅噪声环境中的错误率更低,较MFCC与PLPC分别降低了2.2%和3.1%,说话人确认系统在噪声中的鲁棒性得到提升。 展开更多
关键词 Gammatone特征参数 感知线性预测 区分 特征融合 鲁棒性 说话人确认
下载PDF
一种改进的ID3算法 被引量:1
8
作者 庄卿卿 《现代计算机》 2009年第5期43-46,共4页
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支... 决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。 展开更多
关键词 决策树 属性 属性的类区分度
下载PDF
A Scheme of Vegetation Classification of Taiwan, China 被引量:2
9
作者 宋永昌 徐国士 《Acta Botanica Sinica》 CSCD 2003年第8期883-895,共13页
The complexity of natural conditions leads to the complexity of vegetation types of Taiwan of China, which has both tropical and cold-temperate vegetation types, and could be depicted as the vegetation miniature of Ch... The complexity of natural conditions leads to the complexity of vegetation types of Taiwan of China, which has both tropical and cold-temperate vegetation types, and could be depicted as the vegetation miniature of China or even for the world. The physiognomic-floristic principle was adopted for the vegetation classification of Taiwan. The units of rank from top to bottom are: class of vegetation-type, order of vegetation-type, vegetation-type, alliance group, alliance and association. The high-rank units (class, order and vegetation-type) are classified by ecological physiognomy, while the median and lower units by the species composition of community. At the same time the role of dominant species and character species will also be considered. The dominant species are the major factor concerned with the median ranks (alliance group, and alliance) because they are the chief components of community, additionally their remarkable appearance is easy to identify; the character species (or diagnostic species) are for relatively low ranks (association) because they will clearly show the interspecies relation-ship and the characteristics of community. According to this principle, vegetation of Taiwan is classi-fied into five classes of vegetation-types (forests, thickets, herbaceous vegetation, rock fields vegetation, swamps and aquatic vegetation), 29 orders of vegetation-types (cold-temperate needle-leaved forests, cool-temperate needle-leaved forests, warm-temperate needle-leaved forests, warm needle-leaved forests, deciduous broad-leaved forests, mixed evergreen and deciduous broad-leaved forests, evergreen mossy forests, evergreen sclerophyllous forests, evergreen broad-leaved forests, tropical rain forests, tropical monsoon forests, coastal forests, warm bamboo forests, evergreen needle-leaved thickets, sclerophyllous thickets, deciduous broad-leaved thickets, evergreen broad-leaved thickets, xerothermic thorn-succulent thickets, bamboo thickets, meadows, sparse shrub grasslands, savannahic grasslands, sparse scree communities, chasmophytic vegetation, woody swamps, herbaceous swamps, moss bogs, fresh water aquatic vegetation, salt water aquatic vegetation) and 53 vegetation-types. The main alliances of each vegetation-type are described. 展开更多
关键词 vegetation classification physiognomic-floristic principal physiognomic approach dominance-types Braun-Blanquet approach TAIWAN
下载PDF
基于组合平均差异系数的粮食种子识别 被引量:1
10
作者 洪亮 《红外与激光工程》 EI CSCD 北大核心 2014年第4期1344-1351,共8页
植物种子图形是典型的具有一定对称性的准凸边界平面图形,发展对其简单而快速的识别方法有实际意义。利用图形的伪最小外接矩形及形心提取其8个形状特征参数。提出"形状差异系数"的概念并据此实现了多特征图形对象间相似性的... 植物种子图形是典型的具有一定对称性的准凸边界平面图形,发展对其简单而快速的识别方法有实际意义。利用图形的伪最小外接矩形及形心提取其8个形状特征参数。提出"形状差异系数"的概念并据此实现了多特征图形对象间相似性的度量。提出"对内形状差异系数"的概念并据此发展了多特征图形对象"二选一"的识别方法。提出"组合平均差异系数"的概念并据此发展了多特征图形对象"多选一"的识别方法。用大米等种子的识别实验验证了该方法的有效性。 展开更多
关键词 伪最小外接矩形 图形对象 区分 形状差异系数 组合平均差异系数 pseudo minimum bounding rectangle(PMBR) COEFFICIENT of SHAPE DIFFERENCE ( COSD ) mean of combination COEFFICIENT of SHAPE difference(MOCCOSD)
下载PDF
A heuristic clustering algorithm based on high density-connected partitions
11
作者 Yuan Lufeng Yao Erlin Tan Guangming 《High Technology Letters》 EI CAS 2018年第2期149-155,共7页
Clustering data with varying densities and complicated structures is important,while many existing clustering algorithms face difficulties for this problem. The reason is that varying densities and complicated structu... Clustering data with varying densities and complicated structures is important,while many existing clustering algorithms face difficulties for this problem. The reason is that varying densities and complicated structure make single algorithms perform badly for different parts of data. More intensive parts are assumed to have more information probably,an algorithm clustering from high density part is proposed,which begins from a tiny distance to find the highest density-connected partition and form corresponding super cores,then distance is iteratively increased by a global heuristic method to cluster parts with different densities. Mean of silhouette coefficient indicates the cluster performance. Denoising function is implemented to eliminate influence of noise and outliers. Many challenging experiments indicate that the algorithm has good performance on data with widely varying densities and extremely complex structures. It decides the optimal number of clusters automatically.Background knowledge is not needed and parameters tuning is easy. It is robust against noise and outliers. 展开更多
关键词 heuristic clustering density-based spatial clustering of applications with noise( DBSCAN) density-based clustering agglomerative clustering machine learning high density-connected partitions optimal clustering number
下载PDF
AN IMPROVED GN ALGORITHM OF NETWORK COMMUNITY DETECTION METHOD
12
作者 WU Guodong SONG Fugen 《International English Education Research》 2017年第4期75-77,共3页
.GN algorithm has high classification accuracy on community detection, but its time complexity is too high. In large scale network, the algorithm is lack of practical values. This paper puts forward an improved GN alg... .GN algorithm has high classification accuracy on community detection, but its time complexity is too high. In large scale network, the algorithm is lack of practical values. This paper puts forward an improved GN algorithm. The algorithm firstly get the network center nodes set, then use the shortest paths between center nodes and other nodes to calculate the edge betweenness, and then use incremental module degree as the algorithm terminates standard. Experiments show that, the new algorithm not only ensures accuracy of network community division, but also greatly reduced the time complexity, and improves the efficiency of community division. 展开更多
关键词 Complex network Community detection Center node Improved GN algorithm
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部