期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于自然最近邻的不平衡数据欠采样方法 被引量:1
1
作者 孟东霞 魏晓光 柳凌燕 《统计与决策》 北大核心 2023年第15期52-56,共5页
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的... 针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。 展开更多
关键词 不平衡数据集 欠采样 自然最近邻
下载PDF
基于k近邻中心偏移因子的欠采样方法
2
作者 孟东霞 谢林燕 《统计与决策》 北大核心 2023年第12期40-44,共5页
针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏... 针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏移因子来表示。中心偏移因子的值反映了样本周围的局部密度,数值较小的因子代表样本及其近邻处于密集区域,或近邻在样本的同一侧密集分布,样本可能为冗余样本。为了在不改变原始数据分布的前提下尽可能地删除冗余度较高的多数类样本,首先,移除多数类样本中的噪声点,计算多数类样本的中心偏移因子;然后,将多数类样本按照偏移因子的数值从低到高排序;最后,通过比较样本与k近邻的中心偏移因子来删除部分多数类样本,使数据集趋于平衡。实验使用支持向量机对多种欠采样方法平衡后的14个数据集进行了分类,实验结果表明,所提方法在大多数数据集上表现较优,有效提高了少数类的分类精度。 展开更多
关键词 不平衡数据集 欠采样 K近邻 中心偏移因子
下载PDF
基于特征边界欠采样的不平衡数据处理方法 被引量:7
3
作者 孟东霞 李玉鑑 《统计与决策》 CSSCI 北大核心 2021年第11期30-33,共4页
针对实际应用中不平衡数据集分类效果较差的问题,文章提出一种基于特征边界信息进行欠采样的数据处理方法。所提方法根据特征边界点的定义获得多数类样本中可构造特征边界的数据点,其分布在最优非线性分类决策面附近,通常包含重要的分... 针对实际应用中不平衡数据集分类效果较差的问题,文章提出一种基于特征边界信息进行欠采样的数据处理方法。所提方法根据特征边界点的定义获得多数类样本中可构造特征边界的数据点,其分布在最优非线性分类决策面附近,通常包含重要的分类信息,在欠采样时应进行保留,其他多数类样本远离分类决策面,在分类中易于识别,可在聚类后选取部分样本和少数类样本构成平衡数据集。该方法保留了多数类样本的几何分布特征,降低了样本的信息流失率。对比实验利用支持向量机进行分类,实验结果表明该方法有利于提高不平衡数据中少数类的分类精度,验证了算法的有效性。 展开更多
关键词 平衡数据集 欠采样 特征边界 聚类
下载PDF
利用自然最近邻的不平衡数据过采样方法 被引量:2
4
作者 孟东霞 李玉鑑 《计算机工程与应用》 CSCD 北大核心 2021年第2期91-96,共6页
针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法。确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度。基于自然近邻关系对少... 针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法。确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度。基于自然近邻关系对少数类样本聚类,由位于同一类簇中密集区域的核心点和稀疏区域的非核心点生成新样本。在二维合成数据集和UCI数据集上的对比实验验证了该方法的可行性和有效性,提高了不平衡数据的分类精度。 展开更多
关键词 不平衡数据集 过采样 自然最近邻 聚类
下载PDF
基于电信大数据的流动人口数据特征分析 被引量:3
5
作者 孟东霞 陈刚 许美玲 《中国新通信》 2016年第19期109-109,共1页
我国流动人口呈现出规模持续扩大,人口结构日益复杂化的趋势,但是目前的流动人口统计方法明显滞后,不能满足各级政府和社会各界对流动人口数据的需求,亟待结合大数据分析方法进行改进。而随着智能手机等移动终端的普及,电信运营商获取... 我国流动人口呈现出规模持续扩大,人口结构日益复杂化的趋势,但是目前的流动人口统计方法明显滞后,不能满足各级政府和社会各界对流动人口数据的需求,亟待结合大数据分析方法进行改进。而随着智能手机等移动终端的普及,电信运营商获取了用户身份、通讯记录、地理位置等海量客观数据,本文将结合电信运营商获取的数据信息分析流动人口所表现出的数据特征,为统计流动人口提供判定思路。 展开更多
关键词 电信大数据 流动人口 价值分析 判定
下载PDF
基于电信大数据的流入人口统计研究 被引量:1
6
作者 孟东霞 何志强 安英博 《无线互联科技》 2016年第19期111-112,共2页
电信运营商在为移动客户提供业务服务的同时,积累了用户在身份信息、位置变化信息和消费行为等方面的海量数据,客观反映出特定人群,特别是流动人口的数据变化规律,在流动人口的短周期统计、快速监测等方面提供了较为准确的判定依据。文... 电信运营商在为移动客户提供业务服务的同时,积累了用户在身份信息、位置变化信息和消费行为等方面的海量数据,客观反映出特定人群,特别是流动人口的数据变化规律,在流动人口的短周期统计、快速监测等方面提供了较为准确的判定依据。文章将基于电信部门获取的数据内容,结合大数据处理平台和数据挖掘技术确立某一地区中流入人口的统计研究思路。 展开更多
关键词 流动人口 电信数据 HADOOP 数据挖掘
下载PDF
非电类专业“微型计算机原理及应用”的教学改革 被引量:1
7
作者 孟东霞 《太原理工大学学报(社会科学版)》 2001年第B12期71-72,共2页
根据教育部对工科非计算机专业学生应掌握的计算机硬件技术基础要求,结合具体教学实践,介绍了在非电类专业进行"微型计算机原理及应用"课程教学实践中形成的一系列关于教学内容和教学方法等改革方面的体会和做法。
关键词 微机原理 非电类专业 教学改革
下载PDF
一种改进的基于EASI的语音分离算法
8
作者 孟东霞 马建芬 乔永凤 《计算机工程与应用》 CSCD 北大核心 2007年第33期214-216,共3页
独立分量分析是近年来发展起来的一门新的数字信号处理方法,因为不需要知道信号的先验信息而得到广泛应用。论文简单介绍了ICA的原理及EASI算法,并根据神经网络理论提出一种改进的EASI语音分离算法。
关键词 语音分离 独立分量分析 EASI算法 神经网络
下载PDF
融合特征边界信息的不平衡数据过采样方法
9
作者 孟东霞 李玉鑑 《计算机工程与应用》 CSCD 北大核心 2020年第14期156-160,共5页
针对实际应用中存在的数据集分布不平衡的问题,提出一种融合特征边界数据信息的过采样方法。去除数据集中的噪声点,基于少数类样本点的多类近邻集合,融合特征边界的几何分布信息获得有利于定义最优非线性分类边界的少数类样本点,通过其... 针对实际应用中存在的数据集分布不平衡的问题,提出一种融合特征边界数据信息的过采样方法。去除数据集中的噪声点,基于少数类样本点的多类近邻集合,融合特征边界的几何分布信息获得有利于定义最优非线性分类边界的少数类样本点,通过其与所属类簇的结合生成新样本。对不平衡数据集采用多种过采样技术处理后,利用支持向量机进行分类,对比实验表明所提方法有效改善了不平衡数据的分类精度,验证了算法的有效性。 展开更多
关键词 不平衡数据集 分类 过采样 特征边界
下载PDF
新形势下基于大数据视角的思想宣传工作研究
10
作者 孟东霞 戎杰 王柳 《纳税》 2018年第14期149-149,151,共2页
宣传思想是意识形态领域里的工作重点,也是新形势下决定文化前进方向和社会发展道路的关键,其工作对象是来自社会不同群体的群众,在年龄、学历、专业、地区等方面的特征千差万别。本文将结合大数据技术针对以上问题进行研究,在思想宣传... 宣传思想是意识形态领域里的工作重点,也是新形势下决定文化前进方向和社会发展道路的关键,其工作对象是来自社会不同群体的群众,在年龄、学历、专业、地区等方面的特征千差万别。本文将结合大数据技术针对以上问题进行研究,在思想宣传工作手段、舆情预测及引导、宣传效果评估三方面进行方式和方法的创新,使得思想宣传工作能在真正掌握群众的思想现状、明确群众的精神需求和了解群众的基本诉求的基础上,实现主流意识形态的自然融入。 展开更多
关键词 大数据 思想宣传 互联网思维 舆情
下载PDF
大连市主要行道绿化树种固碳释氧功能研究 被引量:40
11
作者 陆贵巧 尹兆芳 +3 位作者 谷建才 孟东霞 武会欣 李永杰 《河北农业大学学报》 CAS CSCD 北大核心 2006年第6期49-51,共3页
为今后行道树绿化结构及功能研究奠定基础,从城市生态角度出发,采用LI-6400红外气体分析仪,实测大连市内几种常见绿化树木的净光合速率,计算其在不同月份吸收二氧化碳和释放氧气的能力。结果表明:各树种日固碳释氧能力表现为夏季>秋... 为今后行道树绿化结构及功能研究奠定基础,从城市生态角度出发,采用LI-6400红外气体分析仪,实测大连市内几种常见绿化树木的净光合速率,计算其在不同月份吸收二氧化碳和释放氧气的能力。结果表明:各树种日固碳释氧能力表现为夏季>秋季>春季,在乔木树种中,日固碳释氧能力的排列顺序为榆树>白桦>元宝枫>雪松>杜仲>国槐;灌木树种中,日固碳释氧能力的排列顺序为碧桃>连翘>榆叶梅>大叶黄杨。 展开更多
关键词 绿化树种 净光合速率 固碳释氧
下载PDF
高校网络舆情监控预警系统的设计与构建
12
作者 孟东霞 柳凌燕 《无线互联科技》 2014年第4期65-65,共1页
针对高校传统舆情监控与预警手段的不足,本文设计构建了一个基于中文信息处理与挖掘技术的高校网络舆情监控预警系统,系统结合相关技术实现了互联网信息的采集、识别分析、热点推送与预警功能,为高校监测和解决公共危机和热点事件提供... 针对高校传统舆情监控与预警手段的不足,本文设计构建了一个基于中文信息处理与挖掘技术的高校网络舆情监控预警系统,系统结合相关技术实现了互联网信息的采集、识别分析、热点推送与预警功能,为高校监测和解决公共危机和热点事件提供了技术手段。 展开更多
关键词 高校舆情 监控 信息挖掘
下载PDF
水分胁迫对不同根型小麦幼苗水分利用率和导水率的影响 被引量:9
13
作者 柳斌辉 孟东霞 +2 位作者 刘子会 郭秀林 李广敏 《华北农学报》 CSCD 北大核心 2007年第2期90-94,共5页
以旱地小麦晋麦47和高水肥小麦石4185为试材,比较分析了充分供水和模拟干旱胁迫条件下小麦幼苗水分利用效率(WUE)和根系导水率(Lpr)的差异。结果表明:正常供水条件下,晋麦47单株耗水量、根系干质量和单株干质量皆低于石4185,但根系水分... 以旱地小麦晋麦47和高水肥小麦石4185为试材,比较分析了充分供水和模拟干旱胁迫条件下小麦幼苗水分利用效率(WUE)和根系导水率(Lpr)的差异。结果表明:正常供水条件下,晋麦47单株耗水量、根系干质量和单株干质量皆低于石4185,但根系水分利用率(WUEr)、茎叶水分利用率(WUEs)、单株水分利用率(WUE)以及根系导水率均高于石4185。轻度干旱胁迫下,石4185根系干质量稍有增加,晋麦47变化不明显,两者单株干质量均降低;两品种根系、茎叶和单株水分利用效率均显著提高,石4185根系水分利用效率反而高于晋麦47;但两品种根系导水率呈显著下降趋势,晋麦47下降幅度大于石4185并最终低于石4185。以上说明:水分充足条件下,晋麦47表现出“奢侈”利用水分,干旱条件下,表现出以降低水分消耗而维持地上部生长的耐旱节水机制;石4185在水分充足条件下耗水量大,表现出水地品种特点,胁迫条件下,水分利用率均升高且根系水分利用率升高相对更大,体现出干旱胁迫下依赖根系进一步发展增大吸收水分表面积来适应缺水环境。两者相比较,体现了不同根型小麦品种根系在干旱胁迫调节中的重要性和差异性。 展开更多
关键词 水分胁迫 冬小麦 水分利用效率 根系导水率
下载PDF
构建信息技术平台 推进企业信息化发展
14
作者 孟东霞 《山西统计》 2002年第2期35-35,37,共2页
关键词 信息技术平台 企业信息化 信息资源共享 局域网信息平台 开发利用 企业信息网络平台 数据库信息平台
下载PDF
基于C/S和B/S模式的旅客列车管理信息系统
15
作者 孟东霞 《电脑开发与应用》 2003年第5期42-42,共1页
关键词 B/S模式 C/S模式 旅客列车 管理信息系统 铁路列车
下载PDF
基于全球气候变化谈判的森林碳汇研究 被引量:16
16
作者 张维成 田佳 +2 位作者 王冬梅 丁国栋 孟东霞 《林业调查规划》 2007年第5期18-22,共5页
为进一步了解森林生态系统的碳汇功能和国际气候谈判,通过查阅资料,对全球气候变化以及CO2的温室效应、气候谈判的现状、实质以及主要发达国家温室气体的减排动态进行了简单的总结。就森林生态系统的碳汇潜力,碳汇作用的非持久性问题进... 为进一步了解森林生态系统的碳汇功能和国际气候谈判,通过查阅资料,对全球气候变化以及CO2的温室效应、气候谈判的现状、实质以及主要发达国家温室气体的减排动态进行了简单的总结。就森林生态系统的碳汇潜力,碳汇作用的非持久性问题进行了探讨。综述了不同时期森林生态系统碳汇研究的成果以及国际森林碳汇项目的动态。分析了森林碳汇项目实施过程中存在的主要问题,并提出我国在国际气候谈判、温室气体减排和造林、再造林等林业碳汇项目中应采取积极立场和应对措施。 展开更多
关键词 气候变化 气候谈判 森林碳汇 生态税
下载PDF
534例抗菌药不良反应分析 被引量:7
17
作者 张建丰 孟东霞 李旭梅 《药物流行病学杂志》 CAS 2013年第6期304-307,共4页
目的:分析抗菌药不良反应(ADR)发生特点,为临床安全用药提供参考。方法:采用回顾性研究方法,统计分析2012年嘉兴市部分医院上报的534例抗菌药ADR病例报告。结果:534例报告共涉及抗菌药12大类51个品种;病例中幼儿的所占比例最大(26.97%)... 目的:分析抗菌药不良反应(ADR)发生特点,为临床安全用药提供参考。方法:采用回顾性研究方法,统计分析2012年嘉兴市部分医院上报的534例抗菌药ADR病例报告。结果:534例报告共涉及抗菌药12大类51个品种;病例中幼儿的所占比例最大(26.97%);涉及药品以头孢菌素类所占比例最高(48.31%);ADR累及系统(器官)以皮肤及其附件受损(63.42%)为主;β-内酰胺类是引起严重ADR的主要抗菌药。结论:应重视抗菌药合理使用,减少和避免ADR的发生,确保临床用药安全。 展开更多
关键词 抗菌药 药品不良反应 安全用药
下载PDF
不同森林类型物种多样性及影响因子研究 被引量:5
18
作者 李校 耿凤梅 +5 位作者 孟东霞 杜鸿云 时君伟 徐国巧 王雄宾 李永杰 《河北林果研究》 2007年第2期130-133,共4页
采用丰富度指数、多样性指数、均匀度指数对雾灵山不同森林类型灌木层和草本层的物种多样性进行了研究,并在此基础上用逐步回归方法研究影响森林物种多样性的主要因子。结果表明,在不同森林类型中灌木层和草本层物种多样性由高到低依次... 采用丰富度指数、多样性指数、均匀度指数对雾灵山不同森林类型灌木层和草本层的物种多样性进行了研究,并在此基础上用逐步回归方法研究影响森林物种多样性的主要因子。结果表明,在不同森林类型中灌木层和草本层物种多样性由高到低依次为:针阔混交林>落叶阔叶林>针叶林;多数森林类型草本层丰富度指数和多样性指数均高于灌木层,而均匀度指数则相反。影响灌木层物种多样性的主要因子包括林龄、郁闭度和坡向,影响草本层物种多样性的主要因子包括林分公顷株数、郁闭度和土层厚度。 展开更多
关键词 雾灵山 不同森林类型 物种多样性 影响因子
下载PDF
北京市不同环境功能区绿化树种选择与配置的探讨 被引量:2
19
作者 李永杰 王浮霞 +5 位作者 陆贵巧 谷建才 孟东霞 武会欣 李校 王雄宾 《河北林果研究》 2007年第1期93-95,共3页
根据环境功能分区的原则及内容,将北京市划分为7个不同的环境功能区,依据不同的环境功能区特点以及树种配置原则,把树种选择与生态效应相结合,并针对性的提出可供选择树种与配置的建议,以期为北京的绿地规划建设提供可借鉴的理论依据。
关键词 环境功能区 绿化树种 树种选择与配置
下载PDF
基于互信息量的神经网络语音盲分离算法 被引量:1
20
作者 乔永凤 马建芬 孟东霞 《电声技术》 2007年第11期49-51,共3页
盲分离技术由于不需要知道信号的先验信息而得到广泛应用。利用神经网络信息后向传播的特点,在Infomax算法的基础上,提出一种改进的基于互信息的语音盲分离算法,以神经网络为优化结构,并以输出熵为目标函数,实验证明,算法能很好提取信... 盲分离技术由于不需要知道信号的先验信息而得到广泛应用。利用神经网络信息后向传播的特点,在Infomax算法的基础上,提出一种改进的基于互信息的语音盲分离算法,以神经网络为优化结构,并以输出熵为目标函数,实验证明,算法能很好提取信号的独立分量,完成混合信号的分离。 展开更多
关键词 独立分量分析 互信息 Infomax算法 神经网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部