期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于大数据技术的铁路工务检测数据平台方案研究
1
作者 许丹亚 欧阳慎 +2 位作者 齐晨虹 朱志 尹文志 《电脑知识与技术》 2023年第13期76-78,共3页
当前,普速铁路故障点检测手段多样,各种检测数据的类型多样,数据量大,查询分析逻辑复杂。不同于以往基于关系型数据库的数据处理,方案基于Hadoop大数据集群,采用低代码的形式和多种数据处理工具,设计实现工务数据同步、存储、查询、共... 当前,普速铁路故障点检测手段多样,各种检测数据的类型多样,数据量大,查询分析逻辑复杂。不同于以往基于关系型数据库的数据处理,方案基于Hadoop大数据集群,采用低代码的形式和多种数据处理工具,设计实现工务数据同步、存储、查询、共享流程,降低了数据存储成本,提高了数据查询效率。同时,有助于后续其他业务系统的海量数据开发流程优化,为铁路各项业务提供稳定、高效数据处理方案。 展开更多
关键词 大数据 PHOENIX DataX 铁路 HADOOP
下载PDF
基于Kettle的铁路数据接入的设计与实现 被引量:1
2
作者 王天举 许丹亚 +1 位作者 尹文志 齐晨虹 《无线互联科技》 2023年第8期79-82,共4页
为解决实际业务中的数据接入解析处理等问题,使数据的接入、转换、解析、同步等工作更加高效便捷,文章通过对业务需求的分析和数据接入整合技术的调研,开展对开源ETL工具Kettle的研究。基于对Kettle应用场景和业务数据特点的分析,构建... 为解决实际业务中的数据接入解析处理等问题,使数据的接入、转换、解析、同步等工作更加高效便捷,文章通过对业务需求的分析和数据接入整合技术的调研,开展对开源ETL工具Kettle的研究。基于对Kettle应用场景和业务数据特点的分析,构建了基于Kettle的业务数据转换同步流程。经实际项目案例验证,该流程与传统方法相比,基于Kettle的数据转换接入流程降低了开发的复杂度提升了工作效率,不仅解决了在实际业务系统中的数据接入转化问题,同时也为其他数据集成工作提供了更多思路。 展开更多
关键词 接入 转换 解析 集成 流程
下载PDF
基于Spark的大数据访存行为跨层分析工具 被引量:10
3
作者 许丹亚 王晶 +1 位作者 王利 张伟功 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1179-1190,共12页
大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spar... 大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持. 展开更多
关键词 大数据 SPARK 内存管理 跨层分析 内存追踪
下载PDF
网络招聘信息抽取与分析系统设计 被引量:1
4
作者 许丹亚 贾雨潇 《无线互联科技》 2022年第21期82-85,共4页
为了解决国内网络招聘网站信息量大,求职需耗费大量时间精力的问题,文章基于Flask框架设计并实现了网络招聘信息抽取与分析系统。系统根据用户求职意向,通过爬虫实时采集招聘信息并定向分类,为不同用户匹配岗位,同时,将用户抓取的历史... 为了解决国内网络招聘网站信息量大,求职需耗费大量时间精力的问题,文章基于Flask框架设计并实现了网络招聘信息抽取与分析系统。系统根据用户求职意向,通过爬虫实时采集招聘信息并定向分类,为不同用户匹配岗位,同时,将用户抓取的历史信息存储进数据库,方便用户浏览历史记录和定制招聘信息列表。系统过滤大量无用信息,使求职者更便捷地获取有效信息,提高求职效率。 展开更多
关键词 网络招聘 信息抽取 爬虫
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部