-
题名基于大数据技术的铁路工务检测数据平台方案研究
- 1
-
-
作者
许丹亚
欧阳慎
齐晨虹
朱志
尹文志
-
机构
中国铁路郑州局集团有限公司信息技术所
-
出处
《电脑知识与技术》
2023年第13期76-78,共3页
-
基金
中国铁路郑州局集团有限公司科技研究开发计划重点课题(2022S2)。
-
文摘
当前,普速铁路故障点检测手段多样,各种检测数据的类型多样,数据量大,查询分析逻辑复杂。不同于以往基于关系型数据库的数据处理,方案基于Hadoop大数据集群,采用低代码的形式和多种数据处理工具,设计实现工务数据同步、存储、查询、共享流程,降低了数据存储成本,提高了数据查询效率。同时,有助于后续其他业务系统的海量数据开发流程优化,为铁路各项业务提供稳定、高效数据处理方案。
-
关键词
大数据
PHOENIX
DataX
铁路
HADOOP
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Kettle的铁路数据接入的设计与实现
被引量:1
- 2
-
-
作者
王天举
许丹亚
尹文志
齐晨虹
-
机构
中国铁路郑州局集团有限公司信息技术所
-
出处
《无线互联科技》
2023年第8期79-82,共4页
-
基金
项目名称:中国铁路郑州局集团有限公司科技研究开发计划一般课题,项目编号:2022S2。
-
文摘
为解决实际业务中的数据接入解析处理等问题,使数据的接入、转换、解析、同步等工作更加高效便捷,文章通过对业务需求的分析和数据接入整合技术的调研,开展对开源ETL工具Kettle的研究。基于对Kettle应用场景和业务数据特点的分析,构建了基于Kettle的业务数据转换同步流程。经实际项目案例验证,该流程与传统方法相比,基于Kettle的数据转换接入流程降低了开发的复杂度提升了工作效率,不仅解决了在实际业务系统中的数据接入转化问题,同时也为其他数据集成工作提供了更多思路。
-
关键词
接入
转换
解析
集成
流程
-
Keywords
access
transformation
analysis
integrate
technological process
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Spark的大数据访存行为跨层分析工具
被引量:10
- 3
-
-
作者
许丹亚
王晶
王利
张伟功
-
机构
首都师范大学信息工程学院
高可靠嵌入式技术北京市工程研究中心(首都师范大学)
北京成像理论与技术高精尖创新中心(首都师范大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第6期1179-1190,共12页
-
基金
国家自然科学基金项目(61772350)
北京市科技新星计划(Z181100006218093)
+2 种基金
北京未来芯片技术高精尖创新中心科研基金项目(KYJJ2018008)
北京市高水平教师队伍建设计划(CIT&TCD201704082)
科技创新服务能力建设基本科研业务费(科研类)(19530050173)。
-
文摘
大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持.
-
关键词
大数据
SPARK
内存管理
跨层分析
内存追踪
-
Keywords
big data
Spark
memory management
cross-layer analysis
memory tracing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名网络招聘信息抽取与分析系统设计
被引量:1
- 4
-
-
作者
许丹亚
贾雨潇
-
机构
郑州铁路局信息技术所
中国民生银行信用卡中心
-
出处
《无线互联科技》
2022年第21期82-85,共4页
-
文摘
为了解决国内网络招聘网站信息量大,求职需耗费大量时间精力的问题,文章基于Flask框架设计并实现了网络招聘信息抽取与分析系统。系统根据用户求职意向,通过爬虫实时采集招聘信息并定向分类,为不同用户匹配岗位,同时,将用户抓取的历史信息存储进数据库,方便用户浏览历史记录和定制招聘信息列表。系统过滤大量无用信息,使求职者更便捷地获取有效信息,提高求职效率。
-
关键词
网络招聘
信息抽取
爬虫
-
Keywords
network recruitment
information extraction
crawler
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
F724.6
[经济管理—产业经济]
F249.2
[经济管理—劳动经济]
-