基于Map/Reduce并行编程模型的XBRL维度数据解析算法被引量：1

An XBRL dimensional data parsing algorithm based on the Map /Reduce parallel programming model

下载PDF

导出

摘要从XBRL维度数据处理的角度,研究大规模半结构化数据处理技术,提出一种基于Map/Reduce并行编程模型的XBRL维度数据解析算法.该算法在Map/Reduce编程模型和StAX流式解析技术的基础上,针对XBRL财务报告中各XML文件之间较复杂的数据引用关系,以整份XBRL财务报告为处理的最小单位,结合并行技术提取维度事项所包含的数据,再处理业务语义数据,从而实现复杂XBRL维度数据的解析.性能比较分析表明,该算法在大规模XBRL数据处理方面具有显著优势. This article intends to study mass semi-structured data processing technology from XBRL dimensional data processing perspective. A new XBRL dimensional data parsing algorithm is proposed based on the Map/Reduce parallel programming model and StAX stream parsing technique. The algorithm specifically targets the analysis of complex data reference relationships among XML files in the XBRL financial report. In order to parse complex XBRL dimensional data, the algorithm uses a single XBRL financial report as the minimum processing unit. First, the data are extracted from the dimensional fact items, and then the business semantic data are processed. In experimental tests, the proposed algorithm presents an obvious advantage in large-scale XBRL data processing.

作者朱健鹏王颖杨诚

机构地区中国科学院大学工程管理与信息技术学院

出处《中国科学院大学学报（中英文）》 CAS CSCD 北大核心 2014年第1期124-129,共6页 Journal of University of Chinese Academy of Sciences

基金国家自然科学基金(61303155)资助

关键词 XBRL 半结构化数据处理大数据处理 MAP REDUCE XBRL维度 XBRL semi-structured data processing big data processing Map/Reduce XBRL dimension

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1593
2Shi Z Z. Big data mining in the cloud,intelligent information processing Ⅵ[M].Springer Berlin Heidelberg,2012.13-14.
3Mika S I. Preface to part Ⅲ adaptive big data analytics.procedia computer science[M].Elsevier B V,2013.211.
4Jeffrey D. MapReduce:a flexible data processing tool[J].{H}Communications of the ACM,2010,(01):72-77.
5覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
6Dean J,Ghemawat S. MapReduce:simplified data processing on large clusters[J].{H}Communications of the ACM,2008,(01):107-113.
7Michele T,Stefano Crespi-Reghizzi. Parallel iterative compilation:using MapReduce to speedup machine learning in compilers[A].ACM New York,NY,USA,2012.18-19.
8Daniel Z,Shawn B,Sven K. Parallelizing XML data-streaming workflows via MapReduce[J].{H}Journal of Computer and System Sciences,2010,(06):447-463.

二级参考文献100

1Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store. In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010.97-104. [doi: 10.1109/SKG.2010.18].
2Afrati FN, Ullman JD. Optimizing joins in a Map-Reduce environment. In: Manolescu I, Spaecapietra S, Teubner J, Kitsuregawa M, Leger A, Naumann F, Ailamaki A, Ozcan F, eds. Proc. of the EDBT. Lausanne: ACM Press, 2010. 99-110. [doi: 10.1145/ 1739041.1739056].
3Sandholm T, Lai K. MapReduce optimization using regulated dynamic prioritization. In: Douceur JR, Greenberg AG, Bonald T, Nieh J, eds. Proc. of the SIGMETRICS. Seattle: ACM Press, 2009. 299-310. [doi: 10.1145/1555349.1555384].
4Hoefler T, Lumsdaine A, Dongarra J. Towards; efficient MapReduce using MPI. In: Oster P, ed. Proc. of the EuroPVM/MPI. Berlin: Springer-Verlag, 2009. 240-249. [doi: 10.100'7/978-3-642-03770-2_30].
5Nykiel T, Potamias M, Mishra C, Kollios G, Koudas N. MRShare: Sharing across multiple queries in MapReduce. PVLDB, 2010, 3(1-2):494-505.
6Kambatla K, Rapolu N, Jagannathan S, Grama A. Asynchronous algorithms in MapReduce. In: Moreira JE, Matsuoka S, Pakin S, Cortes T, eds. Proc. of the CLUSTER. Crete: IEEE Press, 2010. 245-254. [doi: 10.1109/CLUSTER.2010.30].
7Polo J, Carrera D, Becerra Y, Torres J, Ayguad6 E, Steinder M, Whalley I. Performance-Driven task co-scheduling for MapReduce environments. In: Tonouchi T, Kim MS, eds. Proc. of the 1EEE Network Operations and Management Symp. (NOMS). Osaka: IEEE Press, 2010. 373-380. [doi: 10.1109/NOMS.2010.5488494].
8Zaharia M, Konwinski A, Joseph AD, Katz R, Stoica I. Improving MapReduce performance in heterogeneous environments. In: Draves R, van Renesse R, eds. Proc. of the ODSI. Berkeley: USENIX Association, 2008.29-42.
9Xie J, Yin S, Ruan XJ, Ding ZY, Tian Y, Majors J, Manzanares A, Qin X. Improving MapReduce performance through data placement in heterogeneous Hadoop clusters. In: Taufer M, Rfinger G, Du ZH, eds. Proc. of the Workshop on Heterogeneity in Computing (IPDPS 2010). Atlanta: IEEE Press, 2010. 1-9. [doi: 10.1109/IPDPSW.2010.5470880].
10Polo J, Carrera D, Becerra Y, Beltran V, Torres J, Ayguad6 E. Performance management of accelerated MapReduce workloads in heterogeneous clusters. In: Qin F, Barolli L, Cho SY, eds. Proc. of the ICPP. San Diego: IEEE Press, 2010. 653-662. [doi: 10.1109/ ICPP.2010.73].

共引文献1934

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2张人戈,于平.运用信息技术改造传统产业正当时——大数据与实体经济融合的必要性分析[J].时代金融,2019,0(32):13-14.
3卢艺.数据治理在热轧边缘中的应用研究[J].冶金自动化,2023,47(S01):383-386. 被引量：1
4邱晨.大数据时代大学生微信隐私防护策略研究[J].新闻研究导刊,2021(5):72-73.
5金鑫,刘振彬,赵永亮,杨博.关于构建铁路智能化调度所的探讨[J].铁道运输与经济,2019,0(S01):68-71. 被引量：2
6冯刚,伍琳.大数据时代数据驱动高职教学决策研究[J].山西青年,2020,0(3):203-203.
7薛冰,李京忠,肖骁,谢潇,庞敏,姜璐,逯承鹏,任婉侠.基于大数据的城市人地关系分析与应用计算平台——2018年中国地理学会地理大数据计算环境“优秀实用案例”[J].全球变化数据学报（中英文）,2018(3):290-294. 被引量：5
8罗莉.基于大数据技术的高校计算机安全问题与对策[J].计算机产品与流通,2020(9):17-17. 被引量：2
9陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
10胡筱彤.大数据在商业银行中的应用探究[J].科技经济导刊,2019,0(33):20-20.

同被引文献20

1薛倚明,李萍.上市公司无形资产信息自愿披露的三棱锥模型[J].管理评论,2009,21(10):104-108. 被引量：6
2赵现明,张天西.基于XBRL标准的年报信息含量研究[J].经济与管理研究,2010(2):102-107. 被引量：24
3刘玉廷.推广应用XBRL 推进会计信息化建设[J].会计研究,2010(11):3-9. 被引量：93
4杨周南,朱建国,刘锋,孙凡,赵英吉.XBRL分类标准认证的理论基础和方法学体系研究[J].会计研究,2010(11):10-15. 被引量：30
5聂萍,周戴.基于XBRL环境网络财务报告网页呈现质量实证研究[J].会计研究,2011(4):8-14. 被引量：21
6张金清,吴有红,陈卉.商业银行安全水平的测度及其影响因素——基于跨国数据的实证分析[J].管理评论,2012,24(2):24-30. 被引量：6
7齐保垒,田高良.基于财务报告的内部控制缺陷影响因素研究[J].管理评论,2012,24(4):133-140. 被引量：29
8阚宝奎,刘志新,宋晓东,杨众.改进支持向量机在虚假财务报告识别中的应用[J].管理评论,2012,24(5):144-153. 被引量：8
9仲樱.我国会计信息透明度及影响因素分析[J].财会通讯（下）,2012(9):3-5. 被引量：10
10穆秀萍.中国石油实施XBRL的经验与体会[J].财务与会计,2012(12):58-59. 被引量：4

引证文献1

1王丁,黄敏,王颖.维度技术在XBRL分类标准中的应用研究[J].管理评论,2015,27(3):75-82. 被引量：1

二级引证文献1

1王珏,吴秀华,王成敌.推广应用XBRL 推进会计信息化建设[J].中国管理信息化,2016,19(4):58-59.

1楼笑.一种OLAP概念建模的研究与实现[J].微机发展,2005,15(3):69-71. 被引量：1
2王为民,曾楠.用好互联网技术建设信息化企业——访国家电网公司信息通信部副主任魏晓菁[J].国家电网,2016,0(12):54-55. 被引量：1
3陈伟.个人防火墙性能比较分析[J].电脑学习,2006(1):2-2.
4胡懋智,古红英.各种不同类型的支持向量机及其性能比较分析[J].计算机工程与应用,2005,41(12):37-40. 被引量：8
5吴廷焰.基于Stax的云计算的研究与开发[J].电脑知识与技术（过刊）,2010,0(14):3605-3607.
6王娟,魏应彬.使用StAX更有效地解析XML文档~1[J].计算机与现代化,2005(2):103-105.
7欧建圣.数据仓库技术应用初探[J].武汉工程职业技术学院学报,2004,16(2):29-35.
8徐苏娅,胡彩平,王立松.WSNS中基于Fusion-Bayes的离群点检测[J].电子科技,2013,26(5):102-105.
9刘全中,聂艳明,宁纪锋.高维度的数据强跳跃显露模式挖掘方法研究[J].华中科技大学学报（自然科学版）,2013,41(8):55-60. 被引量：2
10李玉萍,徐瑞朝.基于网格密度的聚类算法的性能比较分析[J].电脑知识与技术（过刊）,2010,16(3X):1952-1953.

中国科学院大学学报（中英文）

2014年第1期

浏览历史

内容加载中请稍等...

基于Map/Reduce并行编程模型的XBRL维度数据解析算法被引量：1

参考文献8

二级参考文献100

共引文献1934

同被引文献20

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce并行编程模型的XBRL维度数据解析算法 被引量：1

参考文献8

二级参考文献100

共引文献1934

同被引文献20

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce并行编程模型的XBRL维度数据解析算法被引量：1