期刊文献+

异构文本数据转换中XML解析方法对比研究 被引量:10

Comparative Study of XML Parsing Methods in Heterogeneous Text Data Conversion
下载PDF
导出
摘要 对异构文本数据转换过程中解析XML文本的DOM、SAX、JDOM、DOM4J方法进行对比研究,以解析时间、内存堆占用空间、CPU占用率为评价指标来判定4种解析方法的优劣。该评价方法的优势在于当数据量或数据属性发生变化时,4种解析方法对评价结果的影响仍具有良好的区分度。通过对10份Web日志异构文本数据转换后的XML数据集进行比较,实验结果表明,当数据量增大且以解析时间为重点时,DOM4J解析方法优于其他3种解析方法,当以空间占用为重点时,SAX解析方法优于其他3种解析方法。 This paper compares and studies the DOM,SAX,JDOM,DOM4J methods for parsing XML texts in heterogeneous text data conversion.The pros and cons of the four parsing methods are judged based on parsing time,memory heap space,and CPU occupancy rate.The advantage of this evaluation method is that when the amount of data or data attributes change,the impact of the four analytical methods on the evaluation results still has a good degree of discrimination.By comparing 10 converted XML datasets of heterogeneous text data of Web log,experimental results show that when the amount of data increases and the analysis time is mainly concerned,the DOM4J parsing method is superior to the other three analysis methods.When space occupation is mainly concerned,the SAX parsing method is superior to the other three analysis methods.
作者 何卓桁 刘志勇 李璐 李长明 张琳 HE Zhuoheng;LIU Zhiyong;LI Lu;LI Changming;ZHANG Lin(School of Information Science and Technology,Northeast Normal University,Changchun 130024,China;School of Software,Tongji University,Shanghai 200092,China;School of Electrical and Information Engineering,Changchun Guanghua University,Changchun 130033,China;School of Software,Jilin University,Changchun 130012,China)
出处 《计算机工程》 CAS CSCD 北大核心 2020年第7期286-293,299,共9页 Computer Engineering
基金 吉林省教育厅“十三五”科学技术研究规划项目“基于高校学生综合素质测评数据预测职业发展方向研究”(202118628) 吉林省教育厅新工科研究与实践项目“U-G-E‘卓越软件工程师’人才培养模式与实践教学深化改革”(131003229)。
关键词 异构文本 XML解析 数据结构转换 时间复杂度 空间复杂度 heterogeneous text XML parsing data structure conversion time complexity space complexity
  • 相关文献

参考文献18

二级参考文献101

共引文献91

同被引文献84

引证文献10

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部