期刊文献+

文本化地质资料Markdown格式规范化方法 被引量:1

Standardization method of textual geological data in Markdown format
下载PDF
导出
摘要 随着大数据与信息化的发展,海量电子文档涌现。不同格式的文档若采用不同方式解析,会对文档的快速集成与内容理解造成影响。明码文本格式是大数据环境下的首选格式。Markdown格式能记录一定的文档结构特征,利于处理以报告为主的地质资料等行业文本数据,但受文本化技术、地质资料编辑标准、人工等原因的影响,极易出现文档格式不规范问题。从文档格式特征标记的角度出发,对Markdown格式的地质资料的封面、目录、章节、表格、地质剖面介绍等文档的格式特征及格式问题进行归纳总结;定义由正则表达式、优先级、关联条件等构成的文档格式规范特征描述语言;遵循文档格式规范特征描述语言,对不同文档格式规范特征进行计算机存储与解析,生成文本化地质资料文档格式规范。实验表明,该方法对Markdown格式的地质资料能起到很好的规范作用。 With the development of big data and informatization,large-scale electronic documents have appeared.Large volumes of documents in different formats parsed in different ways can have an impact on the rapid integration and understanding of the content,and plain text format is the preferred format in big data context.Markdown format can record document structure characteristics that are beneficial for reporting industrial textual data such as geological information,which is mostly in the forms of reports.But document formatting problems abound due to textualization techniques,geological data editing standards,and manual labor.This paper summarizes the document formatting features of the cover,table of contents,chapters,tables,geological sections and other parts of geological data in Markdown format and the possible document formatting problems from the perspective of document formatting feature markup.It defines a document formatting specification feature description language consisting of regular expressions,priority and association conditions.It stores and parses different document formatting specification features to generate textual geological data document formatting specifications,following the document formatting specification feature description language.The method has been tested to be effective for the specification of geological data in Markdown format.
作者 邓吉秋 邹毓 夏晨晨 Deng Jiqiu;Zou Yu;Xia Chenchen(School of Geosciences and Info-physics,Central South University,Changsha 410083,Hunan,China)
出处 《地质学刊》 CAS 2022年第2期120-135,共16页 Journal of Geology
基金 国家自然科学基金项目“面向三维成矿预测的多源异构地质资料钻孔数据智能抽取与结构化方法”(42172330)。
关键词 地质资料 Markdown 格式规范化 规则描述 规则解析 geological data Markdown format specification rule description rule parse
  • 相关文献

参考文献10

二级参考文献131

共引文献116

同被引文献10

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部