摘要
文章研究探索了如何使用文档分解(文档结构研究),文档标记(具有可扩展标记语言(XML)),超文本标记语言(HML)和可伸缩矢量图形(SVG),以及多方面的分类机制。文档内容提取是通过计算机编程(使用Java)实现的。在这项研究中开发的文档信息自动提取技术证明:作为信息提供者,可以使信息用户(包括工程师)以更易于访问的方式制作文档内容。
This paper explores how to use document decomposition(document structure research),document markup(with Extensible Markup Language(XML)),Hypertext Markup Language(HML),and Scalable Vector Graphics(SVG),and more classification mechanism.The document content extraction is realized through computer programming(using Java).The automatic extraction technology of document information(AETDI)developed in this research proves that as an information provider,you can make Information users(including engineers)can create document content in a more accessible way.
作者
佘俊
余少锋
周宇鹏
廖崇阳
罗勇
SHE Jun;YU Shao-feng;ZHOU Yu-peng;LIAO Chong-yang;LUO Yong(Information&Communication Branch of China Southern Power Grid Peaking&Frequency Modulation Power Generation Co.,Ltd.,Guangzhou Guangdong 511400,China;Western Maintenance Test Branch of China Southern Power Grid Peaking&Frequency Modulatio Generation Co.,Ltd.,Xingyi Guizhou 562400,China)
出处
《粘接》
CAS
2020年第8期80-84,共5页
Adhesion
基金
南方电网调峰调频发电有限公司科技项目(STKJXM20180065)。
关键词
文档信息自动提取
超文本标记语言
分解方案
文档标记
分面分类
automatic extraction of document information
hypertext markup language
decomposition scheme
document markup
faceted classification