在深入研究办公文档格式特殊性的基础上,借鉴超文本标记语言(hypertext markup language,HTML)的主流语义元数据标识方法,为OOXML(office open XML)设计了一套文档格式扩展方法以及语义标注规则,使得办公文档中允许以规范的方式加入语...在深入研究办公文档格式特殊性的基础上,借鉴超文本标记语言(hypertext markup language,HTML)的主流语义元数据标识方法,为OOXML(office open XML)设计了一套文档格式扩展方法以及语义标注规则,使得办公文档中允许以规范的方式加入语义标记;此外,提出了一种预处理和后处理方法,使得现有办公软件无需进行修改就能读入、编辑和保存带有语义标记的办公文档。该项研究可为文档分类、文档的信息检索和信息提取等任务提供良好的基础。展开更多
文摘在深入研究办公文档格式特殊性的基础上,借鉴超文本标记语言(hypertext markup language,HTML)的主流语义元数据标识方法,为OOXML(office open XML)设计了一套文档格式扩展方法以及语义标注规则,使得办公文档中允许以规范的方式加入语义标记;此外,提出了一种预处理和后处理方法,使得现有办公软件无需进行修改就能读入、编辑和保存带有语义标记的办公文档。该项研究可为文档分类、文档的信息检索和信息提取等任务提供良好的基础。