-
题名复杂表格数据化中的单元格语义关系识别研究
- 1
-
-
作者
林鑫
余华娟
闫奕臻
-
机构
华中师范大学信息管理学院
湖北省数据治理与智能决策研究中心
-
出处
《数字图书馆论坛》
CSSCI
2022年第9期28-35,共8页
-
基金
国家社会科学基金青年项目“社会网络中基于用户认知结构的知识标注研究”(编号:17CTQ024)资助。
-
文摘
复杂表格能够以简单、直观的方式描述数据,被广泛应用于各行各业,然而,复杂表格具有结构复杂、单元格类型多样、表格文档构成方式不一等问题,需要进行数据化处理后才能实现共享与复用。因此,本文构建一种基于无监督学习的单元格语义关系识别模型来实现复杂表格数据化,首先利用机器视觉技术实现复杂表格分割,然后基于表格结构和内容相似度识别同模板表格,在此基础上,结合表头单元格、说明性单元格、表体单元格3类单元格的取值、位置特点,设置启发式规则进行单元格语义关系的识别,最后通过实证研究验证本文的方法能够在复杂表格数据化中取得较高的准确率和召回率,具有可行性。
-
关键词
复杂表格
语义关系
表格数据化
机器视觉
-
Keywords
Complex Table
Semantic Relationship
Form Digitization
Machine Vision
-
分类号
G202
[文化科学—传播学]
-