期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究
1
作者 林杰 曾俊冬 +1 位作者 初凤红 王树昂 《制造业自动化》 2024年第4期53-58,71,共7页
对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息。针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法。首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容... 对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息。针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法。首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容,将标题栏文本、文本布局信息和标题栏图像信息作为多模态预训练模型LayoutXLM的输入,提取出标题栏文本的语义实体特征。然后,将实体特征作为BiGRU-CRF网络和双仿射注意力机制的输入,分别构建语义实体识别模型和关系抽取模型。最后,使用自建标题栏数据集对语义实体识别模型和关系抽取模型进行验证。实验结果表明,语义实体识别的F1分数达到90%以上,关系抽取的F1分数达到78%,验证了该方法的有效性,为标题栏信息的自动提取提供了新的思路。 展开更多
关键词 标题栏 layoutxlm 语义实体识别 关系抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部