-
题名CMNER:基于微博的中文多模态实体识别数据集
- 1
-
-
作者
季源泽
李霏
-
机构
武汉大学国家网络安全学院空天信息安全与可信计算教育部重点实验室
-
出处
《计算机技术与发展》
2024年第10期110-117,共8页
-
基金
国家重点研发计划(2022YFB3103602)
湖北省自然科学基金(2021CFB385)。
-
文摘
多模态命名实体识别(MNER)旨在通过相关图像的辅助从文本中定位并分类命名实体。目前,中文多模态命名实体识别研究缺乏相关的人工标注数据,限制了中文多模态命名实体识别的发展。该文旨在构建一个基于社交媒体平台的中文MNER数据集,收集了5000条微博帖子和18326张相应的图像,并人工标注了其中的人名、地名、组织机构名和其他类实体。该文在此数据集上应用了ACN模型和UMT模型进行基线实验。实验结果表明,两个模型的F1值分别达到了74.22%和89.50%,证明了数据集的有效性和可用性。此外,该文还进行了跨语言迁移学习实验,证明了中文和英文MNER数据能够相互补充,增强实体识别模型的性能。为了促进中文多模态命名实体识别的相关研究,该文公开了CMNER数据集和相关代码。
-
关键词
多模态命名实体识别
图像
命名实体
中文
跨语言
-
Keywords
multimodal named entity recognition
image
named entity
Chinese
cross-lingual
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-