-
题名基于知识图谱与BERT的安全领域汉字文本纠错模型
- 1
-
-
作者
王子斌
张全
谢聪
余沛
余泓江
李沣庭
-
机构
南京中新赛克科技有限责任公司
重庆市公安局
-
出处
《计算机应用》
CSCD
北大核心
2023年第S01期75-80,共6页
-
文摘
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系,并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量;其次,基于知识图谱中字形关系构建node2vec模型,得到node2vec字形向量,并结合卷积神经网络(CNN)方法训练字形向量,两者之和作为最终的字形向量;最后,基于BERT预训练模型,融合读音、字形、语义三维度的向量,并在不同维度间使用自注意力机制加权求和,发现错误字位置并选择正确的候选字。为验证所提模型的有效性,在安全领域诈骗短信数据集上,将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明,所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点,比SpellGCN分别提升了22.2、13.7个百分点,比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字,在网络诈骗文本分类、要素提取等下游任务中有较好的效果。
-
关键词
自然语言处理
知识图谱
汉字文本纠错
图神经网络
node2vec
BERT
预训练模型
-
Keywords
Natural Language Processing(NLP)
Chinese knowledge graph
text error correction
Graph Neural Network(GNN)
node2vec
Bidirectional Encoder Representation from Transformers(BERT)
pre-training model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-