针对汉语初学者在学习汉语时不可避免地会出现拼写错误的问题,提出一个汉语拼写检查模型,用以检测和纠正句子中的拼写错误。模型结合了汉字的视觉特征和语音特征,由一个检查网络和一个纠正网络构成。基于双向长短期记忆网络(bidirection...针对汉语初学者在学习汉语时不可避免地会出现拼写错误的问题,提出一个汉语拼写检查模型,用以检测和纠正句子中的拼写错误。模型结合了汉字的视觉特征和语音特征,由一个检查网络和一个纠正网络构成。基于双向长短期记忆网络(bidirectional long short-term memory network,BiLSTM)和条件随机场(conditional random field,CRF)构成的检测网络用于检测句子中的错误字;基于BERT(bidirectional encoder representations from transformer)模型的纠正网络用以结合全局上下文信息对检测到的错误字进行纠正。最后,在CLP-2014,SIGHAN-2013和SIGHAN-2015数据集上进行实验,结果表明:相比现有的方法,提出的模型在错字检测和错字纠正上的效果均得到了提升;相比利用视觉特征,汉字的语音特征能更好地提升错字的检测效果。展开更多
文摘针对汉语初学者在学习汉语时不可避免地会出现拼写错误的问题,提出一个汉语拼写检查模型,用以检测和纠正句子中的拼写错误。模型结合了汉字的视觉特征和语音特征,由一个检查网络和一个纠正网络构成。基于双向长短期记忆网络(bidirectional long short-term memory network,BiLSTM)和条件随机场(conditional random field,CRF)构成的检测网络用于检测句子中的错误字;基于BERT(bidirectional encoder representations from transformer)模型的纠正网络用以结合全局上下文信息对检测到的错误字进行纠正。最后,在CLP-2014,SIGHAN-2013和SIGHAN-2015数据集上进行实验,结果表明:相比现有的方法,提出的模型在错字检测和错字纠正上的效果均得到了提升;相比利用视觉特征,汉字的语音特征能更好地提升错字的检测效果。