语法错误纠正,面临着较为严重的数据稀疏问题,这给机器翻译方法在该任务上的应用带来了直接的困难。本文首次提出在back-translation阶段采用sampling解码策略,并对比基于不同解码策略合成的伪平行句对给训练语法错误纠正模型带来的影...语法错误纠正,面临着较为严重的数据稀疏问题,这给机器翻译方法在该任务上的应用带来了直接的困难。本文首次提出在back-translation阶段采用sampling解码策略,并对比基于不同解码策略合成的伪平行句对给训练语法错误纠正模型带来的影响。在标准数据集CoNLL-2014 Test Set上的实验结果表明,本文提出的方法能显著提升语法错误纠正的性能。展开更多
文摘语法错误纠正,面临着较为严重的数据稀疏问题,这给机器翻译方法在该任务上的应用带来了直接的困难。本文首次提出在back-translation阶段采用sampling解码策略,并对比基于不同解码策略合成的伪平行句对给训练语法错误纠正模型带来的影响。在标准数据集CoNLL-2014 Test Set上的实验结果表明,本文提出的方法能显著提升语法错误纠正的性能。
文摘针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆集为开放集合,该文提出一种基于ESL(English as Second Lauguage)和新闻语料的N-gram投票策略的GEC方法。该文方法在2013年CoNLL的GEC数据上实验的整体F1值为33.87%,超过第一名UIUC的F1值31.20%。其中,冠词错误纠正的F1值为38.05%,超过UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为28.89%,超过UIUC的介词错误纠正F1值7.22%。