期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于非参数贝叶斯模型和深度学习的古文分词研究 被引量:14
1
作者 俞敬松 魏一 +1 位作者 张永伟 杨浩 《中文信息学报》 CSCD 北大核心 2020年第6期1-8,共8页
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困... 古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。 展开更多
关键词 古文分词 非参数贝叶斯模型 深度学习 指导学习 弱指导学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部