期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于非参数贝叶斯模型和深度学习的古文分词研究 被引量:14
1
作者 俞敬松 魏一 +1 位作者 张永伟 杨浩 《中文信息学报》 CSCD 北大核心 2020年第6期1-8,共8页
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困... 古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。 展开更多
关键词 古文分词 非参数贝叶斯模型 深度学习 无指导学习 弱指导学习
下载PDF
基于CRF模型的蒙古文分词及词性标注的研究 被引量:3
2
作者 那日松 淑琴 齐力格尔 《内蒙古大学学报(哲学社会科学版)》 2016年第2期23-28,共6页
为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"... 为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"、分词及词性标注"统一实现"的研究。开放测试的结果表明,蒙古文自动分词准确率在98%以上,蒙古文分词和词性标注"统一实现"实验结果的准确率比分词和词性标注"两步走"实验结果的准确率高出3.55%,"统一实现"实验在考虑"上下文"和特征"连写的附加成分"后所得准确率可以达到93.38%,这在一定程度上解决了蒙古文分词及词性标注问题。 展开更多
关键词 古文分词 古文词性标注 条件随机场
原文传递
基于UniLM模型的古文到现代文机器翻译词汇共享研究
3
作者 许乾坤 王东波 +2 位作者 刘禹彤 吴梦成 黄水清 《情报资料工作》 北大核心 2024年第1期89-100,共12页
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过... [目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。 展开更多
关键词 UniLM模型 古文分词 词汇共享 古文翻译 机器翻译
原文传递
基于HMM的楚辞自动分词标注研究 被引量:30
4
作者 钱智勇 周建忠 +1 位作者 童国平 苏新宁 《图书情报工作》 CSSCI 北大核心 2014年第4期105-110,共6页
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和... 研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。 展开更多
关键词 隐马尔科夫模型 楚辞 自动分词 词性标注 古文分词
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部