期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于非参数贝叶斯模型和深度学习的古文分词研究
被引量:
14
1
作者
俞敬松
魏一
+1 位作者
张永伟
杨浩
《中文信息学报》
CSCD
北大核心
2020年第6期1-8,共8页
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困...
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。
展开更多
关键词
古文分词
非参数贝叶斯模型
深度学习
无指导学习
弱指导学习
下载PDF
职称材料
基于CRF模型的蒙古文分词及词性标注的研究
被引量:
3
2
作者
那日松
淑琴
齐力格尔
《内蒙古大学学报(哲学社会科学版)》
2016年第2期23-28,共6页
为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"...
为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"、分词及词性标注"统一实现"的研究。开放测试的结果表明,蒙古文自动分词准确率在98%以上,蒙古文分词和词性标注"统一实现"实验结果的准确率比分词和词性标注"两步走"实验结果的准确率高出3.55%,"统一实现"实验在考虑"上下文"和特征"连写的附加成分"后所得准确率可以达到93.38%,这在一定程度上解决了蒙古文分词及词性标注问题。
展开更多
关键词
蒙
古文分词
蒙
古文
词性标注
条件随机场
原文传递
基于UniLM模型的古文到现代文机器翻译词汇共享研究
3
作者
许乾坤
王东波
+2 位作者
刘禹彤
吴梦成
黄水清
《情报资料工作》
北大核心
2024年第1期89-100,共12页
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过...
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。
展开更多
关键词
UniLM模型
古文分词
词汇共享
古文
翻译
机器翻译
原文传递
基于HMM的楚辞自动分词标注研究
被引量:
30
4
作者
钱智勇
周建忠
+1 位作者
童国平
苏新宁
《图书情报工作》
CSSCI
北大核心
2014年第4期105-110,共6页
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和...
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
展开更多
关键词
隐马尔科夫模型
楚辞
自动
分词
词性标注
古文分词
原文传递
题名
基于非参数贝叶斯模型和深度学习的古文分词研究
被引量:
14
1
作者
俞敬松
魏一
张永伟
杨浩
机构
北京大学软件与微电子学院
中国社会科学院语言研究所
北京大学儒藏编纂与研究中心
出处
《中文信息学报》
CSCD
北大核心
2020年第6期1-8,共8页
基金
国家自然科学基金(61876004)
文摘
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。
关键词
古文分词
非参数贝叶斯模型
深度学习
无指导学习
弱指导学习
Keywords
word segmentation for ancient Chinese texts
nonparametric Bayesian models
deep learning
unsupervised learning
weakly supervised learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于CRF模型的蒙古文分词及词性标注的研究
被引量:
3
2
作者
那日松
淑琴
齐力格尔
机构
杭州师范大学国际教育学院
内蒙古大学图书馆
内蒙古大学蒙古学学院
出处
《内蒙古大学学报(哲学社会科学版)》
2016年第2期23-28,共6页
基金
国家社科基金重大项目(项目批准号:11&ZD188)
文摘
为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"、分词及词性标注"统一实现"的研究。开放测试的结果表明,蒙古文自动分词准确率在98%以上,蒙古文分词和词性标注"统一实现"实验结果的准确率比分词和词性标注"两步走"实验结果的准确率高出3.55%,"统一实现"实验在考虑"上下文"和特征"连写的附加成分"后所得准确率可以达到93.38%,这在一定程度上解决了蒙古文分词及词性标注问题。
关键词
蒙
古文分词
蒙
古文
词性标注
条件随机场
Keywords
Mongolian word segmentation
Mongolian part of speech(POS) tagging
CRF model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于UniLM模型的古文到现代文机器翻译词汇共享研究
3
作者
许乾坤
王东波
刘禹彤
吴梦成
黄水清
机构
南京农业大学信息管理学院
南京农业大学人文与社会计算研究中心
出处
《情报资料工作》
北大核心
2024年第1期89-100,共12页
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(批准号:21&ZD331)的研究成果之一。
文摘
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。
关键词
UniLM模型
古文分词
词汇共享
古文
翻译
机器翻译
Keywords
UniLM model
ancient Chinese word segmentation
vocabulary sharing
ancient Chinese translation
machine translation
分类号
H085 [语言文字—语言学]
TP391.2 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于HMM的楚辞自动分词标注研究
被引量:
30
4
作者
钱智勇
周建忠
童国平
苏新宁
机构
南通大学楚辞研究中心
南通大学图书馆
南京大学信息管理学院
出处
《图书情报工作》
CSSCI
北大核心
2014年第4期105-110,共6页
基金
江苏省高校哲学社会科学重点研究基地重大项目“楚辞数字化处理与应用研究”(项目编号:2010JDXM037)
国家社会科学基金项目“楚辞文献语义化研究”(项目编号:10BTQ031)研究成果之一
文摘
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
关键词
隐马尔科夫模型
楚辞
自动
分词
词性标注
古文分词
Keywords
HMM Chu Ci automatic word segmentation pos tagging ancient word segmentation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于非参数贝叶斯模型和深度学习的古文分词研究
俞敬松
魏一
张永伟
杨浩
《中文信息学报》
CSCD
北大核心
2020
14
下载PDF
职称材料
2
基于CRF模型的蒙古文分词及词性标注的研究
那日松
淑琴
齐力格尔
《内蒙古大学学报(哲学社会科学版)》
2016
3
原文传递
3
基于UniLM模型的古文到现代文机器翻译词汇共享研究
许乾坤
王东波
刘禹彤
吴梦成
黄水清
《情报资料工作》
北大核心
2024
0
原文传递
4
基于HMM的楚辞自动分词标注研究
钱智勇
周建忠
童国平
苏新宁
《图书情报工作》
CSSCI
北大核心
2014
30
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部