期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例 被引量:5
1
作者 赵连振 张逸勤 +3 位作者 刘江峰 王东波 冯敏萱 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期120-128,137,共10页
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:Sik... 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性。 展开更多
关键词 数字人文 汉语典籍 自动标点 SikuBERT模型
下载PDF
基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点 被引量:2
2
作者 王瑶 顾磊 《软件导刊》 2022年第9期7-13,共7页
古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆... 古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。 展开更多
关键词 古籍 自动标点 BERT模型 条件随机场
下载PDF
基于预训练语言模型的繁体古文自动句读研究 被引量:1
3
作者 唐雪梅 苏祺 +2 位作者 王军 陈雨航 杨浩 《中文信息学报》 CSCD 北大核心 2023年第8期159-168,共10页
未经整理的古代典籍不含任何标点,不符合当代人的阅读习惯,古籍加断句标点之后有助于阅读、研究和出版。该文提出了一种基于预训练语言模型的繁体古文自动句读框架。该文整理了约10亿字的繁体古文语料,对预训练语言模型进行增量训练,在... 未经整理的古代典籍不含任何标点,不符合当代人的阅读习惯,古籍加断句标点之后有助于阅读、研究和出版。该文提出了一种基于预训练语言模型的繁体古文自动句读框架。该文整理了约10亿字的繁体古文语料,对预训练语言模型进行增量训练,在此基础上实现古文自动句读和标点。实验表明,经过大规模繁体古文语料增量训练后的语言模型具备更好的古文语义表示能力,能够有助提升繁体古文自动句读和自动标点的效果。融合增量训练模型之后,古文断句F1值达到95.03%,古文标点F1值达到了80.18%,分别比使用未增量训练的语言模型提升1.83%和2.21%。为解决现有篇章级句读方案效率低的问题,该文改进了前人的串行滑动窗口方案,在一定程度上提高了句读效率,并提出一种新的并行滑动窗口方案,能够高效准确地进行长文本自动句读。 展开更多
关键词 自动句读 自动标点 预训练语言模型
下载PDF
基于BERT的古文断句研究与应用 被引量:18
4
作者 俞敬松 魏一 张永伟 《中文信息学报》 CSCD 北大核心 2019年第11期57-63,共7页
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍... 古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。 展开更多
关键词 自动断句 自动标点 BERT 微调
下载PDF
基于深度学习的古籍文本自动断句与标点一体化研究 被引量:1
5
作者 袁义国 李斌 +2 位作者 冯敏萱 贺胜 王东波 《图书情报工作》 CSSCI 北大核心 2022年第22期134-141,共8页
[目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较... [目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。 展开更多
关键词 自动断句 自动标点 古籍 深度学习 数字人文
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部