期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于中朝统一IDS编码的朝鲜语古籍文字识别方法
1
作者 赵梦玲 金小峰 《延边大学学报(自然科学版)》 CAS 2024年第2期101-106,共6页
为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、... 为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、朝鲜文字字母和12种基本结构进行了统一编码;其次,通过加入朝鲜文字的IDS序列扩充了CCR-CLIP原模型中提供的汉字的IDS序列文件;最后,通过在训练阶段使用印刷体文字训练的方式解决了朝鲜语古籍样本少的问题. 展开更多
关键词 朝鲜语古籍 零样本 文字识别 文字编码 表意文字描述序列
下载PDF
繁体字字形规范的基本理念与当代实践
2
作者 王立军 《语言文字应用》 CSSCI 北大核心 2023年第1期10-18,共9页
《古籍印刷通用字规范字形表》的发布实施,是我国汉字规范工作的又一次重要实践,填补了繁体字字形规范方面的空白,体现了研制者对繁体字字形规范问题的当代思考。繁体字在当今社会文化生活中仍具有重要的应用价值,但在实际应用中存在着... 《古籍印刷通用字规范字形表》的发布实施,是我国汉字规范工作的又一次重要实践,填补了繁体字字形规范方面的空白,体现了研制者对繁体字字形规范问题的当代思考。繁体字在当今社会文化生活中仍具有重要的应用价值,但在实际应用中存在着较多问题,必须加以整理规范。对繁体字进行规范,必须既尊重古籍用字的事实,又立足当代的视角,坚持“优选”的原则,秉持古今沟通及内地与港澳台地区沟通的理念,在科学性和适用性之间寻求最佳的契合点。 展开更多
关键词 繁体字 古籍印刷通用字 汉字规范 《古籍印刷通用字规范字形表》
下载PDF
基于注意力机制藏文乌金体古籍文字识别研究
3
作者 童攀 龙炳鑫 拥措 《计算机技术与发展》 2023年第10期163-168,208,共7页
藏文乌金体古籍文字识别是古籍文字识别领域的一个难题。针对藏文乌金体古籍中存在的文字粘连和背景复杂问题,提出一种基于注意力机制的藏文乌金体古籍文字识别方法。该方法主要包含两部分,编码器部分采用卷积神经网络(CNN)与双向长短... 藏文乌金体古籍文字识别是古籍文字识别领域的一个难题。针对藏文乌金体古籍中存在的文字粘连和背景复杂问题,提出一种基于注意力机制的藏文乌金体古籍文字识别方法。该方法主要包含两部分,编码器部分采用卷积神经网络(CNN)与双向长短期记忆(Bi-LSTM)获得图像文本的特征序列和序列标注,解码器部分使用注意力机制计算注意力权重并与循环神经网络(RNN)相结合得出识别结果。采用实验室的616张藏文乌金体古籍作为实验数据集以及藏文字丁准确率作为实验评测指标。采用两种文字识别模型作为基线模型,从模型大小和识别率进行对比,文中识别模型在模型大小和识别效果上都优于其他两个模型,文中模型大小41.2 MB,相比基线模型中最小的优化了36 MB,字丁识别准确率90.55%,相比基线模型中最好的结果提高了7.94百分点。表明所提出的基于注意力机制的藏文乌金体古籍识别模型,显著提高了藏文乌金体古籍中的粘连文字和背景复杂图像的识别效果。 展开更多
关键词 藏文古籍 文字识别 乌金体 注意力机制 字丁准确率
下载PDF
大型中文古籍《四库全书》自动版面分析系统 被引量:7
4
作者 姜哲 马少平 夏莹 《中文信息学报》 CSCD 北大核心 2000年第2期14-20,共7页
《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉... 《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。 展开更多
关键词 四库全书 版面分析 汉字识别 OCR技术
下载PDF
卷积神经网络在古籍汉字识别中的应用实践 被引量:14
5
作者 郭利敏 葛亮 刘悦如 《图书馆论坛》 CSSCI 北大核心 2019年第10期142-148,共7页
文章尝试将卷积神经网络用于数字人文古籍汉字的元数据加工,将古籍汉字识别问题转换为卷积神经网络的分类问题,在缺乏训练集的情况下通过数据生成技术构建训练集进行模型训练,并用于古籍汉字的识别。通过TensorFlow平台,对773个汉字生成... 文章尝试将卷积神经网络用于数字人文古籍汉字的元数据加工,将古籍汉字识别问题转换为卷积神经网络的分类问题,在缺乏训练集的情况下通过数据生成技术构建训练集进行模型训练,并用于古籍汉字的识别。通过TensorFlow平台,对773个汉字生成约24万个训练样本,网络模型可自行判定不可识别的图片;在提高精确率同时,对这部分数据可直接转由人工识别,系统更为可靠,作为数字人文古籍元数据加工的半自动化工具,旨在提高古籍资源在数字人文应用研究中的效率。 展开更多
关键词 智慧图书馆 人工智能 卷积神经网络 数字人文 古籍汉字识别
下载PDF
古代汉字文献切分研究 被引量:8
6
作者 倪恩志 蒋旻隽 周昌乐 《计算机工程与应用》 CSCD 2013年第2期29-33,38,共6页
针对古代汉字文档的特点,提出了适合于古文档的列切分方法和字切分方法。提出的列切分方法直接对文档的笔画投影进行分析,采用一种基于分层投影过滤和变长间隙阈值的递归切分算法。该算法在列间隔较小、列与格线存在粘连、文档具有一定... 针对古代汉字文档的特点,提出了适合于古文档的列切分方法和字切分方法。提出的列切分方法直接对文档的笔画投影进行分析,采用一种基于分层投影过滤和变长间隙阈值的递归切分算法。该算法在列间隔较小、列与格线存在粘连、文档具有一定程度的倾斜的情况下,也能准确地抽取出列,尤其对短列的切分达到了较好的效果。提出的字切分方法分为两步,进行粗切分确定大致的切分位置,采用基于连通域分析与粘连点判断的方法做进一步的细切分。该算法对具有较多粘连和重叠汉字的列,也能较好地切分出完整的单字。实验结果表明,提出的方法用于古代汉字文档切分能够获得较好的效果。 展开更多
关键词 文档图像处理 文档切分 古籍数字化
下载PDF
古籍数字化中的汉字录入与显示 被引量:5
7
作者 徐健 肖卓 《图书与情报》 CSSCI 2006年第6期79-82,共4页
文章针对古籍数字化工作中大量繁难汉字录入和显示困难的问题,从计算机汉字输入与显示的基本原理入手,从五个方面提出了具体解决方案,较好地解决了古籍繁难文字处理的难题,对提高古籍数字化工作效率具有一定的借鉴意义。
关键词 古籍数字化 汉字处理 输入法 UNICODE
下载PDF
论日本传《古文孝经》决非“隋唐之际”由我国传入 被引量:9
8
作者 舒大刚 《四川大学学报(哲学社会科学版)》 CSSCI 北大核心 2002年第2期110-117,共8页
清乾隆年间从日本传入我国的《古文孝经孔传》,其间有大量“古文”奇字,曾被近时学人用来论证日传《古文孝经》“系自我国隋、唐时期传入日本”的证据。本文通过考察北宋字形类工具书《汗简》、《古文四声韵》保存唐宋时期所传“古孝... 清乾隆年间从日本传入我国的《古文孝经孔传》,其间有大量“古文”奇字,曾被近时学人用来论证日传《古文孝经》“系自我国隋、唐时期传入日本”的证据。本文通过考察北宋字形类工具书《汗简》、《古文四声韵》保存唐宋时期所传“古孝经”字形情况,证明日传“古文”与唐宋“古文”在文字上缺少同一性,不是同一传承系统,看不出系“由我国隋唐之际传入”的痕迹。 展开更多
关键词 《古文孝经》 古文字 文献研究 经学 日本 《汗简》 《古文四声韵》 字形
下载PDF
计算机与古籍整理研究手段现代化 被引量:19
9
作者 于亭 《古汉语研究》 CSSCI 北大核心 2000年第3期66-70,共5页
本文从计算机汉字大字符集和通用工作平台、计算机古籍资料库的建设、古籍整理辅助研究系统等三个方面,就古籍整理研究手段现代化问题阐述了自己的看法和思路。
关键词 计算机 古籍整理 古籍资料库 汉字编码 网络信息技术
下载PDF
漫谈古籍整理的规范问题——以敦煌文献为中心 被引量:4
10
作者 黄征 《敦煌研究》 CSSCI 北大核心 2017年第2期70-77,共8页
古籍整理,特别是敦煌文献的整理,属于高难度的学术基础工作,目前各有各的方式和方法,也各有利弊。本文作者以自己从业三十年的切身体会,对敦煌文献整理中的规范问题提出了鲜明的观点,并作了深入浅出的论述,可供借鉴与探讨。
关键词 古籍整理 规范 古今字 俗字 借音字
下载PDF
电子古籍的异体字处理研究——以电子《广韵》为例 被引量:9
11
作者 尉迟治平 《语言研究》 CSSCI 北大核心 2007年第3期118-122,共5页
电子古籍必须能够用计算机处理,计算机处理的是汉字的码点。异体字的处理,基于计算机的方法是关联异体字的码点,基于语言学的方法是整理异体字的字形。一个字位一形一码,是最佳的最终解决方案。
关键词 电子古籍 异体字 计算机处理
下载PDF
论戴侗的《说文解字》研究 被引量:7
12
作者 党怀兴 《陕西师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2001年第3期132-138,共7页
戴侗的《说文解字》研究在中国文字学史上有着重要的地位。在《六书故》中 ,戴侗较早地运用钟鼎文并综合文献材料指出了《说文》的许多不足。他称引大量《说文》异本资料以订正文字 ,改变了《说文》的分部 ,创立按类编排文字的新体系。... 戴侗的《说文解字》研究在中国文字学史上有着重要的地位。在《六书故》中 ,戴侗较早地运用钟鼎文并综合文献材料指出了《说文》的许多不足。他称引大量《说文》异本资料以订正文字 ,改变了《说文》的分部 ,创立按类编排文字的新体系。他还从文字实际出发 ,探讨传统“六书”理论 ,创立了新说。戴侗的《说文》研究对《说文》 展开更多
关键词 戴侗 《说文解字》 六书 钟鼎文 部首 汉语 文字分类 文字编排 文字考释
下载PDF
基于流水模式的古籍文献汉字切分算法 被引量:6
13
作者 倪劼 《图书馆论坛》 CSSCI 北大核心 2021年第9期141-149,共9页
古籍文献汉字切分作为古籍数字化基础工作之一,其中交错、粘连文字切分一直是研究的重点与难点,开展切分技术方式研究可以提高文字切分的准确性与适用性,在促进古籍数字化工作方面具有重要的意义。文章根据古籍文献汉字呈现的特征,借鉴... 古籍文献汉字切分作为古籍数字化基础工作之一,其中交错、粘连文字切分一直是研究的重点与难点,开展切分技术方式研究可以提高文字切分的准确性与适用性,在促进古籍数字化工作方面具有重要的意义。文章根据古籍文献汉字呈现的特征,借鉴流水模式的思路,提出古籍文献汉字切分新方式。首先,对古籍文献图像进行预处理;然后利用投影法与图像形态学处理实现列切分;最后在列基础上进行逐字切分。在字切分时如遇到交错与粘连情况,则先通过阈值划出待切分区域,在此区域内借鉴水流下落时呈现的运动轨迹作为切分依据,实现古籍文献汉字切分,并将此方式命名为流水算法。以6本古籍文献为例,对算法效果进行实践,样本共计14,503字,最终切分精准率为99.00%,召回率为95.62%,F值为97.27%。实验表明,流水算法在不同类型古籍文献中对间隔、交错、粘连汉字均能实现有效切分。 展开更多
关键词 古籍数字化 汉字切分 流水算法
下载PDF
古籍数字化中汉字处理的现状、问题及策略 被引量:4
14
作者 辛睿龙 王雅坤 《图书馆理论与实践》 CSSCI 北大核心 2017年第9期103-107,共5页
汉字处理问题是古籍数字化首先要解决的问题,也是古籍数字化的关键环节。主流的古籍数字化产品主要采用Unicode字符集统一汉字编码,汉字处理的工作主要集中在外字处理和汉字关联上。文章以现有的古籍数字化产品为例,讨论了古籍数字化中... 汉字处理问题是古籍数字化首先要解决的问题,也是古籍数字化的关键环节。主流的古籍数字化产品主要采用Unicode字符集统一汉字编码,汉字处理的工作主要集中在外字处理和汉字关联上。文章以现有的古籍数字化产品为例,讨论了古籍数字化中的汉字处理问题,即汉字认同的工作滞后、外字处理的方法不一和字际关系的分歧较大。提出了古籍数字化中的汉字处理策略,即以古籍数字化内容资源的平台建设为中心,加快"中华字库"工程的实施;以楷书汉字的数字处理为中心,充分吸收和利用已有的学术成果和数字成果;以新媒体的技术和手段为中心,有效利用社交媒体、移动应用和众包等技术。 展开更多
关键词 古籍数字化 汉字处理 汉字关联 UNICODE 《中华经典古籍库》
下载PDF
日语汉字与古代汉语研究 被引量:3
15
作者 万玲华 《语言研究》 CSSCI 北大核心 2006年第2期112-113,共2页
现代日语汉字中保留有很多古代汉语的成分。根据其中部分日语汉字词与相应的古代汉语词的形义关系,发现这些日语汉字词在训诂学上有重要作用。
关键词 日语汉字 同字词 训诂 古代汉语
下载PDF
中医古籍图文校对中的问题与对策 被引量:2
16
作者 孙建春 《中华医学图书情报杂志》 CAS 2013年第7期10-12,24,共4页
从分段、撰写校记、改错字、汉字的繁简转化、计算机功能的利用5方面总结了中医古籍图文校对的经验,并提出了解决这些问题的对策。
关键词 中医古籍整理 图文校对 经验 对策 图像识别 古籍数字化
下载PDF
汉字中所蕴涵的崇土文化心理管窥 被引量:1
17
作者 韩伟 《郑州大学学报(哲学社会科学版)》 CSSCI 北大核心 2004年第3期95-98,共4页
汉字中蕴涵着先民的崇土文化心理。这种文化心理的形成原因有三:一是先民对“土”之畏惧与依赖而产生的一种崇敬心理情绪;二是远古先民部落首领居山岳而形成的丘岳文化之遗迹对先民心理的影响;三是洪水之时民登高土获救而发展之历史记... 汉字中蕴涵着先民的崇土文化心理。这种文化心理的形成原因有三:一是先民对“土”之畏惧与依赖而产生的一种崇敬心理情绪;二是远古先民部落首领居山岳而形成的丘岳文化之遗迹对先民心理的影响;三是洪水之时民登高土获救而发展之历史记忆之作用。其崇土文化心理不仅有汉字可考,而且有古代文献可为佐证。 展开更多
关键词 汉字 古籍 崇土 文化心理
下载PDF
古文字的联机手写识别研究 被引量:3
18
作者 陈丹 李宁 李亮 《北京机械工业学院学报》 2008年第4期32-37,共6页
分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔... 分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔画交叉点、字元相对位置特征等等。并在此基础上,介绍了所构建的一个古文字识别的原型系统。同时指出了系统在对异体字的兼容,对古文字音、义的处理等方面存在的不足,提出了古文字识别智能化的研究方向,对今后古文字联机手写体识别的改进具有一定的参考价值。 展开更多
关键词 古文字识别 联机手写识别 中文信息处理
下载PDF
基于混合核WLS-SVR的古汉字识别(英文)
19
作者 胡根生 孙莹莹 +2 位作者 徐玲英 梁栋 孙小棋 《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第4期321-328,共8页
针对现有多种分类器对具有不确定字形的古汉字识别精度不高的问题,提出了一种基于混合核加权最小二乘支持向量回归(WLS-SVR)的古汉字识别算法.WLS-SVR的权重系数采用预测误差的指数衰减函数,混合核是由具有良好局域特性的小波核函数与... 针对现有多种分类器对具有不确定字形的古汉字识别精度不高的问题,提出了一种基于混合核加权最小二乘支持向量回归(WLS-SVR)的古汉字识别算法.WLS-SVR的权重系数采用预测误差的指数衰减函数,混合核是由具有良好局域特性的小波核函数与具有良好全局特性的RBF核函数构成.在特征提取阶段,由于全局点密度与部件结构具有全局特征,而伪二维弹性网格与局部点密度具有局部特征,因此融合了古汉字的全局和局部特征.仿真实验表明,该算法具有较高的准确率与良好的鲁棒性. 展开更多
关键词 古汉字识别 WLS-SVR 混合核 特征融合
下载PDF
大规模古籍数字化之汉字编码选择 被引量:4
20
作者 刘博 《科技情报开发与经济》 2006年第5期53-54,共2页
分析了ISO/IEC10646和Unicode对古籍数字化的重要意义,探讨了以Unicode为汉字编码的古籍数字化的跨平台展现。
关键词 汉字编码 古籍 数字化 UNICODE
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部