期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 被引量:4
1
作者 谢海华 李奥林 +4 位作者 李亚博 陈志优 程静 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2021年第5期38-45,共8页
由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错... 由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正。为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型。 展开更多
关键词 中文错别字纠正 预训练语言模型 单字级别模型
下载PDF
基于BERT和多特征融合嵌入的中文拼写检查 被引量:1
2
作者 刘哲 殷成凤 李天瑞 《计算机科学》 CSCD 北大核心 2023年第3期282-290,共9页
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符... 由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。 展开更多
关键词 中文拼写检查 BERT 文本校对 掩码语言模型 字词错误校对 预训练模型
下载PDF
基于局部语义增强的中文拼写纠错方法
3
作者 卓奕炜 田泽佳 门豪 《电子设计工程》 2023年第3期54-57,62,共5页
针对当前主流的中文拼写纠错模型对文本局部上下文特征学习不足的问题,该文提出基于局部语义特征增强的改进思路:在自注意力计算单元中添加高斯分布的偏置矩阵,改变注意力权重分布,使得纠错模型可以强化对当前位置相邻文本特征的学习;... 针对当前主流的中文拼写纠错模型对文本局部上下文特征学习不足的问题,该文提出基于局部语义特征增强的改进思路:在自注意力计算单元中添加高斯分布的偏置矩阵,改变注意力权重分布,使得纠错模型可以强化对当前位置相邻文本特征的学习;而在计算注意力得分时减少当前位置的权重,可以进一步提升学习局部信息的效果。实验表明,该文提出的改进方法对中文拼写纠错任务的精确率、召回率和F1值均有提升,其中F1值与过往最好成果相比可提升1.74%。 展开更多
关键词 中文拼写纠错 自注意力网络 局部语义增强 高斯分布
下载PDF
基于深度模型的汉字拼写检查方法
4
作者 陈哲 曹阳 《南通大学学报(自然科学版)》 CAS 2023年第4期69-78,共10页
针对汉语初学者在学习汉语时不可避免地会出现拼写错误的问题,提出一个汉语拼写检查模型,用以检测和纠正句子中的拼写错误。模型结合了汉字的视觉特征和语音特征,由一个检查网络和一个纠正网络构成。基于双向长短期记忆网络(bidirection... 针对汉语初学者在学习汉语时不可避免地会出现拼写错误的问题,提出一个汉语拼写检查模型,用以检测和纠正句子中的拼写错误。模型结合了汉字的视觉特征和语音特征,由一个检查网络和一个纠正网络构成。基于双向长短期记忆网络(bidirectional long short-term memory network,BiLSTM)和条件随机场(conditional random field,CRF)构成的检测网络用于检测句子中的错误字;基于BERT(bidirectional encoder representations from transformer)模型的纠正网络用以结合全局上下文信息对检测到的错误字进行纠正。最后,在CLP-2014,SIGHAN-2013和SIGHAN-2015数据集上进行实验,结果表明:相比现有的方法,提出的模型在错字检测和错字纠正上的效果均得到了提升;相比利用视觉特征,汉字的语音特征能更好地提升错字的检测效果。 展开更多
关键词 汉语拼写检查 长短期记忆网络 条件随机场 BERT
下载PDF
基于大规模网络语料的藏文音节拼写错误统计与分析 被引量:6
5
作者 刘汇丹 洪锦玲 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700... 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 展开更多
关键词 藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
下载PDF
中文文本自动校对 被引量:23
6
作者 张磊 周明 +1 位作者 黄昌宁 潘海华 《语言文字应用》 CSSCI 北大核心 2001年第1期19-26,共8页
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对... 本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。 展开更多
关键词 中文文本自动校对 拼写检查 自然语言处理
下载PDF
微信语音找书研究 被引量:15
7
作者 黎邦群 《图书情报知识》 CSSCI 北大核心 2014年第6期54-61,共8页
针对当前手机输入文字不便、拼写容易出错导致用户找书体验不佳的现状,通过分析语音找书的应用现状与实际工作中的应用需求,阐述了基于微信公众平台建设图书馆公众号语音找书应用的技术思路,采用拼写检查、中文分词、拼音搜索等关键技... 针对当前手机输入文字不便、拼写容易出错导致用户找书体验不佳的现状,通过分析语音找书的应用现状与实际工作中的应用需求,阐述了基于微信公众平台建设图书馆公众号语音找书应用的技术思路,采用拼写检查、中文分词、拼音搜索等关键技术和方法,判断用户的真实查询意图,优化图书查找的策略,对用户使用微信输入语音的识别结果进行修正和反馈,提出了语音找书的具体设计方案、建设实现过程、建设中出现的主要问题及解决方法,并对应用效果进行了评估,结果成功实现了微信语音找书,方便了用户,提升了找书的效率与服务的质量。 展开更多
关键词 微信 公众号 语音找书 图书查询 拼写检查 中文分词 拼音搜索
下载PDF
一个用于OCR输出的中文文本的拼写校对系统 被引量:3
8
作者 李蓉 《中文信息学报》 CSCD 北大核心 2009年第5期92-97,共6页
该文描述了一个处理OCR输出的中文文本的拼写校正系统。使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本。首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使... 该文描述了一个处理OCR输出的中文文本的拼写校正系统。使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本。首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存:(校正词,错词,出现次数)。用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库。错误模式可看作是校正规则,用于校正文本中和模式中与"错词"相同形式的错误。根据"错词"的长度将错误模式分为两类,一类为"错词"的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为"错词"的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正。以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累。由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好。结尾部分给出了本校对系统的实验结果。 展开更多
关键词 计算机应用 中文信息处理 错误校对 正负语料 学习算法
下载PDF
基于最小编辑距离的维语词语检错与纠错研究 被引量:11
9
作者 玛依热.依布拉音 米吉提.阿不里米提 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2008年第3期110-114,共5页
拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimume ditdistance)算法实现了维吾尔语文本拼写错误... 拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimume ditdistance)算法实现了维吾尔语文本拼写错误分析中的查错和纠错功能,并以此为基础,结合维吾尔语构词规则,进一步提高了建议候选词的准确率和速度。该算法已被成功地应用到了维吾尔语文字自动校对和多文种文本检索等领域中。在以新疆高校学报为语料的测试中,词语查纠率达到85%以上。 展开更多
关键词 计算机应用 中文信息处理 维语尔语 词法分析 纠错 最小编辑距离
下载PDF
服务于拼写检查的伪语料生成方法实现
10
作者 胡睿 《数字技术与应用》 2021年第1期177-179,共3页
大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中... 大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用。本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果。 展开更多
关键词 伪语料生成 中文拼写检查 编辑距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部