期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
中文错别字规范化校准系统设计
被引量:
1
1
作者
熊云惠
《新乡学院学报》
2020年第3期44-47,共4页
设计了一种中文错别字规范化校准系统,采用帧扫描技术采集中文错别字规范化校准图像,利用边缘信息融合和角点特征检测方法定位图像规范化笔画,提取中文错别字规范化特征点,在机器视觉模式下进行中文错别字规范化校准识别。实验结果表明...
设计了一种中文错别字规范化校准系统,采用帧扫描技术采集中文错别字规范化校准图像,利用边缘信息融合和角点特征检测方法定位图像规范化笔画,提取中文错别字规范化特征点,在机器视觉模式下进行中文错别字规范化校准识别。实验结果表明:研究方法识别能力较高,提高了中文错别字规范化校准的智能性。
展开更多
关键词
智能识别
中文错别字
规范化校准系统
下载PDF
职称材料
CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
被引量:
4
2
作者
谢海华
李奥林
+4 位作者
李亚博
陈志优
程静
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2021年第5期38-45,共8页
由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错...
由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正。为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型。
展开更多
关键词
中文错别字
纠正
预训练语言模型
单字级别模型
下载PDF
职称材料
基于门控特征融合的中文错别字纠正模型
3
作者
周雨昊
孙哲
+1 位作者
吴晓非
禹可
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2023年第4期91-96,122,共7页
针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,...
针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,提升模型性能并加强模型的可解释性。此外,使用改进的四角号码编码汉字的字形信息,有效地提取了汉字的字形特征,并且基于此扩展了模型预训练时的字形相似混淆集。使用了基于混淆集替换的预训练掩码策略,使模型能有效学习文本错误知识。在公开数据集SIGHAN13、SIGHAN14和SIGHAN15上,所提模型分别取得了78.7%、67.8%和77.7%的纠错F1分数,相比于最优基线模型分别提升了1.5%、1.5%和1.0%。
展开更多
关键词
中文错别字
纠正
预训练
门控特征融合
四角号码
原文传递
题名
中文错别字规范化校准系统设计
被引量:
1
1
作者
熊云惠
机构
安徽工业经济职业技术学院电气工程学院
出处
《新乡学院学报》
2020年第3期44-47,共4页
基金
安徽省高校研究重点项目(SK2017A0715)。
文摘
设计了一种中文错别字规范化校准系统,采用帧扫描技术采集中文错别字规范化校准图像,利用边缘信息融合和角点特征检测方法定位图像规范化笔画,提取中文错别字规范化特征点,在机器视觉模式下进行中文错别字规范化校准识别。实验结果表明:研究方法识别能力较高,提高了中文错别字规范化校准的智能性。
关键词
智能识别
中文错别字
规范化校准系统
Keywords
intelligent recognition
Chinese character miswriting
standardized calibration system
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
被引量:
4
2
作者
谢海华
李奥林
李亚博
陈志优
程静
吕肖庆
汤帜
机构
北大方正集团有限公司
北京大学王选计算机研究所
出处
《中文信息学报》
CSCD
北大核心
2021年第5期38-45,共8页
基金
国家重点研发计划(2019YFB1406302)
国家自然科学基金(61472014,61573028,61432020)
+1 种基金
北京市自然科学基金(4142023)
北京市科技新星计划(XX2015B010)。
文摘
由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正。为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型。
关键词
中文错别字
纠正
预训练语言模型
单字级别模型
Keywords
Chinese spelling checking and correction
pre-trained language model
char-based model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于门控特征融合的中文错别字纠正模型
3
作者
周雨昊
孙哲
吴晓非
禹可
机构
北京邮电大学人工智能学院
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2023年第4期91-96,122,共7页
基金
国家自然科学基金项目(61601046)。
文摘
针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,提升模型性能并加强模型的可解释性。此外,使用改进的四角号码编码汉字的字形信息,有效地提取了汉字的字形特征,并且基于此扩展了模型预训练时的字形相似混淆集。使用了基于混淆集替换的预训练掩码策略,使模型能有效学习文本错误知识。在公开数据集SIGHAN13、SIGHAN14和SIGHAN15上,所提模型分别取得了78.7%、67.8%和77.7%的纠错F1分数,相比于最优基线模型分别提升了1.5%、1.5%和1.0%。
关键词
中文错别字
纠正
预训练
门控特征融合
四角号码
Keywords
Chinese spelling correction
pre-training
gated feature fusion
four corner code
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
中文错别字规范化校准系统设计
熊云惠
《新乡学院学报》
2020
1
下载PDF
职称材料
2
CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
谢海华
李奥林
李亚博
陈志优
程静
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2021
4
下载PDF
职称材料
3
基于门控特征融合的中文错别字纠正模型
周雨昊
孙哲
吴晓非
禹可
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2023
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部