期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
汉字种子混淆集的构建方法研究 被引量:7
1
作者 施恒利 刘亮亮 +3 位作者 王石 符建辉 张再跃 曹存根 《计算机科学》 CSCD 北大核心 2014年第8期229-232,253,共5页
汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此... 汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。 展开更多
关键词 错别字混淆集 自扩展 开源数据 基于规则和统计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部