-
题名汉字种子混淆集的构建方法研究
被引量:7
- 1
-
-
作者
施恒利
刘亮亮
王石
符建辉
张再跃
曹存根
-
机构
江苏科技大学计算机科学与工程学院
中国科学院大学研究生院
中国科学院计算技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2014年第8期229-232,253,共5页
-
基金
国家自然科学基金重点项目(91224006
61173063
+1 种基金
61035004)
国家自然科学基金面上项目(61203284)资助
-
文摘
汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。
-
关键词
错别字混淆集
自扩展
开源数据
基于规则和统计
-
Keywords
Wrongly written characters set, Self-expansion, Open source data, Rule and statistics base
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-