期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
规则与统计相结合的分词一致性检验 被引量:7
1
作者 刘博 郑家恒 张虎 《计算机工程与设计》 CSCD 北大核心 2008年第7期1814-1816,1827,共4页
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处... 建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量。 展开更多
关键词 中文信息处理 大规模语料库 分词一致性检验 分词 语料库加工
下载PDF
在特定类型的二字词组合型歧义消解过程中保证分词的一致性
2
作者 陈丽江 《文教资料》 2006年第23期99-100,共2页
在汉语的自动分词过程中,组合型歧义和分词不一致常常交织在一起,严重影响了切分结果的质量。本文试通过对熟语料库中“v+a”和“m+q”结构类型的二字词进行分类,每一类确定不同的方法来消解组合型歧义,以保证分词过程中的一致性。
关键词 组合型歧义 分词一致性 结构类型
下载PDF
基于CRFs和词典信息的中古汉语自动分词 被引量:25
3
作者 王晓玉 李斌 《数据分析与知识发现》 CSSCI CSCD 2017年第5期62-70,共9页
【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词... 【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词不一致研究主要针对双字词,因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】在有效提高分词一致性的前提下,字符分类、词典标记特征能够有效提高中古汉语CRFs分词的精确度。同时本文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。 展开更多
关键词 CRFs模型 分词一致性 中古汉语 自动分词
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部