期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语料库的高频最大交集型歧义字段考察 被引量:6
1
作者 李斌 陈小荷 +1 位作者 方芳 徐艳华 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上... 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 展开更多
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部