-
题名基于语料库的高频最大交集型歧义字段考察
被引量:6
- 1
-
-
作者
李斌
陈小荷
方芳
徐艳华
-
机构
南京师范大学文学院
-
出处
《中文信息学报》
CSCD
北大核心
2006年第1期1-6,共6页
-
基金
南京师范大学211资助项目(1240702504)
-
文摘
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
-
关键词
计算机应用
中文信息处理
最大交集型歧义字段
全切分
强势切分
-
Keywords
computer application
Chinese information processing
maximal overlapping ambiguity siring
word omni-segmentation
biased segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-