摘要
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。
It is a trend that MIS provide a Chinese indexing interface,its main difficulty is how to let the computer comprehend Chinese In this paper we set up a word segmentation system of Chinese intelligent indexing interface and propose its word segmentation strategy. After disussing the ambiguity problems of Chinses word segmentation, we give a diambiguity alogrithem based on mutual information and difference t-test. The experimental results show that it has a high segmentation accuracy rate and efficiency.
出处
《计算机科学》
CSCD
北大核心
2006年第7期204-206,共3页
Computer Science
基金
四川省重点科技攻关项目(05SG022-016)
西南民族大学自然科学研究项目(05NY003)
关键词
MIS
自动分词
切分歧义
交集型歧义
组合型歧义
MIS, Automatic word segmentation, Word segmentation ambiguity, Crossing ambiguity, Combination ambi- guity