摘要
本文总结和分析了常用的中文分词方法,并提出了一种基于上下文的分词算法。算法的原理是在文档中抽取最长重复字串,进而得到索引项。这种分词方法使得分词更加简单准确。
Chinese automatic word segmentation is a basic task in the area of Chinese Information Search Engine.ARer summarizing the current techniques used in Chinese word segmentation,this paper presents a new method for word segmentation,this arithmetic which is based on finding the longest repeated string in text can cutting words accuractcly.
出处
《计算机光盘软件与应用》
2011年第15期90-90,共1页
Computer CD Software and Application
关键词
中文分词
基于上下文
信息检索
Chinese word scglnentation
Context-bascd
Information retrieval