摘要
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题。对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题。文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法。
The search engine technology has become a new research topic in the Tibetan information processing with the growing popularity of information technology and its development. The understanding of gathered Tibetan web page text or user inquiring keywords and its extraction and processing are the basic work of the search engine, which cannot be avoided Tibetan word segmentation. The accuracy of Tibetan word segmentation directly affects on the efficiency of inquiring with search engine and the list order of sorted information. As the result, Tibetan word segmentation becomes the key point in the Tibetan search engine process. In the present paper, the technique of identifying the Tibetan word segmentation in Tibetan search engine process was analyzed based on character string match and provided an appropriate solution.
基金
2013年度西藏大学青年科研培育基金项目"藏文搜索引擎倒排索引模块的设计与实现"(项目号:ZDPJZK201310)
2011年度国家自然科学基金项目"基于虚词的藏语基本句型的形式化研究"(项目号:61063015)
2011年度国家自然科学基金项目"藏语依存树库的构建"(项目号:61163043)阶段性成果
关键词
藏文搜索引擎
藏文文本
藏文分词
Tibetan search engine
Tibetan text
Tibetan word segmentation