-
题名多级索引的藏语分词词典设计
被引量:6
- 1
-
-
作者
姚徐
郭淑妮
李永宏
于洪志
-
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2009年第B06期178-180,共3页
-
基金
中国科学院自动化研究所模式识别国家重点实验室开放课题
国家863计划项目(AA2006010101)
-
文摘
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。
-
关键词
藏语分词
分词词典
藏语整词二分法
多级索引
-
Keywords
Tibetan word segmentation, word segmentation dictionary, Tibetan whole-word dichotomy, multi-level index
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于次优查找树的词典机制研究
- 2
-
-
作者
马志强
苏依拉
-
机构
内蒙古工业大学信息工程学院
-
出处
《内蒙古工业大学学报(自然科学版)》
2010年第4期274-278,共5页
-
基金
国家自然科学基金项目(60673015)
内蒙古自然科学研究基金项目(20080404MS0904)
+1 种基金
内蒙古教育厅基金项目(NJ09068)
内蒙古工业大学科学研究项目(X200806)
-
文摘
在使用相同分词算法的情况下,词典机制决定着词语的查询速度,也影响着分词的速度和分词系统的广泛应用。根据词语在文本中出现频率的不同,通过构造次优查找树的词典机制,使得在分词过程中减少了比较次数,提高了分词的速度。最后采用最大逆向分词算法进行了对比实验,实验表明分词效率有一定提高。
-
关键词
中文分词
词典机制
次优查找树
整词二分法
-
Keywords
Chinese word segmentation, dictionary mechanism, nearly optimal search tree, binary -seek - by - word.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-