-
题名字典与统计相结合的中文分词方法
被引量:42
- 1
-
-
作者
翟凤文
赫枫龄
左万利
-
机构
吉林大学软件学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
-
基金
国家自然科学基金项目(60373099)资助.
-
文摘
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
-
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
-
Keywords
chinese word segmentation
chinese word segmentation based on dictionary
chinese word segmentation based on statistical method
crossing ambiguities in chinese word segmentation
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于字典和统计的分词方法
被引量:13
- 2
-
-
作者
陈平
刘晓霞
李亚军
-
机构
西北大学信息科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第10期144-146,共3页
-
基金
陕西省自然科学基金(the Natural Science Foundation of Shaanxi Province of China under Grant No.2006F50)
航空科学基金项目(No.06ZC31001)
-
文摘
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
-
关键词
基于字典的分词
基于统计的分词
交叉歧义
未登录词
-
Keywords
word segmentation based on dictionary
word segmentation based on statistical method
crossing ambiguities
unregistered
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-