期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于迭代算法的新词识别 被引量:7
1
作者 赵小宝 张华平 《计算机工程》 CAS CSCD 2014年第7期154-158,164,共6页
新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结... 新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。 展开更多
关键词 对偶原理 新词识别 迭代算法 信息熵 重复模式 中文词语搭配库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部