期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Multigram语言模型的主动学习中文分词 被引量:6
1
作者 冯冲 陈肇雄 +1 位作者 黄河燕 关真珍 《中文信息学报》 CSCD 北大核心 2006年第1期50-58,共9页
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,... 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。 展开更多
关键词 计算机应用 中文信息处理 分词 无督导机器学习 主动学习 EM算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部