期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于二元背景模型的新词发现 被引量:10
1
作者 吴悦 燕鹏举 翟鲁峰 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1317-1320,共4页
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新... 该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。 展开更多
关键词 新词发现 二元组 背景模型 似然比
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部