期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于大规模语料库的新词检测 被引量:32
1
作者 崔世起 刘群 +2 位作者 孟遥 于浩 西野文人 《计算机研究与发展》 EI CSCD 北大核心 2006年第5期927-932,共6页
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见... 自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域. 展开更多
关键词 新词 垃圾串 垃圾头 垃圾尾 独立词概率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部