期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
博客语料的新词发现方法 被引量:17
1
作者 黄轩 李熔烽 《现代电子技术》 2013年第2期144-146,149,共4页
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间... 新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。 展开更多
关键词 新词 词串统计 上下文分析 分词 候选词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部