期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于上下文词频词汇量指标的新词发现方法 被引量:9
1
作者 邢恩军 赵富强 《计算机应用与软件》 CSCD 2016年第6期64-67,共4页
提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的... 提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法,克服了N-gram方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率,通过选取不同的词频词汇量指标值作为阈值,能够在发现更多新词和提高发现新词的准确率方面进行灵活调整,为新词发现提供一种实用的方法。 展开更多
关键词 新词发现 上下文信息熵 词频词汇量指标
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部