期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
多语种网络文本快速新词抽取 被引量:2
1
作者 刘冰洋 刘倩 +2 位作者 张瑾 刘欣然 程学旗 《中文信息学报》 CSCD 北大核心 2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改... 从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。 展开更多
关键词 新词 邻接类别 字符串整体度 后缀树 多语言
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部