期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
多语种网络文本快速新词抽取
被引量:
2
1
作者
刘冰洋
刘倩
+2 位作者
张瑾
刘欣然
程学旗
《中文信息学报》
CSCD
北大核心
2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改...
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
展开更多
关键词
新词
邻接类别
字符串整体度
后缀树
多语言
下载PDF
职称材料
题名
多语种网络文本快速新词抽取
被引量:
2
1
作者
刘冰洋
刘倩
张瑾
刘欣然
程学旗
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
国家计算机网络应急技术处理协调中心
出处
《中文信息学报》
CSCD
北大核心
2014年第2期78-84,共7页
基金
国家自然科学基金(609933005
60903139)
+2 种基金
国家242专项(2011A001
2012G129)
973项目(2013CB329601)
文摘
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
关键词
新词
邻接类别
字符串整体度
后缀树
多语言
Keywords
new words
adjacency variety
string integrity measurement
suffix tree
multi-lingual
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
多语种网络文本快速新词抽取
刘冰洋
刘倩
张瑾
刘欣然
程学旗
《中文信息学报》
CSCD
北大核心
2014
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部