期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
无词典中文高频词快速抽取算法 被引量:3
1
作者 江华 苏晓光 《现代图书情报技术》 CSSCI 北大核心 2012年第6期50-53,共4页
在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该... 在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。 展开更多
关键词 中文信息处理 高频词抽取 PAT数组 中文分 关键分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部