期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于信息熵的中文高频词抽取算法 被引量:22
1
作者 任禾 曾隽芳 《中文信息学报》 CSCD 北大核心 2006年第5期40-43,90,共5页
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分... 为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。 展开更多
关键词 人工智能 自然语言处理 中文抽词 信息熵 高频
下载PDF
一种基于逐层扫描的频繁字串快速提取算法 被引量:1
2
作者 张宇萌 刘传汉 《计算机科学》 CSCD 北大核心 2008年第5期127-130,共4页
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词 频繁字串 中文抽词 逐层扫描 互信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部