期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
中文停用词表的自动选取 被引量:35
1
作者 顾益军 樊孝忠 +2 位作者 王建华 汪涛 黄维金 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第4期337-340,共4页
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传... 通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理. 展开更多
关键词 停用 中文停用词表 联合熵
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部