期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于统计的维吾尔文信息熵的估计 被引量:2
1
作者 塞麦提·麦麦提敏 《电脑知识与技术》 2009年第2期1014-1015,1017,共3页
信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得... 信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度。 展开更多
关键词 维吾尔文 信息熵 多余度 语料库 统计
下载PDF
维吾尔语停用词抽取方法研究
2
作者 塞麦提·麦麦提敏 司马义·阿不都热依木 《计算机工程》 CAS CSCD 北大核心 2019年第10期288-292,300,共6页
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进... 为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。 展开更多
关键词 信息检索 停用词 维吾尔语 文本分类 语料统计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部