-
题名基于统计的维吾尔文信息熵的估计
被引量:2
- 1
-
-
作者
塞麦提·麦麦提敏
-
机构
中国传媒大学
新疆大学
-
出处
《电脑知识与技术》
2009年第2期1014-1015,1017,共3页
-
基金
国家社科基金项目(07xyy019)
-
文摘
信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度。
-
关键词
维吾尔文
信息熵
多余度
语料库
统计
-
Keywords
Uyghur script
entropy
redundancy
corpus
statistics
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名维吾尔语停用词抽取方法研究
- 2
-
-
作者
塞麦提·麦麦提敏
司马义·阿不都热依木
-
机构
新疆大学中国语言学院
新疆民汉语文翻译研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第10期288-292,300,共6页
-
基金
国家社会科学基金(17XYY034)
教育部人文社会科学研究青年项目(16XJJC740001)
-
文摘
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。
-
关键词
信息检索
停用词
维吾尔语
文本分类
语料统计
-
Keywords
information retrieval
stop words
Uyghur
text classification
corpus statistics
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-