期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
维吾尔语网站识别方法
1
作者 阿力木.木拉提 艾孜尔古丽 玉素甫.艾拜都拉 《计算机工程与设计》 北大核心 2016年第5期1417-1420,F0003,共5页
通过调查与分析大量维吾尔文网页结构,对互联网中现有的维吾尔文网页进行网页识别研究。探讨维吾尔文不规范网页的字符编码转换方法,为此进行维吾尔文编码标准化处理。考虑维吾尔文网页独有的节点属性,提出一种基于维吾尔文网页文本节... 通过调查与分析大量维吾尔文网页结构,对互联网中现有的维吾尔文网页进行网页识别研究。探讨维吾尔文不规范网页的字符编码转换方法,为此进行维吾尔文编码标准化处理。考虑维吾尔文网页独有的节点属性,提出一种基于维吾尔文网页文本节点特征的方法,但该方法显示略低的准确率及较多的误判率。结合维吾尔语常用候选词语料和向量空间模型(vector space module),提出一种基于维吾尔语常用词统计学特征的方法,利用测试网页内容和维吾尔语常用候选词语料,并将其以向量来表示,计算测试网页文本的词语在维吾尔语常用候选词中的相应权值,依据相应权值来计算测试网页为维吾尔文网页的概率,进行网页识别。对两种方法进行比较,准确率分别是69.85%和91%。实验结果表明,基于维吾尔语常用词统计学特征的方法比网页文本节点特征的方法具有更高的准确率,验证了该方法的有效性。 展开更多
关键词 维吾尔文 网页文本节点 向量空间模型 网页识别 常用词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部