-
题名WEB维文信息检索系统中维文的存储和特征项抽取
被引量:1
- 1
-
-
作者
陈丽珍
卡米力.毛依丁
-
机构
新疆大学信息科学与工程学院计算机系
-
出处
《新疆大学学报(自然科学版)》
CAS
2006年第1期90-92,4,共4页
-
基金
新疆大学校
院(系)联合资助项目
-
文摘
本文介绍了维文在存储和文档特征项抽取方面与中、英文的不同之处,在维文文档的特征项抽取、加权、相似度计算、模型的建立等方面做了一些探讨,提出了一种基于网络的维文信息处理(如:维文网页下载、网页内容信息的存储、以及无词典智能化维文抽词)的方法.文中论述了算法的设计思想和相关的实现技术.
-
关键词
WEB
维文信息检索
向量空间模型
信息存储
-
Keywords
web Uigur web information retrieval
vector space model
the storage of information
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向维吾尔跨文字搜索引擎的统一转换机制设计
被引量:4
- 2
-
-
作者
依不拉音.乌斯曼
王悦
-
机构
新疆财经大学计算机科学与工程学院
中央财经大学信息学院计算机系
-
出处
《计算机科学》
CSCD
北大核心
2016年第S2期77-82,共6页
-
基金
新疆财经大学科研基金:维吾尔语言文字信息化进程研究(2014XYB006)
国家自然科学基金(61503422)
北京市社会科学基金(15JGC150)资助
-
文摘
随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的"一语多文"的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文"一语多文"特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的"一带一路"战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。
-
关键词
维文信息检索
维文搜索引擎
跨文字转换机制
-
Keywords
Uyghur information retrieval
Uyghur search engine
Cross-character converting mechanism
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-