期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
带标记音节的双向维汉神经机器翻译方法 被引量:3
1
作者 艾山·吾买尔 斯拉吉艾合麦提·如则麦麦提 +4 位作者 西热艾力·海热拉 刘文其 吐尔根·依布拉音 汪烈军 瓦依提·阿不力孜 《计算机工程与应用》 CSCD 北大核心 2021年第4期161-168,共8页
近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,... 近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入BME(Begin,Middle,End)标记思想,提出一种基于带标记音节的神经网络机器翻译方法。与使用单词粒度和BPE粒度的两类神经网络机器翻译方法对比,该方法在维-汉机器翻译任务中分别提升7.39与3.04个BLEU值,在汉-维机器翻译任务中分别提升5.82与3.09个BLEU值,可见在平行语料不足的条件下,该方法有效地提升了维-汉机器翻译的质量。 展开更多
关键词 神经机器翻译 数据稀疏 音节粒度 维汉神经机器翻译
下载PDF
基于统计的维文汉文人名音译研究 被引量:1
2
作者 谭煜辉 吐尔根·依布拉音 +1 位作者 艾山·吾买尔 买合木提·买买提 《新疆大学学报(自然科学版)》 CAS 2012年第1期108-111,共4页
传统的维汉人名音译大多是基于规则的,不同于基于语音的音译,本文在直接正字匹配(DOM)的框架下,将统计的思想引入到维汉人名的音译中,采用信源信道模型,将人名看成是特殊的句子,实现了维汉人名的自动音译.实验结果表明,直接正字匹配减... 传统的维汉人名音译大多是基于规则的,不同于基于语音的音译,本文在直接正字匹配(DOM)的框架下,将统计的思想引入到维汉人名的音译中,采用信源信道模型,将人名看成是特殊的句子,实现了维汉人名的自动音译.实验结果表明,直接正字匹配减少了中间过程,从而提高了音译的准确率,而统计的机器翻译方法比较灵活,能利用外来的信息,更加适合进行维汉人名音译. 展开更多
关键词 自然语言处理 统计 音译 维汉人名对
下载PDF
新疆少数民族语言文字信息处理研究与应用 被引量:26
3
作者 吐尔根·依布拉音 袁保社 《中文信息学报》 CSCD 北大核心 2011年第6期149-156,共8页
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔... 该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。 展开更多
关键词 维吾尔文 哈萨克文 柯尔克孜文 信息处理 操作系统 自然语言 标准
下载PDF
基于机器学习的维吾尔文文本分类研究 被引量:20
4
作者 阿力木江·艾沙 吐尔根·依布拉音 +1 位作者 艾山·吾买尔 马尔哈巴·艾力 《计算机工程与应用》 CSCD 2012年第5期110-112,共3页
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空... 随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Nave Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。 展开更多
关键词 文本分类 朴素贝叶斯方法 k-最近邻方法(kNN) 维吾尔语 特征选择
下载PDF
基于短语的维吾尔文文本分类 被引量:5
5
作者 阿力木江·艾沙 吐尔根·依布拉音 +1 位作者 库尔班·吾布力 李哲 《计算机应用》 CSCD 北大核心 2012年第10期2923-2926,共4页
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语... 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。 展开更多
关键词 文本分类 短语抽取 支持向量机 维吾尔语 互信息
下载PDF
基于动态预测和任务流整形的网格调度算法 被引量:1
6
作者 田生伟 吐尔根·依布拉音 禹龙 《计算机工程》 CAS CSCD 北大核心 2008年第8期120-122,共3页
针对网格环境下计算节点的自治性、异构性、分布性等特征,提出一种基于任务响应时间的动态修正预测和任务流整形的网格调度算法,该调度方法依据历史数据和最近访问过计算节点的任务请求提交时间、任务完成时间、网络通信延迟等信息,预... 针对网格环境下计算节点的自治性、异构性、分布性等特征,提出一种基于任务响应时间的动态修正预测和任务流整形的网格调度算法,该调度方法依据历史数据和最近访问过计算节点的任务请求提交时间、任务完成时间、网络通信延迟等信息,预测计算节点的将来任务响应时间,将任务提交给预测的轻负载或性能较优的计算节点完成。通过使用动态修正算法和任务流整形算法降低预测误差,提高资源利用率。实验结果表明,该方法在任务响应时间、任务的吞吐率等方面优于随机调度等传统算法,具有较好的综合性能。 展开更多
关键词 预测 响应时间 任务流整形 负载均衡
下载PDF
C语言指针教学方法探讨 被引量:3
7
作者 于清 吐尔根·依布拉音 《计算机教育》 2008年第15期111-114,共4页
指针是C语言的重点,也是教学难点。本文基于计算机教学实践,分析了边疆学生学习C语言指针过程中存在问题的原因,提出了适用的教学方法,提高学生理解和应用指针的能力,进一步增强教学效果。
关键词 指针 教学现状 教学方法
下载PDF
维吾尔语形容词构形词缀有限状态自动机 被引量:4
8
作者 早克热·卡德尔 吐尔根·依布拉音 《电脑知识与技术》 2009年第2期939-941,共3页
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。
关键词 维吾尔语 黏着语 构形词缀 有限自动机 语音和谐 词干提取
下载PDF
“突厥语大词典”电子词典的设计与实现 被引量:1
9
作者 买合木提·买买提 吐尔根·依布拉音 艾山·吾买尔 《电脑知识与技术》 2009年第4期2649-2651,共3页
介绍了11世纪中国突厥语言学著作“突厥语大词典”的电子词典软件的设计与实现。突厥语大辞典的电子版是突厥语大辞典的维、土、汉、英版本的基础上研究了多语种(维吾尔语、土耳其语、汉语、英语)突厥语大辞典电子版的构建技术。实现... 介绍了11世纪中国突厥语言学著作“突厥语大词典”的电子词典软件的设计与实现。突厥语大辞典的电子版是突厥语大辞典的维、土、汉、英版本的基础上研究了多语种(维吾尔语、土耳其语、汉语、英语)突厥语大辞典电子版的构建技术。实现了具有通过原词或原词在以上四种不同语言中的词义来快速查找的功能。详细介绍了本词典的总体结构、功能、数据库设计、查找算法、系统运行机制。最后提出了进一步增强、改进系统的一些设想。 展开更多
关键词 突厥语大辞 电子词典 资源检索 多语种
下载PDF
一种基于任务响应时间预测的网格调度算法的研究
10
作者 田生伟 吐尔根·依布拉音 +1 位作者 禹龙 于炯 《计算机工程与应用》 CSCD 北大核心 2008年第1期123-125,共3页
针对网格环境下计算节点的自治性、异构性、分布性等特征,提出了一种动态的基于任务响应时间预测的调度算法。该调度方法依据历史数据和最近访问过计算节点的任务请求提交时间、任务完成时间、网络通信延迟等信息,预测计算节点将来的任... 针对网格环境下计算节点的自治性、异构性、分布性等特征,提出了一种动态的基于任务响应时间预测的调度算法。该调度方法依据历史数据和最近访问过计算节点的任务请求提交时间、任务完成时间、网络通信延迟等信息,预测计算节点将来的任务响应时间,将任务提交给轻负载或性能较优的计算节点完成。实验结果表明,该方法不但可以有效减少不必要的延迟,而且在任务响应时间、任务的吞吐率及任务在调度器内等待被调度的时间方面比随机调度等传统算法要优。 展开更多
关键词 预测 响应时间 负载均衡
下载PDF
维吾尔语词法分析的有向图模型 被引量:22
11
作者 麦热哈巴·艾力 姜文斌 +2 位作者 王志洋 吐尔根·依布拉音 刘群 《软件学报》 EI CSCD 北大核心 2012年第12期3115-3129,共15页
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词... 维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩. 展开更多
关键词 维吾尔语 词法分析 词语切分 词性标注 有向图
下载PDF
结合单词-字符引导注意力网络的中文旅游文本命名实体识别 被引量:6
12
作者 西尔艾力·色提 艾山·吾买尔 +3 位作者 王路路 吐尔根·依布拉音 马喆康 买合木提·买买提 《计算机工程》 CAS CSCD 北大核心 2021年第2期39-45,共7页
传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息... 传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。 展开更多
关键词 命名实体识别 字符引导注意力网络 单词引导注意力网络 字符语义 信息互补 位置信息
下载PDF
一种提高维吾尔语-汉语词语对齐的方法研究 被引量:9
13
作者 麦热哈巴·艾力 王志洋 吐尔根·依布拉音 《小型微型计算机系统》 CSCD 北大核心 2012年第11期2551-2555,共5页
维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示... 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高. 展开更多
关键词 词对齐 维吾尔语 形态分析 GIZA++
下载PDF
融合词性特征的中文句子相似度计算方法 被引量:5
14
作者 吴浩 艾山·吾买尔 +2 位作者 卡哈尔江·阿比的热西提 王路路 吐尔根·依布拉音 《计算机工程与设计》 北大核心 2020年第1期150-155,共6页
为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息... 为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息调整不同词性的单词对句子相似度的影响,方法二使用词性信息选择句子中较为关键的单词进行计算。对比实验中,方法一在实验任务中取得了最高的准确率,方法二具有较优的准确率和较快计算速度,实验结果表明了两种方法的有效性。 展开更多
关键词 句子相似度 词性 权重 词向量 语义
下载PDF
亚词及单词深度维汉机器翻译模型对比 被引量:6
15
作者 张胜刚 艾山·吾买尔 +1 位作者 吐尔根·依布拉音 买合木提·买买提 《计算机工程与设计》 北大核心 2019年第8期2326-2330,共5页
针对基于神经网络的维汉机器翻译中的集外词问题和随着网络层数的加深训练和优化模型会变得更加困难这两个问题,在对相关工作研究后,提出基于深层神经网络的亚词及单词的维汉机器翻译模型。在翻译单元上将基于词的翻译单元替换为基于词... 针对基于神经网络的维汉机器翻译中的集外词问题和随着网络层数的加深训练和优化模型会变得更加困难这两个问题,在对相关工作研究后,提出基于深层神经网络的亚词及单词的维汉机器翻译模型。在翻译单元上将基于词的翻译单元替换为基于词和亚词的混合翻译单元,将基于GRU的神经非线性单元替换为基于ALU的非线性单元,缓解训练和优化模型的难度并提高译文质量。通过实验发现该模型相比基准系统提高了近13个BLEU值,该研究对形态丰富黏着语言与汉语的机器翻译具有借鉴意义。 展开更多
关键词 维汉机器翻译 深层神经网络 亚词切分 集外词问题 BLEU值
下载PDF
基于多卷积核DPCNN的维吾尔语文本分类联合模型 被引量:7
16
作者 加米拉·吾守尔 吴迪 +3 位作者 王路路 古丽尼格尔·阿不都外力 买合木提·买买提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2021年第7期63-71,共9页
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通... 由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。 展开更多
关键词 维吾尔语 文本分类 多卷积核DPCNN Bi-LSTM+CNN
下载PDF
一种集成深度学习模型的旅游问句文本分类算法 被引量:4
17
作者 马喆康 迪力亚尔·帕尔哈提 +3 位作者 早克热·卡德尔 吐尔根·依布拉音 西尔艾力·色提 艾山·吾买尔 《计算机工程》 CAS CSCD 北大核心 2020年第11期70-76,共7页
为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机... 为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机制将两种深度学习模型进行集成以实现旅游问句文本的语法和语义信息互补,并通过SoftMax分类器得到最终的旅游问句文本分类结果。实验结果表明,与基于传统深度学习模型的旅游问句文本分类算法相比,该算法在准确率和损失率上分别取得了0.9866和0.1277的最优结果,具有更好的分类效果。 展开更多
关键词 子空间结构信息 深层语义信息 多头注意力机制 卷积神经网络 双向长短期记忆网络
下载PDF
字符序列标注的维吾尔语词干提取方法 被引量:5
18
作者 古丽尼格尔·阿不都外力 买合木提·买买提 +3 位作者 吐尔根·依布拉音 早克热·卡德尔 西热艾力·海如拉 王路路 《现代电子技术》 北大核心 2020年第12期151-154,160,共5页
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提... 词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 展开更多
关键词 词干提取 序列标注 条件随机场 特征提取 模型训练 预测结果
下载PDF
维吾尔文智能输入法研究 被引量:4
19
作者 米日姑·肉孜 吐尔根·依布拉音 麦热哈巴·艾力 《中文信息学报》 CSCD 北大核心 2013年第2期98-102,117,共6页
开发智能化的输入法是维吾尔文输入技术的一个发展方向,也是维吾尔文自然语言信息处理的基础性研究课题。该文根据维吾尔文自身特点,对用户输入过程中所犯各种错误进行分析,设计并实现了词语搭配知识库,提出了基于二元语法模型的一种新... 开发智能化的输入法是维吾尔文输入技术的一个发展方向,也是维吾尔文自然语言信息处理的基础性研究课题。该文根据维吾尔文自身特点,对用户输入过程中所犯各种错误进行分析,设计并实现了词语搭配知识库,提出了基于二元语法模型的一种新型维吾尔文输入算法,并给出了实现其关键模块功能的程序流程图。它具有自动预测、自动联想输入和自动校对等功能。 展开更多
关键词 中文信息处理 维吾尔文 智能输入法 语言模型 自动预测 自动联想
下载PDF
基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究 被引量:6
20
作者 古丽尼格尔·阿不都外力 吐尔根·依布拉音 +1 位作者 卡哈尔江·阿比的热西提 王路路 《中文信息学报》 CSCD 北大核心 2019年第8期60-66,共7页
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi... 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 展开更多
关键词 维吾尔语 词干提取 Bi-LSTM-CRF
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部