期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于改进Conformer的新闻领域端到端语音识别
1
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 CONFORMER 句子层级一致性
下载PDF
融合方面语义和网格标记的多语言意见元组抽取
2
作者 古文霞 早克热·卡德尔 +1 位作者 杨乾 艾山·吾买尔 《计算机科学》 CSCD 北大核心 2024年第4期324-333,共10页
面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误... 面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误传播的问题,而且大多数只关注方面词和意见词的单个子任务抽取,忽略了不同意见元素之间的相互影响和指示信息,导致意见挖掘任务不完整。此外,面向中文的意见元素抽取任务的研究较少。针对以上问题,文中提出了融合方面语义和网格标记的多语言意见元组抽取模型。首先,使用向内LSTM(Inward-LSTM)和向外LSTM(Outward-LSTM)编码方面词及其对应的上下文信息建立方面和候选意见词的关联,再结合全局信息生成特定方面语义特征的上下文表示,有利于提高下游意见元素抽取的性能。其次,使用网格标记方案的推理策略,利用方面和意见词之间的依赖指示信息进行更准确的抽取,以端到端的方式处理AFOE任务。相比基线模型,对于方面意见对抽取任务,改进的模型在中英文数据集上的F1值提高了0.89%~4.11%,对于三元组抽取任务提高了1.36%~3.11%,实验结果表明,改进的模型能有效地对中英文评论的意见元素进行抽取,性能显著优于基线模型。 展开更多
关键词 方面意见对抽取 三元组抽取 网格标记方案 方面语义 面向方面的细粒度意见抽取
下载PDF
乌兹别克语-维吾尔语双语语料库构建平台的设计与实现 被引量:3
3
作者 阿西穆·托合提 早克热·卡德尔 +1 位作者 吐尔根·依布拉音 艾山·吾买尔 《电脑知识与技术》 2017年第3期1-2,10,共3页
在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关... 在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关系设计并实现了乌兹别克语-维吾尔语双语语料库构建平台,用该平台可以简单的转换字母生成译文,并对原文和译文分词,不仅实现句子级别的对齐任务,还能实现词语级别的对齐任务。用该平台已经构建了包含8124条句对的双语对齐语料库。 展开更多
关键词 乌兹别克语 维吾尔语 双语语料库 转换规则
下载PDF
维吾尔语形容词构形词缀有限状态自动机 被引量:4
4
作者 早克热·卡德尔 吐尔根·依布拉音 《电脑知识与技术》 2009年第2期939-941,共3页
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。
关键词 维吾尔语 黏着语 构形词缀 有限自动机 语音和谐 词干提取
下载PDF
借助毕业论文培养本科生机器学习开发能力的实践探究
5
作者 早克热·卡德尔 艾山·吾买尔 《电脑知识与技术》 2022年第30期164-167,共4页
毕业论文是本科人才培养的重要环节,能够培养和锻炼学生使用专业知识解决工程问题的综合能力。随着人工智能技术深入融合各行各业,企业对具有一定人工智能技术基础或经验学生的需求日益增长。借助毕业论文培养本科生从事机器学习相关开... 毕业论文是本科人才培养的重要环节,能够培养和锻炼学生使用专业知识解决工程问题的综合能力。随着人工智能技术深入融合各行各业,企业对具有一定人工智能技术基础或经验学生的需求日益增长。借助毕业论文培养本科生从事机器学习相关开发课题,对学生的专业发展、用人单位有很大的价值。文章以探索了如何指导学生学习机器学习原理和实践的基础上,给出了本科毕业论文任务书中可以安排的任务建议,同时分享了机器学习知识和实践的学习路线和时间分配建议。 展开更多
关键词 本科毕业论文 电子信息 机器学习 深度学习 任务书
下载PDF
基于BiLSTM+Attention的体育领域情感分析研究 被引量:3
6
作者 艾山·吾买尔 魏文琳 早克热·卡德尔 《新疆大学学报(自然科学版)》 CAS 2020年第2期142-149,共8页
针对体育领域情感分析资源不足、分析性能不高的现状,对体育领域的情感分析开展了研究.首先从"新浪体育"和"直播吧"等平台经过人工筛选、标注,构建了中文情感标注语料库CH-SPORT,共标记评论10 000条,其中积极评论5 ... 针对体育领域情感分析资源不足、分析性能不高的现状,对体育领域的情感分析开展了研究.首先从"新浪体育"和"直播吧"等平台经过人工筛选、标注,构建了中文情感标注语料库CH-SPORT,共标记评论10 000条,其中积极评论5 000条,消极评论5 000条.然后选用了SVM、TextCNN、BiLSTM、RCNN、fastText、BiLSTM+Attention等模型对CH-SPORT进行了评估.实验结果表明,BiLSTM+Attention模型在CH-SPORT上的分类效果最佳,Acc为87.75%,比基准数据集ChnSentiCorp和NLPCC2014分别高出18.65%、11.75%.本文构建的数据集能有效应用于体育情感分析研究中. 展开更多
关键词 情感分析 深度学习 循环神经网络 体育领域
下载PDF
一种集成深度学习模型的旅游问句文本分类算法 被引量:4
7
作者 马喆康 迪力亚尔·帕尔哈提 +3 位作者 早克热·卡德尔 吐尔根·依布拉音 西尔艾力·色提 艾山·吾买尔 《计算机工程》 CAS CSCD 北大核心 2020年第11期70-76,共7页
为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机... 为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机制将两种深度学习模型进行集成以实现旅游问句文本的语法和语义信息互补,并通过SoftMax分类器得到最终的旅游问句文本分类结果。实验结果表明,与基于传统深度学习模型的旅游问句文本分类算法相比,该算法在准确率和损失率上分别取得了0.9866和0.1277的最优结果,具有更好的分类效果。 展开更多
关键词 子空间结构信息 深层语义信息 多头注意力机制 卷积神经网络 双向长短期记忆网络
下载PDF
字符序列标注的维吾尔语词干提取方法 被引量:5
8
作者 古丽尼格尔·阿不都外力 买合木提·买买提 +3 位作者 吐尔根·依布拉音 早克热·卡德尔 西艾力·海如拉 王路路 《现代电子技术》 北大核心 2020年第12期151-154,160,共5页
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提... 词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 展开更多
关键词 词干提取 序列标注 条件随机场 特征提取 模型训练 预测结果
下载PDF
结合多头注意力机制的旅游问句分类研究 被引量:3
9
作者 吴迪 姜丽婷 +3 位作者 王路路 吐尔根·依布拉音 艾山·吾买尔 早克热·卡德尔 《计算机工程与应用》 CSCD 北大核心 2022年第3期165-171,共7页
旅游问句具有长度较短,不严格按照语法规则的特点,导致该文本数据信息容量过少、口语化严重。充分理解问句表达的语义是提高旅游问句分类器性能面临的重要挑战,基于此,提出一个融合Bi-GRU、CNN与Multi-Head-Attention的旅游问句分类模... 旅游问句具有长度较短,不严格按照语法规则的特点,导致该文本数据信息容量过少、口语化严重。充分理解问句表达的语义是提高旅游问句分类器性能面临的重要挑战,基于此,提出一个融合Bi-GRU、CNN与Multi-Head-Attention的旅游问句分类模型。该模型将预先训练的词向量和经Bi-GRU处理得到的语义信息进行融合,进行问句依赖关系学习,通过CNN和Multi-Head-Attention进行特征提取,以加强局部特征的学习,通过Softmax完成分类。实验结果表明,该模型在文本信息少、表述不规范的旅游问句分类任务中F1值达到了92.11%,优于现有的主流分类模型。 展开更多
关键词 自然语言处理 旅游问句分类 双向门控循环单元(Bi-GRU) 卷积神经网络(CNN) 多头注意力机制
下载PDF
体育器材数据集的构建及分类方法研究 被引量:1
10
作者 石瑞 艾山·吾买尔 +2 位作者 早克热·卡德尔 王中玉 杰恩斯艾力·努尔达艾勒 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第4期54-63,共10页
针对现有公开体育器材数据集较少且种类有限的缺点,构建了一个新的数据集SED(Sports Equipment Dataset),该数据集具有分布均衡、多样性高、背景丰富等优点.对于多类别小规模数据集,单一模型预测效果不能达到预期的准确率,因此在构建SE... 针对现有公开体育器材数据集较少且种类有限的缺点,构建了一个新的数据集SED(Sports Equipment Dataset),该数据集具有分布均衡、多样性高、背景丰富等优点.对于多类别小规模数据集,单一模型预测效果不能达到预期的准确率,因此在构建SED数据集基础上,提出了一种模型融合与迁移学习相结合的方法.选取ResNet50和InceptionV3作为特征提取器,将2个模型提取的特征融合输入到全连接层再实现分类.同时利用迁移学习的方法优化模型参数,进一步提高模型精度.实验结果表明,在涉及69类体育器材图片分类任务中,准确率达到85%,对体育器材图片分类具有较好的效果. 展开更多
关键词 体育器材 ResNet50 InceptionV3 迁移学习 模型融合
下载PDF
普通话水平测试命题说话模块自动评分技术研究
11
作者 申云飞 刘嘉俊 +2 位作者 范智星 早克热·卡德尔 艾山·吾买尔 《电脑知识与技术》 2022年第11期7-10,共4页
命题说话是至今唯一采用人工方式评分的普通话水平测试考题,实现高精度命题说话评测技术有利于国家通用语言文字的推广普及。该文提出了基于回归模型的PSC命题说话模块评分模型,并在自建的PSC命题说话数据集上对比了基于不同回归模型的... 命题说话是至今唯一采用人工方式评分的普通话水平测试考题,实现高精度命题说话评测技术有利于国家通用语言文字的推广普及。该文提出了基于回归模型的PSC命题说话模块评分模型,并在自建的PSC命题说话数据集上对比了基于不同回归模型的预测精度。实验结果表明,基于XGBoost的PSC命题说话模块评分模型在测试集上与综合专家评分的皮尔逊相关系数达到了0.860,相比线性回归模型提升了17.5%,与人工专家评分具有较高的相关度,具有一定的实用价值。 展开更多
关键词 普通话水平测试考试 命题说话 发音自动评测 皮尔逊相关系数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部