期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
基于多尺度风格自适应的手写维文识别模型
1
作者 闫林 王磊 +2 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 李晓 《计算机工程与设计》 北大核心 2024年第9期2749-2756,共8页
基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适... 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 展开更多
关键词 手写维文识别 手写风格 多尺度 特征金字塔网络 视觉自注意力模型 长短期记忆网络 特征融合
下载PDF
基于生成对抗网络的维语场景文字修改网络
2
作者 付鸿林 张太红 +2 位作者 杨雅婷 艾孜麦提·艾瓦尼尔 马博 《计算机与现代化》 2024年第1期41-46,共6页
通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transforme... 通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transformer模块构建网络,充分提取图像全局与局部特征来完成维语场景文字图像修改,并添加微调模块,对最终结果进行微调。采用WGAN思想策略训练模型,可有效应对模型崩溃以及梯度爆炸等问题。通过在英文-英文,英文-维文的文字修改实验来验证模型的泛化能力和鲁棒性,无论在客观评价指标(SSIM、PSNR)还是视觉上均取得不错效果,并在真实场景数据集SVT以及ICDAR 2013上进行了验证。 展开更多
关键词 生成对抗网络 场景文字修改 维语场景文字图像 高效Transformer WGAN
下载PDF
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 被引量:8
3
作者 阿力甫.阿不都克里木 李晓 《计算机科学》 CSCD 北大核心 2016年第12期36-40,共5页
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank... 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 展开更多
关键词 维吾尔语 文本分类 关键词提取 textRank算法 互信息相似度
下载PDF
基于提示学习的维吾尔语文本分类研究 被引量:3
4
作者 张博旭 蒲智 程曦 《计算机工程》 CAS CSCD 北大核心 2023年第6期292-299,313,共9页
维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特... 维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特征稀疏且维度偏高的特点,使得其在文本分类上的效果较差。为此,提出基于提示学习的维吾尔语文本分类方法。基于提示学习,采用多语言预训练模型Cino构造不同的模板,利用模型的掩码预测能力对不同的掩码位置进行预测。为避免掩码预测的词汇信息具有多样性,将模板掩盖掉的词向量代替整体的句向量,利用掩码模型的预测能力,以有限大小的向量表示当前句子的语义信息,将下游任务靠近模型的预训练任务,减少在微调阶段两者不同所造成的影响。在爬取维吾尔语网站所构建新闻数据集上进行的文本分类实验结果表明,相比Cino微调预训练模型,融合提示学习的Cino模型的F1值最高可达到92.53%,精准率和召回率分别提升了1.79、1.04个百分点,具有更优的维吾尔语文本分类效果。 展开更多
关键词 文本分类 维吾尔语 提示学习 预训练模型 深度学习
下载PDF
基于频繁模式挖掘的维吾尔文智能组词方法 被引量:6
5
作者 吐尔地·托合提 维尼拉·木沙江 艾斯卡尔·艾木都拉 《计算机应用》 CSCD 北大核心 2012年第10期2920-2922,2926,共4页
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特... 以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。 展开更多
关键词 维吾尔文本 分词 组词 语义词 频繁模式
下载PDF
一种改进型局部二值模式的维吾尔文定位算法 被引量:7
6
作者 李敏强 哈力旦.阿布都热依木 闫轲 《河南科技大学学报(自然科学版)》 CAS 北大核心 2015年第3期43-47,53,共6页
针对自然场景中复杂的背景纹理对文本区域检测的干扰,提出了一种改进型局部二值模式(ULBP)提取算法,用于维吾尔文文本特征提取,并用获得的特征向量对候选维吾尔文本区域进行分类。本算法首先利用同质化映射来构建图像的同质化空间;然后... 针对自然场景中复杂的背景纹理对文本区域检测的干扰,提出了一种改进型局部二值模式(ULBP)提取算法,用于维吾尔文文本特征提取,并用获得的特征向量对候选维吾尔文本区域进行分类。本算法首先利用同质化映射来构建图像的同质化空间;然后,在同质化空间利用角点检测快速获取候选文本区域;最后,在候选文本区域里提取ULBP特征,把这些特征导入训练后的支持向量机(SVM)即可获得精确的文本区域。实验结果表明:ULBP特征对维吾尔文本区域具有较高的区分度,且能使误检率降低到8.3%,鲁棒性较强。 展开更多
关键词 维吾尔文文本定位 自然场景 改进型局部二值模式 支持向量机
下载PDF
基于像素积分投影的印刷体维文字母切分方法 被引量:9
7
作者 李晓 袁保社 +2 位作者 陈卿 任宏宇 张建华 《计算机技术与发展》 2012年第4期41-44,49,共5页
维吾尔文字属于左向连写文字,字母之间的连笔与变形使得切分字母很困难,印刷体维吾尔文字母的准确切分是识别的关键。文中试验了一种基于像素积分投影的印刷体维吾尔文字母切分方法,包括使用行水平投影切出文字行与文字基线,通过垂直投... 维吾尔文字属于左向连写文字,字母之间的连笔与变形使得切分字母很困难,印刷体维吾尔文字母的准确切分是识别的关键。文中试验了一种基于像素积分投影的印刷体维吾尔文字母切分方法,包括使用行水平投影切出文字行与文字基线,通过垂直投影切出单词及单词中不粘连的字母,结合水平投影与垂直投影数据,外加相邻投影谷距、字母宽度与基线像素值等信息,设置了细化的连体段字母切分规则。实验结果表明,该方法能够较为准确的将印刷体维吾尔文字母切分开,为OCR系统的准确识别提供了基础。 展开更多
关键词 维吾尔文 印刷体 切分 像素投影积分 光学字符识别
下载PDF
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
8
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
下载PDF
基于连通域特征的维吾尔手写文本行分割 被引量:6
9
作者 易晓芳 卡米力.木依丁 艾斯卡尔.艾木都拉 《计算机工程与应用》 CSCD 2014年第18期142-146,共5页
针对维吾尔文手写体文本中行分割问题,基于连通域大小将图像中文字分为三类,提出了自适应涂抹细化算法,对主体文本行进行定位;并对第三类连通域中相邻两文本行间粘连的字符进行切割;此外,利用重心范围内的邻域搜索算法,解决了剩余笔画... 针对维吾尔文手写体文本中行分割问题,基于连通域大小将图像中文字分为三类,提出了自适应涂抹细化算法,对主体文本行进行定位;并对第三类连通域中相邻两文本行间粘连的字符进行切割;此外,利用重心范围内的邻域搜索算法,解决了剩余笔画的文本行归附问题。实验结果表明,该方法与常见的水平投影法,分段投影法,及涂抹方法相比具有更好的分割效果。 展开更多
关键词 维吾尔文 手写体文本 文本行分割 重心 邻域
下载PDF
人工鱼群优化的维吾尔文文本特征选择方法 被引量:1
10
作者 吴冰冰 哈力旦.阿布都热依木 +1 位作者 阿丽亚.艾尔肯 何燕 《河南科技大学学报(自然科学版)》 CAS 北大核心 2016年第6期46-50,7,共5页
特征选择是文本分类中的关键步骤,对分类结果产生直接的影响。本文分析了人工鱼群算法的觅食行为、群聚行为和追尾行为等基本原理。结合维吾尔文文本特征提取原理,提出了一种改进的人工鱼群算法,并将其运用到维吾尔文文本特征提取当中... 特征选择是文本分类中的关键步骤,对分类结果产生直接的影响。本文分析了人工鱼群算法的觅食行为、群聚行为和追尾行为等基本原理。结合维吾尔文文本特征提取原理,提出了一种改进的人工鱼群算法,并将其运用到维吾尔文文本特征提取当中。为了加快鱼群的收敛速度,引入了主动改变视野的策略,同时,为了避免算法陷入局部最优,还在算法中加入了变异策略。将特征选择后的样本集输入到不同的分类器中进行仿真实验。实验结果表明:改进的人工鱼群算法能够使分类的准确率达到94.5%。 展开更多
关键词 维吾尔文 文本分类 特征选择 人工鱼群算法
下载PDF
基于Android的维吾尔文词性标注、词干提取APP的开发与设计 被引量:2
11
作者 帕丽旦·木合塔尔 热依曼·吐尔逊 +1 位作者 买买提阿依甫 排孜拉·奴来海买提 《现代电子技术》 北大核心 2019年第18期139-142,146,共5页
在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了... 在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域.该系统的实现为低资源少数民族智能化研究工作做出了贡献. 展开更多
关键词 安卓 词性标注 词干提取 维吾尔文 语料库 文本分析
下载PDF
面向维吾尔文不平衡数据分类的特征选择方法 被引量:3
12
作者 董瑞 周喜 《计算机工程与设计》 CSCD 北大核心 2013年第1期349-352,共4页
为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分... 为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类。在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法。 展开更多
关键词 不平衡数据 文本分类 维吾尔文 特征选择 逆文档频数 卡方 信息增益
下载PDF
基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案 被引量:3
13
作者 赵旭东 亚森.艾则孜 《电子设计工程》 2016年第16期109-112,共4页
针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后... 针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后,利用TF-IDF方法对特征进行加权,并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度,来分类文档并过滤掉不良文档信息。实验结果表明,该方案能够有效过滤不良维吾尔文文档,正确过滤率达到了83.5%。 展开更多
关键词 维吾尔文 不良文档过滤 互信息 余弦相似度 TF—IDF
下载PDF
印刷维吾尔文本切割 被引量:17
14
作者 靳简明 丁晓青 +1 位作者 彭良瑞 王华 《中文信息学报》 CSCD 北大核心 2005年第5期76-83,共8页
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词... 我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99%以上。 展开更多
关键词 计算机应用 中文信息处理 文本切割 字符切割 字符识别 维吾尔文
下载PDF
浅议维吾尔语中语境对语篇的解读作用 被引量:1
15
作者 孙亚俊 《语言与翻译》 CSSCI 2016年第1期46-49,共4页
语境是一个十分宽泛的概念,一切能够影响到语言使用的因素都可以归纳入语境范畴。语言语境和非语言语境对语篇的解读都起着重要的作用。文章对维吾尔语语境进行了分类,并例示了其在语篇解读中的制约与解释功能。
关键词 维吾尔语 语篇 语境
下载PDF
Centroid和EM结合的半监督文本分类
16
作者 阿力木江·艾沙 殷晓雨 +1 位作者 库尔班·吾布力 李喆 《计算机工程与设计》 北大核心 2019年第11期3118-3123,共6页
针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分... 针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分类器下,结合少量已标注样本和大量未标注样本来提高分类器性能的问题。在维吾尔文文本数据集上的实验结果表明,未标注样本的加入能够改善基于Centroid的分类方法在维吾尔文文本数据集上的分类效果。 展开更多
关键词 质心向量 期望最大化 半监督学习 文本分类 维吾尔文
下载PDF
基于短语的维吾尔文文本分类 被引量:5
17
作者 阿力木江·艾沙 吐尔根·依布拉音 +1 位作者 库尔班·吾布力 李哲 《计算机应用》 CSCD 北大核心 2012年第10期2923-2926,共4页
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语... 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。 展开更多
关键词 文本分类 短语抽取 支持向量机 维吾尔语 互信息
下载PDF
基于机器学习的维吾尔文文本分类研究 被引量:20
18
作者 阿力木江·艾沙 吐尔根·依布拉音 +1 位作者 艾山·吾买尔 马尔哈巴·艾力 《计算机工程与应用》 CSCD 2012年第5期110-112,共3页
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空... 随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Nave Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。 展开更多
关键词 文本分类 朴素贝叶斯方法 k-最近邻方法(kNN) 维吾尔语 特征选择
下载PDF
基于词向量的维吾尔语词项归一化方法 被引量:5
19
作者 罗延根 李晓 +3 位作者 蒋同海 杨雅婷 周喜 王磊 《计算机工程》 CAS CSCD 北大核心 2018年第2期220-225,共6页
使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,... 使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。 展开更多
关键词 维吾尔语口语文本 非正规词 归一化 神经网络 重采样
下载PDF
基于多卷积核DPCNN的维吾尔语文本分类联合模型 被引量:7
20
作者 加米拉·吾守尔 吴迪 +3 位作者 王路路 古丽尼格尔·阿不都外力 买合木提·买买提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2021年第7期63-71,共9页
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通... 由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。 展开更多
关键词 维吾尔语 文本分类 多卷积核DPCNN Bi-LSTM+CNN
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部