期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种基于连通域搜索的英文单词切分方法 被引量:1
1
作者 尹芳 李全通 +1 位作者 周昕 金飞虎 《哈尔滨理工大学学报》 CAS 2014年第5期109-112,119,共5页
英文文本识别系统中单词切分效果直接影响系统识别准确率.提出一种有效利用单词中的连通域以实现单词切分的方法,该方法首先对给定的图像文件进行扫描,搜索图像中所存在的所有连通域,然后根据连通域的坐标、尺寸等影响因素,对有效的连... 英文文本识别系统中单词切分效果直接影响系统识别准确率.提出一种有效利用单词中的连通域以实现单词切分的方法,该方法首先对给定的图像文件进行扫描,搜索图像中所存在的所有连通域,然后根据连通域的坐标、尺寸等影响因素,对有效的连通域进行合并,并过滤掉噪声等因素所产生的连通域碎片,以实现有效的英文单词区域的正确分割,从而实现英文单词的正确切分.实验结果表明,针对相同的英文文本图像,该方法对英文单词切分的准确率达95%以上,与垂直投影切分法最高准确率27%相比有较大幅度的提高,证明该方法可以很好解决垂直投影法无法解决的字母之间相互交迭的单词切分问题. 展开更多
关键词 连通域搜索 单词切分 文本识别
下载PDF
基于形态学梯度算法的维文文档图像单词切分 被引量:2
2
作者 周文杰 木特力铺·马木提 +2 位作者 吾尔尼沙·买买提 阿力木江·艾沙 库尔班·吾布力 《计算机工程与设计》 北大核心 2019年第9期2552-2557,共6页
为提高文档图像字符的识别率,提出一种利用形态学梯度算法实现维吾尔文单词切分的方法。对维文文字的特点进行分析,综合利用形态学算法的基本特性,将文档图像中标点与单词分离开来,避免关键词与标点的误切。将形态学梯度算法用于文档图... 为提高文档图像字符的识别率,提出一种利用形态学梯度算法实现维吾尔文单词切分的方法。对维文文字的特点进行分析,综合利用形态学算法的基本特性,将文档图像中标点与单词分离开来,避免关键词与标点的误切。将形态学梯度算法用于文档图像分割,更好地寻找每个单词的边缘轮廓和边界,对单词进行有效切分。实验结果表明,该方法能很好地对维吾尔文单词进行切分,切分的准确率达到了97.96%,后续的多文种文档图像的对比实验验证了该方法在单词切分中的实用性。 展开更多
关键词 文档图像 腐蚀膨胀 倾斜校正 形态学梯度算法 单词切分
下载PDF
聚类+连体段判别的维吾尔文档图像单词切分 被引量:1
3
作者 徐学斌 吾尔尼沙·买买提 +2 位作者 阿力木江·艾沙 朱亚俐 库尔班·吾布力 《计算机工程与应用》 CSCD 北大核心 2020年第14期148-155,共8页
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-... 目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。 展开更多
关键词 维吾尔文 文档图像 单词切分 K-MEANS 连体段判别 单词拆分
下载PDF
连体段特征聚类的维吾尔文文档图像单词切分 被引量:6
4
作者 阿丽亚.巴吐尔 木特力铺.马木提 +2 位作者 努尔毕亚.亚地卡尔 阿力木江.艾沙 库尔班.吾布力 《计算机工程与设计》 北大核心 2018年第3期774-779,共6页
为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分... 为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分析与重叠域合并相结合,采用两级K-means分类策略,有效避免标点符号的影响,增强完整单词块的被切分能力。实验结果表明,该算法比连通域搜索算法和投影算法具有更高的切分精度,在多文种图像单词切分中具有更高的有效性。 展开更多
关键词 双栏复杂文档图像 版面分析 连体段特征 单词切分 重叠率
下载PDF
脱机手写维吾尔文本图像单词切分 被引量:2
5
作者 阿依萨代提.阿卜力孜 加合买提.司马义 +1 位作者 卡米力.木依丁 艾斯卡尔.艾木都拉 《计算机工程与应用》 CSCD 北大核心 2018年第9期133-138,共6页
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。... 针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4 002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。 展开更多
关键词 维吾尔文 手写文本图像 单词切分 聚类 着色处理
下载PDF
英语单词切分中的误区及影响 被引量:2
6
作者 李如云 《首都师范大学学报(社会科学版)》 CSSCI 北大核心 2006年第S3期46-50,共5页
音节在英语语言的构成中可能是一个很小的单位,但它却是构成英语这一语言体系的核心构件。如果这个核心构件搞不准,甚至搞错了,就会直接影响英语的传播和使用。笔者认为,西方语言学界对于英语单词音节的研究和理解确实存在着问题。本文... 音节在英语语言的构成中可能是一个很小的单位,但它却是构成英语这一语言体系的核心构件。如果这个核心构件搞不准,甚至搞错了,就会直接影响英语的传播和使用。笔者认为,西方语言学界对于英语单词音节的研究和理解确实存在着问题。本文着重对于音节构成的三种理论:扁平音节理论、起始辅音加词韵音节理论、主体加结尾辅音音节理论进行了分析,指出了它们存在的问题,以及它们对英语教学产生的不利影响等。 展开更多
关键词 单词切分 音节构成 扁平音节 起始辅音、结尾辅音
下载PDF
基于词素的哈萨克语语言模型及其单词切分中的应用
7
作者 努尔波拉提.胡安 米吉提.阿不里米提 艾斯卡尔.艾木都拉 《电脑知识与技术》 2018年第4Z期189-191,共3页
本论文中研究了基于词素的哈萨克语语言模型,过往的研究中主要研究了以单词或音节为单位建立语料库形成模型,而本研究中哈萨克语的单词分解为词干和词缀后形成词素,通过得到的词素来建立语言模型,该模型哈萨克语的单词切分,拼写错误检测... 本论文中研究了基于词素的哈萨克语语言模型,过往的研究中主要研究了以单词或音节为单位建立语料库形成模型,而本研究中哈萨克语的单词分解为词干和词缀后形成词素,通过得到的词素来建立语言模型,该模型哈萨克语的单词切分,拼写错误检测,语言模型优化等语言处理研究中起了重要的作用,本实验结果表明,该语言模型对哈萨克语单词切分成词干和词缀有明显的效果,切分准确率达到了80%。 展开更多
关键词 语言模型 词素 语料库 单词切分 哈萨克语
下载PDF
用计算机对日语进行研究的基础——浅谈机器单词辞典和单词的自动切分
8
作者 施建军 《解放军外国语学院学报》 CSSCI 1991年第3期25-28,13,共5页
计算机的出现对各门学科都产生了不同程度的影响,语言学也不例外。计算机的诞生,使对语言进行大规模的计量研究成为可能。现代语言学的一个分支——计算语言学,就是专门研究用计算机进行各种语言素材分析综合的新兴学科。 国外计算机早... 计算机的出现对各门学科都产生了不同程度的影响,语言学也不例外。计算机的诞生,使对语言进行大规模的计量研究成为可能。现代语言学的一个分支——计算语言学,就是专门研究用计算机进行各种语言素材分析综合的新兴学科。 国外计算机早已进入了语言研究领域。日本是利用计算机从事语言研究最早的国家之一。日本国立国语研究所从60年代开始就利用计算机来进行词汇调查,调查的样本词数达300万条。该所利用计算机对语言进行计量研究得到许多有关日语的客观数据。 展开更多
关键词 自动切分 日语 行语 M法 平假名 利用计算机 单词切分 汉字 匹配字段 惯用型
下载PDF
连通域结合重叠度的维吾尔文档图像文字切分 被引量:6
9
作者 姑丽祖热.吐尔逊 尤努斯.艾沙 +1 位作者 吐尔根.依布拉音 库尔班.吾布力 《计算机工程与设计》 北大核心 2016年第7期1892-1897,共6页
为提高文档图像字符的可读性和切分与识别的准确率,对印刷体维吾尔文文档图像进行研究,尤其是对连通段切分和字符切分等难点问题提出分割方法。使用跑长码的连通区域算法,结合重叠度计算方法,进行连通段切分;基于维吾尔文字符在基线上... 为提高文档图像字符的可读性和切分与识别的准确率,对印刷体维吾尔文文档图像进行研究,尤其是对连通段切分和字符切分等难点问题提出分割方法。使用跑长码的连通区域算法,结合重叠度计算方法,进行连通段切分;基于维吾尔文字符在基线上相接的特点,在基线位置估计的基础上,找出字符的切点。切分结果表明,该算法比其它算法切分结果效果更好。 展开更多
关键词 文档图像处理 跑长码连通区域算法 重叠度算法 单词切分 字符切分
下载PDF
脱机手写维吾尔单词提取
10
作者 霍留磊 艾斯卡尔·艾木都拉 阿布都萨拉木·达吾提 《电视技术》 2019年第7期18-25,共8页
针对维吾尔单词切分问题提出了FCM融合K-means的聚类算法,应用FCM聚类的结果将字符间距聚类两类,根据聚类结果再将字符间距分类为三类:单词内间距、单词间距离、第三类间距;将字符长度聚类为:单词、连体段、字母。首先对单词内距离进行... 针对维吾尔单词切分问题提出了FCM融合K-means的聚类算法,应用FCM聚类的结果将字符间距聚类两类,根据聚类结果再将字符间距分类为三类:单词内间距、单词间距离、第三类间距;将字符长度聚类为:单词、连体段、字母。首先对单词内距离进行处理,再针对不同的字符间距和不同的字符长度进行分步切分处理,最后对切分后的字符进行欠切分处理。以12幅不同的人书写的维吾尔脱机手写文本图像为实验对象,1 042个单词,正确切分率达到74.28%。该方法不仅仅提高了切分的正确率,并且可以同时解决部分重叠和粘连问题。 展开更多
关键词 维吾尔文 手写文本图像 主体部分提取 单词切分 聚类
下载PDF
基于层次匹配的维吾尔文关键词图像检索 被引量:1
11
作者 宋志平 朱亚俐 +2 位作者 吾尔尼沙·买买提 徐学斌 库尔班·吾布力 《计算机工程与设计》 北大核心 2022年第12期3461-3467,共7页
为提高维吾尔文文档图像检索精度,提出基于灰度共生矩阵(GLCM)与卷积神经网络的关键词图像分层检索算法。在浅层检索阶段对切分后的单词图像进行分块处理,计算每个子块图像的灰度共生矩阵特征参数,将各个子块特征进行串联融合,对单词数... 为提高维吾尔文文档图像检索精度,提出基于灰度共生矩阵(GLCM)与卷积神经网络的关键词图像分层检索算法。在浅层检索阶段对切分后的单词图像进行分块处理,计算每个子块图像的灰度共生矩阵特征参数,将各个子块特征进行串联融合,对单词数据库进行浅层检索,过滤掉部分无关单词图像后形成候选单词库;在浅层检索的基础上进行深层检索,使用VGG16网络提取单词图像更深层次的空间域特征;使用网络提取的特征对候选图像库进行二次深层检索得到最终的检索结果。实验结果表明,检索的平均准确率和召回率分别为94.15%、82.03%,验证了该方法在维吾尔文文档图像检索中的有效性。 展开更多
关键词 维吾尔文 关键词检索 VGG16 灰度共生矩阵 单词切分 浅层检索 深层检索
下载PDF
基于空间关系的维吾尔文图像关键词检索
12
作者 徐学斌 阿里木江·阿布迪日依木 +2 位作者 朱亚俐 阿力木江·艾沙 库尔班·吾布力 《计算机工程与设计》 北大核心 2021年第2期497-503,共7页
为提高维吾尔文档图像的检索效率,提出一种基于字符空间关系的关键词检索方法。通过对文档图像进行单词切分,提取切分后单词图像的字符空间位置特征,将提取的特征根据单词的连体段数目存储为多个特征文件,根据输入关键词图像的特征寻找... 为提高维吾尔文档图像的检索效率,提出一种基于字符空间关系的关键词检索方法。通过对文档图像进行单词切分,提取切分后单词图像的字符空间位置特征,将提取的特征根据单词的连体段数目存储为多个特征文件,根据输入关键词图像的特征寻找对应的特征文件进行查询。从115张印刷体维吾尔文档图像切分后的24460张单词集中选取10张有丰富含义的关键词图像在单词库中进行检索实验,平均准确率为96.47%,平均召回率达到了93.74%,平均每张单词的查询耗时为0.25 s,验证了该方法在维吾尔文档图像检索中的有效性。 展开更多
关键词 维吾尔语 单词切分 关键词检索 连体段 空间关系
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部