期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于N-gram模型的哈萨克词干提取方法 被引量:3
1
作者 吾兰.努鲁别克 热木土拉.麦麦提 艾斯卡尔.艾木都拉 《电脑知识与技术》 2017年第4X期160-162,共3页
哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词... 哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词约束条件,提出了N-gram语言模型的哈萨克词干提取模型。实验结果表明,N-gram语言模型对哈萨克词干的准确提取是有效的,该模型的词干级准确率达到了72.34%。 展开更多
关键词 哈萨克语 形态 词干提取 n-gram模型 词缀
下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
2
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
下载PDF
基于网站用词调查的现代维吾尔语词干提取和应用研究 被引量:11
3
作者 艾孜尔古丽 齐向卫 玉素甫.艾白都拉 《计算机应用与软件》 CSCD 北大核心 2012年第3期32-34,97,共4页
通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应... 通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应用形式;介绍和讨论词干分布结果,最后总结以上内容。 展开更多
关键词 现代维吾尔语 网站 词干 提取
下载PDF
基于Android的维吾尔文词性标注、词干提取APP的开发与设计 被引量:2
4
作者 帕丽旦·木合塔尔 热依曼·吐尔逊 +1 位作者 买买提阿依甫 排孜拉·奴来海买提 《现代电子技术》 北大核心 2019年第18期139-142,146,共5页
在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了... 在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域.该系统的实现为低资源少数民族智能化研究工作做出了贡献. 展开更多
关键词 安卓 词性标注 词干提取 维吾尔文 语料库 文本分析
下载PDF
融合多策略的维吾尔语词干提取方法 被引量:12
5
作者 赛迪亚古丽.艾尼瓦尔 向露 +2 位作者 宗成庆 艾克白尔.帕塔尔 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2015年第5期204-210,共7页
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词... 维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。 展开更多
关键词 维吾尔语 形态 词干提取 n-gram模型 词性特征 上下文词干信息
下载PDF
基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究 被引量:6
6
作者 古丽尼格尔·阿不都外力 吐尔根·依布拉音 +1 位作者 卡哈尔江·阿比的热西提 王路路 《中文信息学报》 CSCD 北大核心 2019年第8期60-66,共7页
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi... 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 展开更多
关键词 维吾尔语 词干提取 Bi-LSTM-CRF
下载PDF
字符序列标注的维吾尔语词干提取方法 被引量:5
7
作者 古丽尼格尔·阿不都外力 买合木提·买买提 +3 位作者 吐尔根·依布拉音 早克热·卡德尔 西热艾力·海如拉 王路路 《现代电子技术》 北大核心 2020年第12期151-154,160,共5页
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提... 词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 展开更多
关键词 词干提取 序列标注 条件随机场 特征提取 模型训练 预测结果
下载PDF
混合策略的维吾尔语名词词干提取系统 被引量:11
8
作者 早克热.卡德尔 艾山.吾买尔 +2 位作者 吐尔根.依布拉音 帕里旦.吐尔逊 吴小川 《计算机工程与应用》 CSCD 2013年第1期171-175,共5页
通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地... 通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地结合以上三种方法构造出了基于规则和统计的名词词干提取方法。为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计结合的名词词干提取方法相结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统。该系统具有较强的鲁棒性,准确率保持95%以上。 展开更多
关键词 维吾尔语 黏着语 有限状态自动机 噪声信道 词干提取
下载PDF
基于词干提取的维吾尔语事件类时间短语识别 被引量:6
9
作者 邹岳琳 吐尔根.依布拉音 +2 位作者 麦热哈巴.艾力 艾山.吾买尔 帕力旦.吐尔逊 《计算机工程与设计》 CSCD 北大核心 2014年第2期625-630,共6页
针对维吾尔语事件类时间短语没有明显时间词特征词而引起的识别困难和边界定位不准确等问题,提出了一种统计结合词干提取的针对黏着性语言的事件类时间短语的识别方法。根据维吾尔语典型的黏着性语言形态特点,对时间短语构成进行分析和... 针对维吾尔语事件类时间短语没有明显时间词特征词而引起的识别困难和边界定位不准确等问题,提出了一种统计结合词干提取的针对黏着性语言的事件类时间短语的识别方法。根据维吾尔语典型的黏着性语言形态特点,对时间短语构成进行分析和分类,采用机器学习的方法将难于识别的事件类隐性时间短语识别问题转换为基于统计方法的序列标注;通过对维吾尔语事件类时间要素分析及维吾尔语构词的研究,引入黏着语特有的词干特征,选定实验特征集合,对比分析不同的特征集合的自动识别准确率的平均值。实验结果表明,该方法对维吾尔语事件类时间短语识别的F-值达到85.37%。这一结果对其它黏着性语言的研究具有参考意义。 展开更多
关键词 自然语言处理 时间短语 条件随机场 黏着语 事件类时间 特征选择 词干提取
下载PDF
乌兹别克语词干提取算法的比较研究 被引量:2
10
作者 吾买尔江·买买提明 古丽尼格尔·阿不都外力 +2 位作者 买合木提·买买提 卡哈尔江·阿比的热西提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2020年第1期45-50,共6页
黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小... 黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型。实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升。 展开更多
关键词 乌兹别克语 词干提取 序列标注
下载PDF
基于标注词典和规则的维吾尔文动词词干提取方法 被引量:3
11
作者 塔依尔.阿不都外力 艾山.吾买尔 +1 位作者 吐尔根.伊布拉音 张健 《新疆大学学报(自然科学版)》 CAS 2013年第1期6-1,共7页
利用语言学专家人工标注的语料库对维吾尔文动词进行研究,并总结出了维吾尔文动词范畴的连接规则框架.在人工标注的实例库的基础上,收集了词缀连接规则集合,经人工纠正构建了词缀连接规则库集合.最终,结合人工标注实例库、词缀连接规则... 利用语言学专家人工标注的语料库对维吾尔文动词进行研究,并总结出了维吾尔文动词范畴的连接规则框架.在人工标注的实例库的基础上,收集了词缀连接规则集合,经人工纠正构建了词缀连接规则库集合.最终,结合人工标注实例库、词缀连接规则库及维吾尔文动词范畴的连接规则框架提出了维吾尔文动词词干提取方法,该方法的独立实验准确率达到了84.15%. 展开更多
关键词 维吾尔语 词干提取 词典 规则 动词
下载PDF
基于N-Gram文本特征提取的改进算法 被引量:9
12
作者 余小军 刘峰 张春 《现代计算机》 2012年第23期3-7,共5页
提出一种改进的N-Gram文本特征提取算法。该算法将词性分析与权重过滤引入到N-Gram特征向量提取的过程,有效地解决N-Gram适用差、特征向量冗余大、与文本属性无关等问题。实验结果表明,该特征提取算法能够更加准确地描述文本特征,能较... 提出一种改进的N-Gram文本特征提取算法。该算法将词性分析与权重过滤引入到N-Gram特征向量提取的过程,有效地解决N-Gram适用差、特征向量冗余大、与文本属性无关等问题。实验结果表明,该特征提取算法能够更加准确地描述文本特征,能较好地适用于文本特征处理、Web文本数据挖掘等中文信息处理领域。 展开更多
关键词 文本特征提取 n-gram 权重过滤 词性分析 TFIDF
下载PDF
现代哈萨克语词干提取研究 被引量:4
13
作者 李婧 刘海峰 《信息通信》 2015年第7期103-104,共2页
哈萨克语词干提取是哈萨克语信息处理的重要的基础环节,文章采用基于规则、字典查找和最大匹配相结合的哈萨克语词干提取方法,首次提出结合哈萨克语元音和谐规律、词干词性和词尾缀接顺序切分词尾,使得词干提取正确率达95.26%。
关键词 哈萨克语 词干提取 基于规则 字典查找
下载PDF
一种基于N-Gram的计算机病毒特征码自动提取方法 被引量:3
14
作者 曾键 赵辉 《计算机安全》 2013年第10期2-5,共4页
随着计算机和互联网技术的发展和普及,计算机病毒所带来的安全威胁日趋严重。基于特征码扫描的病毒检测技术是目前检测已知病毒最为简单、有效的方法,但病毒特征码需要经验丰富的计算机病毒分析师手动从病毒中提取出来,其效率并不高。... 随着计算机和互联网技术的发展和普及,计算机病毒所带来的安全威胁日趋严重。基于特征码扫描的病毒检测技术是目前检测已知病毒最为简单、有效的方法,但病毒特征码需要经验丰富的计算机病毒分析师手动从病毒中提取出来,其效率并不高。提出了一种基于N-Gram的病毒特征码自动提取方法,将N-Gram统计语言模型应用到病毒特征码提取中。通过实验证明了该算法能有效提取病毒特征码。 展开更多
关键词 n-gram 计算机病毒 病毒特征码 自动提取
下载PDF
基于词缀附加引擎的维吾尔语名词词干提取研究
15
作者 瓦依提·阿不力孜 加米拉·吾守尔 吐尔根·依不拉音 《电视技术》 2019年第20期5-10,共6页
文章对维吾尔语名词形态变化进行分析,并设计一种基于名词词干的词缀附加引擎算法。该算法可以根据词干结构自动附加1~5层词缀,并生成1个词干的501种形态。利用该引擎首次以词缀附加方式进行词干提取,实验表明,在基于规则的词干提取方法... 文章对维吾尔语名词形态变化进行分析,并设计一种基于名词词干的词缀附加引擎算法。该算法可以根据词干结构自动附加1~5层词缀,并生成1个词干的501种形态。利用该引擎首次以词缀附加方式进行词干提取,实验表明,在基于规则的词干提取方法里,文章方法的正确率为95.12%。 展开更多
关键词 维吾尔语 形态分析 词缀附加 词干提取
下载PDF
基于规则的哈萨克语词干提取算法的研究 被引量:7
16
作者 达吾勒.阿布都哈依尔 海拉提.克孜尔别克 《新疆大学学报(自然科学版)》 CAS 2011年第2期238-241,共4页
本文提出了一个基于规则的哈萨克语词干提取的一种解决方法.该方法首先找到待切分词的所有可能的词干,然后以带变形词的词典和分类的附加成分表为基础,对找到的若干个词干进行词法分析,最后确定正确的词干.
关键词 构形附加成分 词干提取 词法分析
下载PDF
面向音素序列的黏着语词干提取研究
17
作者 古再力努尔·依明 米吉提·阿不里米提 +1 位作者 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向... 针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. 展开更多
关键词 黏着语 维吾尔语 词干提取 上下文 注意力机制 BiLSTM-Attention-CRF
下载PDF
面向检索服务的词干提取与相关排序优化研究
18
作者 朱艳 张敬伟 +2 位作者 杨青 胡晓丽 单美静 《桂林电子科技大学学报》 2022年第5期354-365,共12页
新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词... 新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词汇形态变异的特点导致检索词变得多样化,而现有词干提取算法普遍存在词干提取不足、词干提取准确率不高等问题;另一方面,在海量数据中检索到满足用户查询要求的文档结果是一项非常耗时的任务,而现有将文档划分到多个服务器处理查询延迟的方法常常会出现尾延迟问题。针对以上问题,在文本预处理阶段,设计了词形规范化算法APS,对规则函数进行重编码,优化了特征词提取;在相关排序阶段,设计了基于一次一得分查询处理策略的随时排序算法SAR,在给定时间预算处理完指定数量倒排段后能够提前终止查询过程,大大减少了查询评估时间。在多个真实数据集上进行了实验,验证了APS算法对于提高词干提取准确率的有效性以及SAR算法对于控制查询延迟的真实性。 展开更多
关键词 词干提取算法 随时排序算法 文本预处理 SAAT 相关排序
下载PDF
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
19
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
下载PDF
蒙古语有向图形态分析器的判别式词干词缀切分 被引量:5
20
作者 姜文斌 吴金星 +2 位作者 乌日力嘎 那顺乌日图 刘群 《中文信息学报》 CSCD 北大核心 2011年第4期30-34,共5页
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模... 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。 展开更多
关键词 蒙古语 词法分析 词性标注 词干提取 有向图 判别式
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部