面向音素序列的黏着语词干提取研究

Phoneme Sequence Based Stemming of Agglutinative Language

下载PDF

导出

摘要针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. For the problem that the current agglutinative language stemming task is difficult to deal with sentence-level corpus with context information,this paper takes Uyghur language as the research object,and proposes a stemming model composed of BiLSTM,Attention and CRF,which integrates sentence context and character features.First,the sentence-level character feature embedding is used as input,and the BiLSTM model is used to obtain the forward and backward context sequence features,and the Attention Mechanism is added to this model for weight learning,and capture stem and affix boundaries by extracting global feature information;Finally,the CRF is added to make it learn more information from the sequence features,so that the context information can be described more effectively.In order to verify the effectiveness of the above model,the model in this paper is tested on two different datasets,and the model in this paper is compared with the traditional model.The experimental results show that the model in this paper is more effective for sentence-level corpus and can extract stems more effectively.In addition,the model proposed in this paper outperforms other traditional models,can fully consider the data characteristics,and has certain advantages.

作者古再力努尔·依明米吉提·阿不里米提哈妮克孜·伊拉洪艾斯卡尔·艾木都拉 Gvzelnur Imin;Mijit Ablimit;Hankiz Yilahun;Askar Hamdulla(College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)

机构地区新疆大学信息科学与工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页 Journal of Chinese Computer Systems

基金国家重点研发计划项目(2017YFC0820603)资助.

关键词黏着语维吾尔语词干提取上下文注意力机制 BiLSTM-Attention-CRF agglutinative language Uyghur language stemming context attention mechanism BiLSTM-attention-CRF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1哈里旦木·阿布都克里木,孙茂松,刘洋,阿布都克力木·阿布力孜.THUUyMorph：维吾尔语形态切分语料库[J].中文信息学报,2018,32(2):81-86. 被引量：4
2张韬政,张家健.一种基于特征迁移的跨领域中文分词模型[J].中国传媒大学学报（自然科学版）,2021,28(3):41-45. 被引量：1
3赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：12
4哈里旦木·阿布都克里木,程勇,刘洋,孙茂松.基于双向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报（自然科学版）,2017,57(1):1-6. 被引量：15
5吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音.乌兹别克语词干提取算法的比较研究[J].中文信息学报,2020,34(1):45-50. 被引量：2
6吾兰.努鲁别克,热木土拉.麦麦提,艾斯卡尔.艾木都拉.基于N-gram模型的哈萨克词干提取方法[J].电脑知识与技术,2017,13(4X):160-162. 被引量：3
7沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.词干单元和卷积神经网络的哈萨克短文本分类[J].小型微型计算机系统,2020,41(8):1627-1633. 被引量：1
8吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.词干提取方法及工具的对比分析研究[J].图书情报工作,2012,56(15):109-115. 被引量：13
9米吉提.阿不里米提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.基于层次化结构的语言模型单元集优化[J].清华大学学报（自然科学版）,2017,57(3):257-263. 被引量：5
10穆凯代姆罕·伊敏江,沙尔旦尔·帕尔哈提,艾斯卡尔·艾木都拉,米吉提·阿不里米提.维-哈-柯多语言词素切分集成环境研究[J].电视技术,2020,44(6):46-51. 被引量：1

二级参考文献71

1霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
2古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：152
4哈米提·铁木尔.现代维吾尔语语法[M].北京:民族出版社,1987:246-248.
5哈力克·尼亚孜.基础维吾尔语[M].乌鲁木齐:新疆大学出版社,1997.86-88.
6JurafskyD,MartinJH_自然语言处理综论[M].冯志伟,孙乐,译.北京:电子工业出版社,2005:38.
7The Porter stemming algorithm [ OL ]. [ 2011 - 10 - 25 ]. http :// tartarus, org/martin/PorterStemmer/.
8Lancaster[ OL]. [2011 - 10 -21 ]. http://www, comp. lancs, ac. uk/computing/research/stemming/.
9Lovin[ OL]. [2011 - 10 -21 ]. http://www, cs. waikato, ac. nz/ - eibe/stemmers/.
10Dawson J L. Suffix removal for word conflation [ J ]. Bulletin of the Association for Literary & Linguistic Computing, 1974,2 (3) :33 - 46.

共引文献34

1彭华,李宗寿.基于SVM的CVE漏洞分类框架构造[J].吉首大学学报（自然科学版）,2013,34(1):66-71. 被引量：1
2李晓瑛,李丹亚,钱庆,孙海霞,李军莲,胡铁军.面向知识组织系统整合的英文同义关系自动发现算法研究[J].现代图书情报技术,2014(5):26-32. 被引量：7
3帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
4呼凯凯,徐宗昌,王铮,倪明仿,张永强.集成数据环境下装备IETM数据查询研究[J].计算机测量与控制,2015,23(9):3141-3143. 被引量：1
5呼凯凯,徐宗昌,孙寒冰,刘凯,张光明.基于IETM的图像类装备保障数据语义标注研究[J].计算机测量与控制,2015,23(11):3864-3866. 被引量：1
6哈里旦木.阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报（自然科学版）,2017,57(8):878-883. 被引量：24
7艾孜尔古丽,艾孜海尔江,玉素甫.艾白都拉,祖力克尔江,米尔夏提.维吾尔文初中数学教材词干分析研究[J].中文信息学报,2017,31(5):108-113. 被引量：1
8哈里旦木·阿布都克里木,孙茂松,刘洋,阿布都克力木·阿布力孜.THUUyMorph：维吾尔语形态切分语料库[J].中文信息学报,2018,32(2):81-86. 被引量：4
9徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：2
10孙晓杰.基于N-gram模型的哈萨克语语音识别及处理技术研究[J].信息记录材料,2018,19(9):97-99. 被引量：1

1朱心.四川方言词缀“巴”的功能探析[J].红河学院学报,2023,21(5):110-113.
2同根(缀)词之联想拓展记忆[J].高中生（高考）,2023(10):10-14.
3王一咪,陈大庆,钟天任.新丰江地区M≥3地震后序列特征[J].华南地震,2023,43(3):79-85.
4吴民华,叶晓霞,谭靖怡,王燊,沈诗焕,黄琼林.密花豆叶绿体基因组序列特征及密码子偏好性分析[J].南方农业学报,2023,54(6):1633-1645.
5张紫月,王羽,徐建.基于图卷积网络融合依存信息的事件检测方法[J].计算机应用研究,2023,40(10):2967-2971.
6许铭洋,王华朋,闫道申,杨海涛,楚宪腾.基于深度嵌入向量的说话人分割研究[J].刑事技术,2023,48(5):466-472.
7王涵.“Sein”“■”与“■”--论海德格尔的存在论诠释学与梵文“存在”的意义等值性[J].复旦外国语言文学论丛,2023(2):47-55.
8王利兵,俸亚特,文益民.基于改进DAN的自然场景下越南文字的识别[J].数据采集与处理,2023,38(5):1058-1068.
9孙伟峰,卜赛赛,张德志,李威桦,刘凯,戴永寿.基于DCC-LSTM的钻井液微量漏失智能监测方法[J].天然气工业,2023,43(9):141-148. 被引量：2
10段春燕,段义忠.蒙古扁桃叶绿体基因组比较[J].种子,2023,42(8):5-10.

小型微型计算机系统

2023年第10期

浏览历史

内容加载中请稍等...

面向音素序列的黏着语词干提取研究

参考文献10

二级参考文献71

共引文献34

相关作者

相关机构

相关主题

浏览历史