基于LDA主题模型的维吾尔语无监督词义消歧被引量：2

Unsupervised word sense disambiguation for Uyghur based on LDA topic model

下载PDF

导出

摘要维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%. As a resource-scarce language,due to the shortage of corpus resources and semantic analysis tools,Uyghur faces the difficulty of being implemented with the traditional supervised method for its word sense disambiguation(WSD).In this paper,we compare the textual WSD problems as text subject classification problems,and propose an unsupervised Uyghur WSD model based on the latent Dirichlet allocation(LDA)topic model.In order to enhance the classification performance of the topic model on various meanings of ambiguous words,we add three data preprocessing processes:removing stop words,filtering effective words and strengthening synonyms frequency weight.Experimental results show that the accuracy of this WSD model increases to 65.08%in random test samples of 63 sets and 61.2%in the document-level sampling-word task.

作者袁扬李晓杨雅婷 YUAN Yang;LI Xiao;YANG Yating(The Xinjiang Technical Institute of Physics&Chemistry,Chinese Academy of Sciences,Urumqi 830011,China;University of Chinese Academy of Sciences,Beijing 100049,China;Xinjiang Laboratory of Minority Speech and Language Information Processing,Urumqi 830011,China)

机构地区中国科学院新疆理化技术研究所中国科学院大学新疆民族语音语言信息处理实验室

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2020年第2期198-205,共8页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(U1703133) 新疆维吾尔自治区“天山雪松计划”(2017XS05) 新疆维吾尔自治区重点实验室开放课题(2018D04018) 新疆维吾尔自治区高层次人才引进工程项目(Y839031201) 中国科学院青年创新促进会项目(2017472)。

关键词维吾尔语无监督词义消歧主题模型语义相似度同义词 Uyghur unsupervised word sense disambiguation topic model semantic similarity synonyms

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王厚峰.计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J].术语标准化与信息技术,2010(3):25-28. 被引量：3

二级参考文献7

1袁毓林.语义角色的精细等级及其在信息处理中的应用[J].中文信息学报,2007,21(4):10-20. 被引量：45
2Hutchins, W.John. Machine translation over fifty years, 2001, http://www.hutehinsweb.me.uk/main.htm.
3Daniel Jurafsky, James H.Martin. Speech and Language Processing (2nd Edition), Prentice Hall, 2008.
4Xu Sun, Hou-Feng Wang, and Bo Wang. Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression. Journal of Computer Science and Technology, 2008,?23? (4), 602-611.
5Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proc. 18th International Conf. on Machine Learning, Morgan Kaufmann, San Francisco, 2001, 282-289.
6Sarawagi, Sunita; William W. Cohen. "Semi-Markov conditional random fields for information extraction", in Lawrence K. Saul, Yair Weiss, Leon Bottou (eds.). Advances in Neural Information Processing Systems 17. Cambridge, MA: MIT Press. 2005,1185-1192.
7何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37

共引文献2

1侯济恭,王维龙.海峡两岸农产品物流信息的汉字转换系统的研究[J].农业网络信息,2014(7):5-9. 被引量：1
2应晓东.论词汇分布作为词汇复杂度的一个测度[J].云南民族大学学报（自然科学版）,2014,23(6):460-464.

同被引文献27

1周煜人,彭辉,桂卫华.基于映射的高维数据聚类方法[J].计算技术与自动化,2005,24(2):78-80. 被引量：1
2孙玉芬,卢炎生.一种基于网格方法的高维数据流子空间聚类算法[J].计算机科学,2007,34(4):199-203. 被引量：8
3汪万紫,裘国永,张兵权.基于线性判别分析和二分K均值的高维数据自适应聚类方法[J].郑州轻工业学院学报（自然科学版）,2011,26(2):106-110. 被引量：1
4张力生,贺改利,雷大江.基于幂图的离群子空间搜索算法[J].计算机应用研究,2011,28(8):2859-2861. 被引量：1
5蒋亦樟,王士同.基于方差权重矩阵模型的高维数据子空间聚类算法[J].计算机应用研究,2012,29(8):2868-2871. 被引量：3
6俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类发现[J].计算机研究与发展,2000,37(6):714-720. 被引量：7
7李天辰,殷建平.基于主题聚类的情感极性判别方法[J].计算机科学与探索,2016,10(7):989-994. 被引量：7
8刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018,33(12):119-124. 被引量：44
9谢昆明,罗幼喜.一种改进的主成分分析特征抽取算法:YJ-MICPCA[J].武汉科技大学学报,2019,42(3):220-226. 被引量：5
10吴青,祁宗仙,臧博研,张昱.自适应局部稀疏线性嵌入降维算法[J].西安邮电大学学报,2019,24(2):67-71. 被引量：4

引证文献2

1孙洁丽,刘沛,翟浩文.基于高维数据的聚类研究综述[J].河北省科学院学报,2022,39(5):1-6. 被引量：4
2吴楠楠,石家程,刘胜强.基于LDA主题模型的某品牌手机评论数据分析[J].现代信息科技,2023,7(2):12-14. 被引量：1

二级引证文献5

1魏东,杨洁婷,韩少然,朱准.基于XGBoost-神经网络的建筑负荷预测模型构建[J].科学技术与工程,2023,23(29):12604-12611. 被引量：1
2余彦,蔡霖,张冲,冀弘帅.基于密度聚类的复杂装备健康监测方法[J].指挥控制与仿真,2024,46(2):69-77.
3别春洋,陶贻勇.基于LightGBM和蚁群算法优化的特征选择方法[J].现代计算机,2024,30(4):34-38.
4冯旭珉,王鑫.中国古装影视剧服装领域研究热点及行业趋势分析[J].丝绸,2024,61(10):107-114.
5张凌翱.基于XGBoost和蚁群算法的特征选择方法[J].计算机科学与应用,2023,13(4):883-889.

1李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
2余传明,王峰,胡莎莎,安璐.基于生成对抗网络的跨语言文本情感分析[J].情报理论与实践,2019,42(11):135-141. 被引量：7
3张春祥,李海瑞,高雪瑶.一种受限玻尔兹曼机的词义消歧方法[J].哈尔滨理工大学学报,2019,24(5):116-121. 被引量：2
4韩雅慧.高中英语教材阅读文本跨学科分析——以牛津版、人教版、外研版三版教材对比为例[J].海外英语,2019,0(18):176-177. 被引量：1
5黄晨华,顾大成.广西幼儿师资体育技能培训的思考[J].广西教育,2019,0(47):184-185. 被引量：1
6何义军.楚卜筮祭祷简对语文辞书修订的价值[J].河西学院学报,2019,35(6):95-100.
7李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢.特征选择方法综述[J].计算机工程与应用,2019,55(24):10-19. 被引量：122
8王立军.矿建工程施工管理及监督方法研究[J].工程技术研究,2020,5(3):175-176. 被引量：1
9武光华,李洪宇,刘二刚,柳长发,李倩.基于LDA主题的改进TFIDF 95598工单智能分类研究[J].微型电脑应用,2020,36(3):87-90. 被引量：10
10黄晓红,尹扬帆,许先凤,张凯月.改进的ApFFT算法及其在超声波流量计中的应用[J].电子测量与仪器学报,2019,31(11):44-49. 被引量：3

厦门大学学报（自然科学版）

2020年第2期

浏览历史

内容加载中请稍等...

基于LDA主题模型的维吾尔语无监督词义消歧被引量：2

参考文献1

二级参考文献7

共引文献2

同被引文献27

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的维吾尔语无监督词义消歧 被引量：2

参考文献1

二级参考文献7

共引文献2

同被引文献27

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的维吾尔语无监督词义消歧被引量：2