印尼语、马来语自然语言处理研究综述被引量：3

An Overview of Natural Language Processing for Indonesian and Malay

下载PDF

导出

摘要随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势. As the penetration rate of Indonesian and Malay rises,it is significant to carry out information processing on massive texts of these two languages.Extensive research is conducted on Indonesian and Malay.However,as low-resource languages,Indonesian and Malay draw less attention than common languages.Thus,the deep learning methods cannot be fully utilized.In this paper,research on Indonesian and Malay morphological analysis,syntactic parsing,machine translation,spelling check etc.,is analyzed and summarized.In the most research findings,algorithms cannot be compared objectively due to their different corpus scales and evaluation metrics.Finally,problems and future directions of natural language processing on Indonesian and Malay are discussed with the consideration of the existing open language resources in various fields.

作者蒋盛益李珊珊符斯慧林楠铠 JIANG Shengyi;LI Shanshan;FU Sihui;LIN Nankai(School of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou 510006;Guangzhou Key Laboratory of Multilingual Intelligent Processing,Guangdong University of Foreign Studies,Guangzhou 510006)

机构地区广东外语外贸大学信息科学与技术学院广东外语外贸大学广州市非通用语种智能处理重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2020年第6期530-541,共12页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61572145) 广州市科技计划项目(No.202002030227)资助。

关键词印尼语马来语黏着语低资源语言自然语言处理 Indonesian Malay Agglutinative Language Low-Resource Language Natural Language Processing

分类号 H631.2 [语言文字] H631.1 [语言文字] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1郑铿涛,林楠铠,付颖雯,王连喜,蒋盛益.汉语-印尼语平行语料自动对齐方法研究[J].广西师范大学学报（自然科学版）,2019,37(1):89-97. 被引量：6

二级参考文献2

1林政,吕雅娟,刘群,马希荣.Web平行语料挖掘及其在机器翻译中的应用[J].中文信息学报,2010,24(5):85-91. 被引量：5
2郭华伟,张帆,杨小敏,侯露露.英汉平行语料库在跨语言信息检索中的应用分析[J].医学信息学杂志,2012,33(3):39-43. 被引量：1

共引文献5

1李宁.基于WordSmith软件的平行语料库加工处理系统设计[J].自动化与仪器仪表,2021(2):131-134.
2黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：47
3叶雪,梁娟.基于平行语料库的英汉跨语言信息检索设计研究[J].电子设计工程,2021,29(17):135-138. 被引量：4
4左世亮,刘稳良.融合多源信息的平行语料库相似句段去重算法[J].计算机仿真,2021,38(8):344-347. 被引量：1
5赞拉公,安见才让.汉藏政府公文机器翻译的语料对齐技术研究[J].信息技术与信息化,2023(12):102-106.

同被引文献22

1王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：12
2赵飞,周涛,张良,马鸣卉,刘金虎,余飞,查一龙,李睿琪.维基百科研究综述[J].电子科技大学学报,2010,39(3):321-334. 被引量：38
3奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：224
4周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1701
5刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：145
6杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：376
7赵京胜,宋梦雪,高祥.自然语言处理发展及应用综述[J].信息技术与信息化,2019(7):142-145. 被引量：76
8王子牛,姜猛,高建瓴,陈娅先.基于BERT的中文命名实体识别方法[J].计算机科学,2019,46(S11):138-142. 被引量：89
9魏笑,秦永彬,陈艳平.一种基于部件CNN的网络安全命名实体识别方法[J].计算机与数字工程,2020,48(1):106-111. 被引量：9
10李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：101

引证文献3

1刘妍,熊德意.面向小语种机器翻译的平行语料库构建方法[J].计算机科学,2022,49(1):41-46. 被引量：5
2关菁华,黄启亮,吕泽华,谭梦琪.基于深度学习的命名实体识别方法研究[J].软件导刊,2023,22(10):90-94.
3廉龙颖,高传凯,刘兴丽.网络空间安全领域实体识别的数据增强方法[J].黑龙江科技大学学报,2024,34(4):655-660.

二级引证文献5

1徐硕,张萌萌,柳力元,王聪聪,孙睿,李怡琳,徐金楠,安欣.新冠领域溯源类论文筛选及全文实体标注研究[J].农业图书情报学报,2023,35(1):87-98.
2仇全菊.人工智能背景下汉译英译前编辑策略探究[J].青岛职业技术学院学报,2023,36(2):23-26.
3吕雪芬.基于英汉双语平行语料库构建及应用研究[J].吉林农业科技学院学报,2023,32(5):21-25.
4杨春,崔勇,黄友丽.基于语言服务的康养医疗旅游类俄汉双语平行语料库构建[J].齐齐哈尔高等师范专科学校学报,2023(6):62-64.
5刘鹏娟.大规模分布式统计机器翻译离线模型训练研究[J].自动化与仪器仪表,2023(12):18-22.

1钟典晟,郑兢,江小剑,倪栋,李伟男.高校教育信息系统安全防护措施[J].福建电脑,2020,36(6):37-43.
2金莉娜.类型学视野下的朝鲜语多动词结构研究[J].民族语文,2020(3):71-80.
3徐秋菊.鼓励算法多样突出优化过程——“两位数加两位数口算”的教学片段与思考[J].试题与研究（教学论坛）,2020(16):82-82.
4田野,陈曼倩,王胜龙.基于工业汉语语料库构建的工业技术通用语推广研究[J].西部学刊,2020(11):158-160. 被引量：2
5王卉.基于语言资源观的语言保护[J].海外英语,2020(11):244-245.
6黄小勇,查育新,朱清贞.互联网对中国绿色经济增长的影响——基于中国省域绿色竞争力的实证研究[J].当代财经,2020(7):112-123. 被引量：18
7问羽欣.拉萨市语言产业发展现状分析[J].西藏科技,2020(7):54-57.
8张兆芝,陈翔,高敏,卢燕燊,张钟杰.基于自然语言的国网投诉工单智能分类模型构建[J].微型电脑应用,2020,36(7):54-57. 被引量：2
9荆丰,丁海恩.在线政务服务能力的生成路径研究——基于对全球155个国家的模糊集定性比较分析[J].电子政务,2020(7):111-120. 被引量：9
10岳天祥,赵娜,刘羽,王轶夫,张斌,杜正平,范泽孟,史文娇,陈传法,赵明伟,宋敦江,王世海,宋印军,闫长青,李启权,孙晓芳,张丽丽,田永中,王薇,王英安,马胜男,黄宏胜,卢毅敏,王情,王晨亮,王玉柱,鹿明,周伟,刘熠,尹笑哲,王宗,包正义,赵苗苗,赵亚鹏,焦毅蒙,Ufra NASEER,范斌,李赛博,杨阳,John P.WILSON.生态环境曲面建模基本定理及其应用[J].中国科学：地球科学,2020,50(8):1083-1105. 被引量：9

模式识别与人工智能

2020年第6期

浏览历史

内容加载中请稍等...

印尼语、马来语自然语言处理研究综述被引量：3

参考文献1

二级参考文献2

共引文献5

同被引文献22

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

印尼语、马来语自然语言处理研究综述 被引量：3

参考文献1

二级参考文献2

共引文献5

同被引文献22

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

印尼语、马来语自然语言处理研究综述被引量：3