基于从Web of Science等大规模文献数据库穷尽检索得到的131篇语言冲突研究文献,梳理了国际上对语言冲突的研究概况,包括语言冲突的定义、分类、诱因,语言冲突与语言竞争的区别,以及主要研究方法。纵观现有的国际语言冲突研究,国外学者...基于从Web of Science等大规模文献数据库穷尽检索得到的131篇语言冲突研究文献,梳理了国际上对语言冲突的研究概况,包括语言冲突的定义、分类、诱因,语言冲突与语言竞争的区别,以及主要研究方法。纵观现有的国际语言冲突研究,国外学者应用较多的理论框架有4个:语言接触理论、语言安全理论、语言认同理论和语言权利理论。现有研究存在一些缺憾:第一,实证研究居多,缺乏整体意义的理论建构,难以形成有影响力的学派;第二,碎片化的个案研究多,综合性研究少,特别缺乏横向的国别比较研究和纵向的历史比较研究;第三,描述性研究居多,对策性研究缺失。展望未来,应进一步拓宽研究领域,将国际组织层面的语言冲突纳入研究范围;在关注语言权利的同时,重视语言伦理的德治社会效应;优化语言冲突的应对方略,建立预防和治理语言冲突的长久机制。展开更多
随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一...随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一问题,结合迁移学习和深度学习模型,提出一种多语言双向编码器表征量(Multi-lingual Bidirectional Encoder Representations from Transformers,M-BERT)的迁移学习方法.该方法利用M-BERT作为特征提取器,在源语言领域和目标语言领域之间进行特征转换,减小不同语言领域之间的差异,从而提高目标任务在不同领域之间的泛化能力.首先,在构建BERT模型的基础上,通过数据收集处理、训练设置、参数估计和模型训练等预训练操作完成M-BERT模型的构建,并在目标任务上进行微调.然后,利用迁移学习实现M-BERT模型在跨语言文本分析方面的应用.最后,在从英语到法语和德语的跨语言迁移实验中,证明了本文模型具有较高的性能质量和较小的计算量,并在联合训练方案中达到了96.2%的准确率.研究结果表明,该文模型实现了跨语言数据迁移,且验证了其在跨语言NLP领域的有效性和创新性.展开更多
文摘基于从Web of Science等大规模文献数据库穷尽检索得到的131篇语言冲突研究文献,梳理了国际上对语言冲突的研究概况,包括语言冲突的定义、分类、诱因,语言冲突与语言竞争的区别,以及主要研究方法。纵观现有的国际语言冲突研究,国外学者应用较多的理论框架有4个:语言接触理论、语言安全理论、语言认同理论和语言权利理论。现有研究存在一些缺憾:第一,实证研究居多,缺乏整体意义的理论建构,难以形成有影响力的学派;第二,碎片化的个案研究多,综合性研究少,特别缺乏横向的国别比较研究和纵向的历史比较研究;第三,描述性研究居多,对策性研究缺失。展望未来,应进一步拓宽研究领域,将国际组织层面的语言冲突纳入研究范围;在关注语言权利的同时,重视语言伦理的德治社会效应;优化语言冲突的应对方略,建立预防和治理语言冲突的长久机制。
文摘随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一问题,结合迁移学习和深度学习模型,提出一种多语言双向编码器表征量(Multi-lingual Bidirectional Encoder Representations from Transformers,M-BERT)的迁移学习方法.该方法利用M-BERT作为特征提取器,在源语言领域和目标语言领域之间进行特征转换,减小不同语言领域之间的差异,从而提高目标任务在不同领域之间的泛化能力.首先,在构建BERT模型的基础上,通过数据收集处理、训练设置、参数估计和模型训练等预训练操作完成M-BERT模型的构建,并在目标任务上进行微调.然后,利用迁移学习实现M-BERT模型在跨语言文本分析方面的应用.最后,在从英语到法语和德语的跨语言迁移实验中,证明了本文模型具有较高的性能质量和较小的计算量,并在联合训练方案中达到了96.2%的准确率.研究结果表明,该文模型实现了跨语言数据迁移,且验证了其在跨语言NLP领域的有效性和创新性.