期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
Cross-Lingual Non-Ferrous Metals Related News Recognition Method Based on CNN with A Limited Bi-Lingual Dictionary 被引量:2
1
作者 Xudong Hong Xiao Zheng +1 位作者 Jinyuan Xia Linna Wei 《Computers, Materials & Continua》 SCIE EI 2019年第2期379-389,共11页
To acquire non-ferrous metals related news from different countries’internet,we proposed a cross-lingual non-ferrous metals related news recognition method based on CNN with a limited bilingual dictionary.Firstly,con... To acquire non-ferrous metals related news from different countries’internet,we proposed a cross-lingual non-ferrous metals related news recognition method based on CNN with a limited bilingual dictionary.Firstly,considering the lack of related language resources of non-ferrous metals,we use a limited bilingual dictionary and CCA to learn cross-lingual word vector and to represent news in different languages uniformly.Then,to improve the effect of recognition,we use a variant of the CNN to learn recognition features and construct the recognition model.The experimental results show that our proposed method acquires better results. 展开更多
关键词 Non-ferrous metal CNN cross-lingual text classification word vector
下载PDF
Knowledge-Enhanced Bilingual Textual Representations for Cross-Lingual Semantic Textual Similarity
2
作者 Hsuehkuan Lu Yixin Cao +1 位作者 Hou Lei Juanzi Li 《国际计算机前沿大会会议论文集》 2019年第1期436-440,共5页
Joint learning of words and entities is advantageous to various NLP tasks, while most of the works focus on single language setting. Cross-lingual representations learning receives high attention recently, but is stil... Joint learning of words and entities is advantageous to various NLP tasks, while most of the works focus on single language setting. Cross-lingual representations learning receives high attention recently, but is still restricted by the availability of parallel data. In this paper, a method is proposed to jointly embed texts and entities on comparable data. In addition to evaluate on public semantic textual similarity datasets, a task (cross-lingual text extraction) was proposed to assess the similarities between texts and contribute to this dataset. It shows that the proposed method outperforms cross-lingual representations methods using parallel data on cross-lingual tasks, and achieves competitive results on mono-lingual tasks. 展开更多
关键词 Text and knowledge REPRESENTATIONS cross-lingual REPRESENTATIONS cross-lingual SEMANTIC TEXTUAL SIMILARITY
下载PDF
Enhancing low-resource cross-lingual summarization from noisy data with fine-grained reinforcement learning 被引量:1
3
作者 Yuxin HUANG Huailing GU +3 位作者 Zhengtao YU Yumeng GAO Tong PAN Jialong XU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2024年第1期121-134,共14页
Cross-lingual summarization(CLS)is the task of generating a summary in a target language from a document in a source language.Recently,end-to-end CLS models have achieved impressive results using large-scale,high-qual... Cross-lingual summarization(CLS)is the task of generating a summary in a target language from a document in a source language.Recently,end-to-end CLS models have achieved impressive results using large-scale,high-quality datasets typically constructed by translating monolingual summary corpora into CLS corpora.However,due to the limited performance of low-resource language translation models,translation noise can seriously degrade the performance of these models.In this paper,we propose a fine-grained reinforcement learning approach to address low-resource CLS based on noisy data.We introduce the source language summary as a gold signal to alleviate the impact of the translated noisy target summary.Specifically,we design a reinforcement reward by calculating the word correlation and word missing degree between the source language summary and the generated target language summary,and combine it with cross-entropy loss to optimize the CLS model.To validate the performance of our proposed model,we construct Chinese-Vietnamese and Vietnamese-Chinese CLS datasets.Experimental results show that our proposed model outperforms the baselines in terms of both the ROUGE score and BERTScore. 展开更多
关键词 cross-lingual summarization Low-resource language Noisy data Fine-grained reinforcement learning Word correlation Word missing degree
原文传递
Cross-lingual implicit discourse relation recognition with co-training 被引量:1
4
作者 Yao-jie LU Mu XU +3 位作者 Chang-xing WU De-yi XIONG Hong-ji WANG Jin-song SU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第5期651-661,共11页
A lack of labeled corpora obstructs the research progress on implicit discourse relation recognition (DRR) for Chinese, while there are some available discourse corpora in other languages, such as English. In this p... A lack of labeled corpora obstructs the research progress on implicit discourse relation recognition (DRR) for Chinese, while there are some available discourse corpora in other languages, such as English. In this paper, we propose a cross-lingual implicit DRR framework that exploits an available English corpus for the Chinese DRR task. We use machine translation to generate Chinese instances from a labeled English discourse corpus. In this way, each instance has two independent views: Chinese and English views. Then we train two classifiers in Chinese and English in a co-training way, which exploits unlabeled Chinese data to implement better implicit DRR for Chinese. Experimental results demonstrate the effectiveness of our method. 展开更多
关键词 cross-lingual Implicit discourse relation recognition CO-TRAINING
原文传递
Multi-Level Cross-Lingual Attentive Neural Architecture for Low Resource Name Tagging 被引量:2
5
作者 Xiaocheng Feng Lifu Huang +3 位作者 Bing Qin Ying Lin Heng Ji Ting Liu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2017年第6期633-645,共13页
Neural networks have been widely used for English name tagging and have delivered state-of-the-art results. However, for low resource languages, due to the limited resources and lack of training data, taggers tend to ... Neural networks have been widely used for English name tagging and have delivered state-of-the-art results. However, for low resource languages, due to the limited resources and lack of training data, taggers tend to have lower performance, in comparison to the English language. In this paper, we tackle this challenging issue by incorporating multi-level cross-lingual knowledge as attention into a neural architecture, which guides low resource name tagging to achieve a better performance. Specifically, we regard entity type distribution as language independent and use bilingual lexicons to bridge cross-lingual semantic mapping. Then, we jointly apply word-level cross-lingual mutual influence and entity-type level monolingual word distributions to enhance low resource name tagging. Experiments on three languages demonstrate the effectiveness of this neural architecture: for Chinese,Uzbek, and Turkish, we are able to yield significant improvements in name tagging over all previous baselines. 展开更多
关键词 name tagging deep learning recurrent neural network cross-lingual information extraction
原文传递
The Application of the Comparable Corpora in Chinese-English Cross-Lingual Information Retrieval
6
作者 杜林 张毅波 +1 位作者 孙乐 孙玉芳 《Journal of Computer Science & Technology》 SCIE EI CSCD 2001年第4期351-358,共8页
This paper proposes a novel Chinese-English Cross-Lingual Information Retrieval (CECLIR) model PME, in which bilingual dictionary and comparable corpora are used to translate the query terms. The Proximity and mutua... This paper proposes a novel Chinese-English Cross-Lingual Information Retrieval (CECLIR) model PME, in which bilingual dictionary and comparable corpora are used to translate the query terms. The Proximity and mutual information of the term-pairs in the Chinese and English comparable corpora are employed not only to resolve the translation ambiguities but also to perform the query expansion so as to deal with the out-of-vocabulary issues in the CECLIR. The evaluation results show that the query precision of PME algorithm is about 84.4% of the monolingual information retrieval. 展开更多
关键词 cross-lingual information retrieval comparable corpus mutual information query expansion
原文传递
一种提高跨语言理解的NLP迁移学习
7
作者 王坤 盛鸿宇 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期153-163,共11页
随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一... 随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一问题,结合迁移学习和深度学习模型,提出一种多语言双向编码器表征量(Multi-lingual Bidirectional Encoder Representations from Transformers,M-BERT)的迁移学习方法.该方法利用M-BERT作为特征提取器,在源语言领域和目标语言领域之间进行特征转换,减小不同语言领域之间的差异,从而提高目标任务在不同领域之间的泛化能力.首先,在构建BERT模型的基础上,通过数据收集处理、训练设置、参数估计和模型训练等预训练操作完成M-BERT模型的构建,并在目标任务上进行微调.然后,利用迁移学习实现M-BERT模型在跨语言文本分析方面的应用.最后,在从英语到法语和德语的跨语言迁移实验中,证明了本文模型具有较高的性能质量和较小的计算量,并在联合训练方案中达到了96.2%的准确率.研究结果表明,该文模型实现了跨语言数据迁移,且验证了其在跨语言NLP领域的有效性和创新性. 展开更多
关键词 自然语言处理 多语言双向编码器表征量 迁移学习 跨语言 深度学习
下载PDF
图书情报领域中外学者研究方法使用差异分析——跨语言文本分类的视角
8
作者 章成志 储新龙 +1 位作者 田亮 储荷婷 《情报理论与实践》 CSSCI 北大核心 2024年第9期45-58,共14页
[目的/意义]对学科研究方法的自省式分析对于理解学科发展和建立学科自主知识体系至关重要。通过研究国内外学者在研究方法上的使用差异,可以更全面地了解不同地区和文化背景下的研究者在应对不同研究问题所采用的策略和方法,从而促进... [目的/意义]对学科研究方法的自省式分析对于理解学科发展和建立学科自主知识体系至关重要。通过研究国内外学者在研究方法上的使用差异,可以更全面地了解不同地区和文化背景下的研究者在应对不同研究问题所采用的策略和方法,从而促进学术交流和跨国合作,并进一步推动学科的发展与学科知识体系的完善。[方法/过程]以图书情报领域5种高影响力中英文期刊中1990-2021年共30余年的学术论文为研究对象,采用跨语言文本分类方法对这些论文中的研究方法进行自动分类。然后从研究方法的使用频率与演化差异以及适用主题多样性差异两个角度,进行中外比较研究。[结果/结论]国外学者越来越倾向于使用定性方法,而对定量方法的使用正在减少。同时,国内外大多数研究方法的适用主题多样性都在增加。这项研究对于理解图书情报学科的发展、促进学术交流与合作以及提高国内学者的国际影响力具有重要意义。 展开更多
关键词 自动分类模型 研究方法分类 跨语言文本分类 研究方法使用
下载PDF
“南孔圣地,衢州有礼”城市名片的创译一体外宣翻译路径与策略——基于跨语际书写视角
9
作者 吾雅平 《江苏商论》 2024年第7期138-141,共4页
“南孔圣地,衢州有礼”作为城市名片,是衢州鲜亮的文化符号。跨语际书写立足翻译,扎根地域文化,整合语言传播、地方文化和跨语际实践,强调译者在文化翻译中的目的、跨越、聚合和表述。在路径上,可尝试采用创译一体的创新-创造-创译路径... “南孔圣地,衢州有礼”作为城市名片,是衢州鲜亮的文化符号。跨语际书写立足翻译,扎根地域文化,整合语言传播、地方文化和跨语际实践,强调译者在文化翻译中的目的、跨越、聚合和表述。在路径上,可尝试采用创译一体的创新-创造-创译路径,具体的策略可包括异化+“扩展-详述”策略、归化+“扩展-延伸”策略、融通+“扩展-增强”策略等。 展开更多
关键词 城市名片 跨语际书写 路径 策略
下载PDF
基于多策略强化学习的低资源跨语言摘要方法研究 被引量:1
10
作者 冯雄波 黄于欣 +1 位作者 赖华 高玉梦 《计算机工程》 CAS CSCD 北大核心 2024年第2期68-77,共10页
(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资... (CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。 展开更多
关键词 汉语-越南语跨语言摘要 低资源 噪声数据 噪声分析 多策略强化学习
下载PDF
低资源场景下基于联合训练与自训练的跨语言摘要方法
11
作者 程绍欢 唐煜佳 +1 位作者 刘峤 陈文宇 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第5期762-770,共9页
随着全球化的不断发展,跨语言摘要任务已成为自然语言处理领域的一项重要课题。在低资源场景下,现有方法存在表征转换受限和数据利用不充分等问题。为此,该文提出了一种基于联合训练与自训练的跨语言摘要方法。该方法使用两个模型分别... 随着全球化的不断发展,跨语言摘要任务已成为自然语言处理领域的一项重要课题。在低资源场景下,现有方法存在表征转换受限和数据利用不充分等问题。为此,该文提出了一种基于联合训练与自训练的跨语言摘要方法。该方法使用两个模型分别建模翻译任务和跨语言摘要任务,以统一输出端的语言向量空间,从而避免模型间表征转换受限的问题。此外,通过对齐平行训练对的输出特征和概率进行联合训练,增强模型间的语义共享。同时,在联合训练的基础上引入自训练技术,利用额外的单语摘要数据生成合成数据,有效缓解了低资源场景下数据稀缺的问题。实验结果表明,该方法在多个低资源场景下均优于现有对比方法,实现了ROUGE分数的显著提升。 展开更多
关键词 跨语言摘要 联合训练 低资源场景 机器翻译 自训练
下载PDF
基于特征提示的跨语种语音识别模型
12
作者 王嘉文 高定国 +1 位作者 索朗曲珍 尼琼 《科学技术与工程》 北大核心 2024年第24期10348-10355,共8页
跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的... 跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的领域偏移或干扰,不同语言之间的任务权重和数据分布等问题,通过特征提示的方法研究跨语种语音识别模型;为简化传统需要专业人员对音素进行统一标注的过程,通过对原数据标识对应语种的方法研究跨语种语音数据标注方式,在2个公开数据集上进行实验。结果表明:所提模型相比于目前主流的语音识别模型Conformer模型平均错误率降低46.44%,相比于基线模型平均错误率降低2.1%,达到较高的识别准确率。研究成果为跨语种语音识别领域提供了新的思路和方法。 展开更多
关键词 特征提示 跨语种 语音识别 CONFORMER Contextnet
下载PDF
增强依存结构表达的零样本跨语言事件论元角色分类
13
作者 张远洋 贡正仙 孔芳 《计算机工程与科学》 CSCD 北大核心 2024年第3期508-517,共10页
事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标... 事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标注语料匮乏的目标语言端。围绕不同语言的事件文本在依存结构上的表达共性,提出了使用BiGRU网络模块对触发词到候选论元的依存路径信息进行额外编码的方法。本文设计的编码模块能灵活地与当前主流的基于深度学习框架的事件论元角色分类模型相联合。实验结果表明,本文提出的方法能更有效地完成跨语言迁移,提高多个基准模型的分类性能。 展开更多
关键词 零样本跨语言 事件论元角色分类 依存结构 BiGRU 依存路径信息
下载PDF
面向汉越跨语言事件检索的事件预训练方法
14
作者 吴少扬 余正涛 +3 位作者 黄于欣 朱恩昌 高盛祥 邓同杰 《中文信息学报》 CSCD 北大核心 2024年第4期78-85,共8页
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,... 汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。 展开更多
关键词 事件预训练 跨语言事件检索 掩码语言模型 对比学习
下载PDF
基于无监督预训练的跨语言AMR解析
15
作者 范林雨 李军辉 孔芳 《计算机工程与科学》 CSCD 北大核心 2024年第1期170-178,共9页
抽象语义表示AMR是将给定文本的语义特征抽象成一个单根的有向无环图。由于缺乏非英文语言的AMR数据集,跨语言AMR解析通常指给定非英文目标语言文本,构建其英文翻译对应的AMR图。目前跨语言AMR解析的相关工作均基于大规模英文-目标语言... 抽象语义表示AMR是将给定文本的语义特征抽象成一个单根的有向无环图。由于缺乏非英文语言的AMR数据集,跨语言AMR解析通常指给定非英文目标语言文本,构建其英文翻译对应的AMR图。目前跨语言AMR解析的相关工作均基于大规模英文-目标语言平行语料或高性能英文-目标语言翻译模型,通过构建(英文,目标语言和AMR)三元平行语料进行目标语言的AMR解析。与该假设不同的是,本文探索在仅具备大规模单语英文和单语目标语言语料的情况下,实现跨语言AMR解析。为此,提出基于无监督预训练的跨语言AMR解析方法。具体地,在预训练过程中,融合无监督神经机器翻译任务、英文和目标语言AMR解析任务;在微调过程中,使用基于英文AMR 2.0转换的目标语言AMR数据集进行单任务微调。基于AMR 2.0和多语言AMR测试集的实验结果表明,所提方法在德文、西班牙文和意大利文上分别获得了67.89%,68.04%和67.99%的Smatch F1值。 展开更多
关键词 跨语言AMR语义解析 序列到序列模型 预训练模型
下载PDF
融合图像信息的越汉跨语言新闻文本摘要方法
16
作者 吴奇远 余正涛 +2 位作者 黄于欣 谭凯文 张勇丙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期714-723,共10页
[目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损... [目的]为了有效剔除冗余文本信息,提高摘要简洁性同时充分利用图像信息提高摘要准确性,对融合图像信息的越汉跨语言新闻文本摘要方法进行研究.[方法]首先利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,其次利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要.[结果]在本文构建的越汉多模态跨语言摘要数据集上,相较于对比方法,本方法生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度.[结论]引入图像信息有利于生成高质量的跨语言摘要;采用单任务直接学习两种语言的互动信息可以降低将跨语言摘要分解为多任务带来的误差累积. 展开更多
关键词 跨语言摘要 越汉跨语言新闻摘要 图文融合 图文对比损失
下载PDF
基于要素关联图的汉越跨语言事件检索方法
17
作者 赵周颖 余正涛 +2 位作者 黄于欣 陈瑞清 朱恩昌 《现代电子技术》 北大核心 2024年第7期127-132,共6页
汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪... 汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪声文本,现有的模型不能很好地捕获事件匹配特征,匹配效果欠佳。基于此,文中提出基于要素关联图的汉越跨语言事件检索方法。首先,预训练一个汉越双语词嵌入来解决跨语言问题;然后,抽取查询文档中的关键信息(关键词和实体)以构建要素关联图;最后,通过引入一个图编码器对构建的要素图进行编码,生成结构化的事件信息来增强传统的事件检索模型。实验结果表明文中提出的方法优于传统的基线方法。 展开更多
关键词 跨语言事件检索 跨语言词嵌入 要素关联图 图神经网络 文本匹配 事件检索
下载PDF
基于预训练模型的多音字消歧方法
18
作者 高贝贝 张仰森 《计算机科学》 CSCD 北大核心 2024年第11期273-279,共7页
字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针... 字音转换是中文语音合成系统(Text-To-Speech,TTS)的重要组成部分,其核心问题是多音字消歧,即在若干候选读音中为多音字选择一个正确的发音。现有的方法通常无法充分理解多音字所在词语的语义,且多音字数据集存在分布不均衡的问题。针对以上问题,提出了一种基于预训练模型RoBERTa的多音字消歧方法CLTRoBERTa(Cross-lingual Translation RoBERTa)。首先联合跨语言互译模块获得多音字所在词语的另一种语言翻译,并将其作为额外特征输入模型以提升对词语的语义理解,然后使用判别微调中的层级学习率优化策略来适应神经网络不同层之间的学习特性,最后结合样本权重模块以解决多音字数据集的分布不均衡问题。CTLRoBERTa平衡了数据集的不均衡分布带来的性能差异,并且在CPP(Chinese Polyphone with Pinyin)基准数据集上取得了99.08%的正确率,性能优于其他基线模型。 展开更多
关键词 多音字消歧 预训练模型 字音转换 跨语言互译 层级学习率 样本权重
下载PDF
融合敏感词典和异构图的汉泰跨语言敏感信息识别
19
作者 朱栩冉 余正涛 张勇丙 《计算机工程与设计》 北大核心 2024年第7期2150-2156,共7页
通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档... 通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档对齐和词对齐的跨语言异构图结构,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图;基于多语言预训练模型对文档节点和词节点进行表征;通过多层图卷积神经网络对输入文档进行编码,使用敏感信息分类器对文档进行分类预测。实验结果表明,所提方法准确率较基线模型提高了5.83%。 展开更多
关键词 敏感词典 跨语言 异构图 图卷积神经网络 敏感信息识别 多语言预训练模型 双语对齐
下载PDF
用于小样本跨语言文本分类的元对比学习框架
20
作者 郭建铭 赵彧然 刘功申 《网络与信息安全学报》 2024年第3期107-116,共10页
众多的安全风控问题均为文本分类问题,国际场景下的舆情分析等风控问题涉及多种语言,是一大难点。先前的研究表明,通过跨语言语义知识迁移可以显著提高小样本文本分类任务的性能。然而,跨语言文本分类的发展仍面临着一系列挑战。获得语... 众多的安全风控问题均为文本分类问题,国际场景下的舆情分析等风控问题涉及多种语言,是一大难点。先前的研究表明,通过跨语言语义知识迁移可以显著提高小样本文本分类任务的性能。然而,跨语言文本分类的发展仍面临着一系列挑战。获得语义无关的文本表征是一项困难的任务。不同语言之间的语法结构和句法规则引起文本表征的差异,因此提取通用的语义信息较为困难。此外,跨语言文本分类的标签数据十分稀缺。在很多现实场景中,只能获得少量的标记数据,这严重降低了许多方法的性能。因此需要有效的方式能够在小样本情况下准确地迁移知识,提高分类模型的泛化能力。为应对这些挑战,提出了集成对比学习和元学习的框架,该框架集成了对比学习和元学习的优势,利用对比学习来提取与语言无关的通用语义信息,同时利用元学习快速泛化的优势来改善小样本场景中的知识迁移。此外,提出了基于任务的数据增强方法,以进一步提高所提框架在小样本跨语言文本分类中的性能。通过在两个广泛使用的多语言文本分类数据集上进行大量实验,证实了所提方法能够有效提升文本分类的准确性,可有效应用于风控安全领域。 展开更多
关键词 跨语言文本分类 元学习 对比学习 小样本
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部