期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
Event detection and evolution in multi-lingual social streams 被引量:2
1
作者 Yaopeng Liu Hao Peng +2 位作者 Jianxin Li Yangqiu Song Xiong Li 《Frontiers of Computer Science》 SCIE EI CSCD 2020年第5期213-227,共15页
Real-life events are emerging and evolving in social and news streams.Recent methods have succeeded in capturing designed features of monolingual events,but lack of interpretability and multi-lingual considerations.To... Real-life events are emerging and evolving in social and news streams.Recent methods have succeeded in capturing designed features of monolingual events,but lack of interpretability and multi-lingual considerations.To this end,we propose a multi-lingual event mining model,namely MLEM,to automatically detect events and generate evolution graph in multilingual hybrid-length text streams including English,Chinese,French,German,Russian and Japanese.Specially,we merge the same entities and similar phrases and present multiple similarity measures by incremental word2vec model.We propose an 8-tuple to describe event for correlation analysis and evolution graph generation.We evaluate the MLEM model using a massive human-generated dataset containing real world events.Experimental results show that our new model MLEM outperforms the baseline method both in efficiency and effectiveness. 展开更多
关键词 event detection event evolution stream processing multi-lingual anomaly detection
原文传递
融合敏感词典和异构图的汉泰跨语言敏感信息识别
2
作者 朱栩冉 余正涛 张勇丙 《计算机工程与设计》 北大核心 2024年第7期2150-2156,共7页
通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档... 通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档对齐和词对齐的跨语言异构图结构,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图;基于多语言预训练模型对文档节点和词节点进行表征;通过多层图卷积神经网络对输入文档进行编码,使用敏感信息分类器对文档进行分类预测。实验结果表明,所提方法准确率较基线模型提高了5.83%。 展开更多
关键词 敏感词典 跨语言 异构图 图卷积神经网络 敏感信息识别 多语言预训练模型 双语对齐
下载PDF
基于多阶段训练的跨语言摘要技术
3
作者 潘航宇 席耀一 +2 位作者 周会娟 陈刚 郭志刚 《信息工程大学学报》 2024年第2期139-147,共9页
为解决跨语言摘要(Cross-Lingual Summarization,CLS)模型语义理解、跨语言对齐和文本生成能力不高的问题,提出了一个基于多阶段训练的英-中跨语言摘要模型。首先,进行多语言去噪预训练,同时学习中、英文的通用语言知识;其次,进行多语... 为解决跨语言摘要(Cross-Lingual Summarization,CLS)模型语义理解、跨语言对齐和文本生成能力不高的问题,提出了一个基于多阶段训练的英-中跨语言摘要模型。首先,进行多语言去噪预训练,同时学习中、英文的通用语言知识;其次,进行多语言机器翻译微调,同时学习对英文的语义理解、从英文到中文的跨语言对齐以及中文的文本生成能力;最后,进行CLS微调,进一步学习特定于CLS任务的语义理解、跨语言对齐和文本生成能力,最终获得一个性能优异的英-中跨语言摘要模型。实验结果表明所提模型的CLS性能有明显提升,且多语言去噪预训练和多语言机器翻译均可提高模型性能。与众多基线模型中的最优性能相比,所提模型在英-中跨语言摘要基准集上将ROUGE-1、ROUGE-2和ROUGE-L值分别提升了45.70%、60.53%和43.57%。 展开更多
关键词 跨语言摘要 多阶段训练 多语言去噪预训练 多语言机器翻译
下载PDF
基于多策略强化学习的低资源跨语言摘要方法研究 被引量:1
4
作者 冯雄波 黄于欣 +1 位作者 赖华 高玉梦 《计算机工程》 CAS CSCD 北大核心 2024年第2期68-77,共10页
(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资... (CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。 展开更多
关键词 汉语-越南语跨语言摘要 低资源 噪声数据 噪声分析 多策略强化学习
下载PDF
大语言模型与多语言智能的研究进展与启示 被引量:5
5
作者 徐月梅 胡玲 +2 位作者 赵佳艺 杜宛泽 王文清 《计算机应用》 CSCD 北大核心 2023年第S02期1-8,共8页
针对大语言模型(LLM)在高资源语言上表现优异而在低资源语言上表现欠佳的现状,深入分析LLM在多语言场景下的研究现状、技术与局限。首先,从2018年至今以Multi-BERT(multi-lingual Bidirectional Encoder Representations from Transform... 针对大语言模型(LLM)在高资源语言上表现优异而在低资源语言上表现欠佳的现状,深入分析LLM在多语言场景下的研究现状、技术与局限。首先,从2018年至今以Multi-BERT(multi-lingual Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和ChatGPT(Chat Generative Pre-trained Transformer)等语言模型为代表,综述LLM的发展脉络;然后,具体分析了大语言模型在多语言智能上的探索,总结现有LLM在多语言智能的研究局限及其改进方向;最后,探讨LLM未来的多语言智能应用场景。分析指出现有LLM受限于多语言训练语料不均衡,存在语言文化的伦理偏见、语言模型的风格趋同化、多语言能力评估基准缺乏以及多语言场景下的模型幻象输出等问题,未来可采用同一语系家族语言的联合训练、多语言适配器技术、跨语言迁移学习技术、提示语工程技术、基于人工智能反馈的强化学习技术等策略实现多语言智能的LLM。 展开更多
关键词 大语言模型 多语言智能 跨语言模型 通用人工智能 迁移学习
下载PDF
主题模式下多语种文学课程设计及教材编撰——以复旦大学《外国文学十五讲》为例
6
作者 陈靓 《外国语文研究》 2023年第2期7-10,共4页
在外国文学方向的研究生教材设计中,可以考虑通过主题模式整合不同语种的外国文学教学内容。一方面,主题本身可以定期更换,并对相关文学作品的研究视域和理论进行更新;另一方面,不同语种的外国文学教学内容本身也可以培养研究生的比较... 在外国文学方向的研究生教材设计中,可以考虑通过主题模式整合不同语种的外国文学教学内容。一方面,主题本身可以定期更换,并对相关文学作品的研究视域和理论进行更新;另一方面,不同语种的外国文学教学内容本身也可以培养研究生的比较视域和比较能力。在这种模式下,不仅可以开阔学生们的视野,从世界文学的范畴审视文学性的生成,还可以通过跨语种尝试其它的跨媒介和文学传播及改编等领域的文学教学。本报告将结合复旦大学外文学院的“外国文学十五讲”研究生课程设计及教材撰写对此进行详细阐述。 展开更多
关键词 多语种外国文学课程 教材编写 主题模式 《外国文学十五讲》
下载PDF
多语言环境下具有惩罚机制和时滞的谣言传播动力学研究
7
作者 任静静 梅雪晖 +1 位作者 罗续鹏 常忠雪 《新疆大学学报(自然科学版)(中英文)》 CAS 2023年第3期292-304,312,共14页
提出了一种多语言环境下带有惩罚机制和时滞的谣言传播优化控制模型.首先,通过分析平均场方程推导出模型的基本再生数R0.其次,基于Routh-Hurwitz判据、Lyapunov方法和LaSalle不变原理,研究了无谣言/谣言盛行平衡点的存在性和稳定性.同时... 提出了一种多语言环境下带有惩罚机制和时滞的谣言传播优化控制模型.首先,通过分析平均场方程推导出模型的基本再生数R0.其次,基于Routh-Hurwitz判据、Lyapunov方法和LaSalle不变原理,研究了无谣言/谣言盛行平衡点的存在性和稳定性.同时,为了有效地控制谣言传播和控制成本,提出了带有惩罚机制的最优控制.最后,通过数值模拟验证了理论结果的有效性. 展开更多
关键词 谣言传播 惩罚机制 时滞 多语言环境 最优控制
下载PDF
融合词簇约束的汉越跨语言词嵌入
8
作者 武照渊 余正涛 黄于欣 《计算机工程》 CAS CSCD 北大核心 2023年第1期82-91,共10页
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分... 针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 展开更多
关键词 汉越双语 低资源语言 跨语言词嵌入 词簇对齐 多粒度约束
下载PDF
片马茶山人和谐的多语生活——语言和谐调查研究的理论方法个案剖析 被引量:9
9
作者 戴庆厦 余金枝 +2 位作者 余成林 林新宇 范丽君 《云南师范大学学报(哲学社会科学版)》 CSSCI 2009年第6期5-15,共11页
本文根据田野调查的语料分析了片马茶山人和谐多语的语言生活。指出茶山人的多语生活具有全民性、稳定性、和谐性的特点;并分析了和谐的多语生活对茶山人发展、繁荣的重要作用。
关键词 片马茶山人 和谐 多语生活
下载PDF
多文种环境下汉字内码识别算法的研究 被引量:16
10
作者 李培峰 朱巧明 钱培德 《中文信息学报》 CSCD 北大核心 2004年第2期73-79,共7页
汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中... 汉字内码向ISO/IEC 10 6 46过渡是实现计算机用文字编码统一的必然趋势 ,但目前在一段时间内仍将存在多种汉字内码并存的情况 ,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题 ,并提供了多种汉字内码识别算法 ,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上 ,本文对不同的识别算法进行分析和评估。在对目标样本的测试中 ,以上算法的识别率最高可以达到 99 9%以上。 展开更多
关键词 计算机应用 中文信息处理 多文种环境 汉字内码 识别算法
下载PDF
数据库管理系统多民族语言支持研究 被引量:4
11
作者 程伟 林河水 +1 位作者 吴健 孙玉芳 《中文信息学报》 CSCD 北大核心 2006年第2期94-100,共7页
目前流行的各种大型数据库系统都缺乏对民族语言如藏、蒙、维文的支持。如何实现民文信息在数据库中存储、查询和检索等处理及支持各种基于民文的数据库应用,是一个重要问题。本文提出了一个数据库管理系统多民族语言支持框架,支持多民... 目前流行的各种大型数据库系统都缺乏对民族语言如藏、蒙、维文的支持。如何实现民文信息在数据库中存储、查询和检索等处理及支持各种基于民文的数据库应用,是一个重要问题。本文提出了一个数据库管理系统多民族语言支持框架,支持多民族语言、数据库客户端工具和应用编程接口;并在此框架下提出了一种符合ISO/IEC 14651语义的藏文排序方法,从而实现了PostgreSQL数据库对藏文信息处理的全面支持。并在Linux平台的PostgreSQL数据库系统上加以实现。 展开更多
关键词 计算机应用 中文信息处理 数据库管理系统 民族语言支持 藏文 字典序
下载PDF
多语旅游环境建构与旅游资源价值提升 被引量:16
12
作者 田海龙 沈长智 《天津商业大学学报》 2008年第1期43-47,共5页
语言不仅可以描述旅游资源,而且可以建构旅游资源,提升旅游资源的价值。构建多语旅游环境更是对提高旅游资源的价值具有特殊意义。从天津旅游资源的实际出发,运用话语建构理论的研究成果,在国际化都市文化旅游环境发展战略的指导下,讨... 语言不仅可以描述旅游资源,而且可以建构旅游资源,提升旅游资源的价值。构建多语旅游环境更是对提高旅游资源的价值具有特殊意义。从天津旅游资源的实际出发,运用话语建构理论的研究成果,在国际化都市文化旅游环境发展战略的指导下,讨论构建天津多语旅游环境的战略与措施,以期构建体系完善、功能齐全、特色突出的多语旅游环境,提升天津旅游资源价值。 展开更多
关键词 天津旅游资源 多语旅游环境 话语建构 价值提升 战略与措施
下载PDF
多语种网络文本快速新词抽取 被引量:2
13
作者 刘冰洋 刘倩 +2 位作者 张瑾 刘欣然 程学旗 《中文信息学报》 CSCD 北大核心 2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改... 从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。 展开更多
关键词 新词 邻接类别 字符串整体度 后缀树 多语言
下载PDF
应用型复语人才培养模式探析 被引量:9
14
作者 刘晓康 李彦 +2 位作者 曹京华 程毓 蒋秀丽 《大理学院学报(综合版)》 CAS 2013年第2期70-73,共4页
为深化外语教育改革,加速国际化视野下教育质量工程建设,改变英语专业同质化、人才规格单一化现象,复语人才培养是改革趋势之一。结合高校实情,明晰复语教学的相关概念、复语人才类型以及了解应用型复语人才培养的特点是此项改革的要点... 为深化外语教育改革,加速国际化视野下教育质量工程建设,改变英语专业同质化、人才规格单一化现象,复语人才培养是改革趋势之一。结合高校实情,明晰复语教学的相关概念、复语人才类型以及了解应用型复语人才培养的特点是此项改革的要点,复语语种选择是决策的关键。 展开更多
关键词 英语专业 复语 应用型人才 人才培养模式
下载PDF
马来西亚:多语言多文化背景下官方语言的推行与华语的拼争 被引量:31
15
作者 郭熙 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2005年第3期87-94,共8页
多语言多文化背景下官方语言的推广和弱势族群母语的传承和维护是一对矛盾。马来西亚的经验表明官方语言推广中语言地位规划优先于本体规划,地位规划的实现是一个缓慢的过程。处于弱势的族群的拼争可以延缓其母语走向衰落,但其生命力取... 多语言多文化背景下官方语言的推广和弱势族群母语的传承和维护是一对矛盾。马来西亚的经验表明官方语言推广中语言地位规划优先于本体规划,地位规划的实现是一个缓慢的过程。处于弱势的族群的拼争可以延缓其母语走向衰落,但其生命力取决于多个方面。华语在马来西亚的前景不容乐观,它给学界提出了许多值得进一步思考的课题。 展开更多
关键词 多语言 语言规划 母语维护
下载PDF
多语言复杂文本布局引擎分析及应用 被引量:1
16
作者 林民 萨日娜 嘎日迪 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2008年第1期67-70,共4页
分析了微软多语言复杂文本布局引擎Uniscribe的主要工作机制,说明了Uniscribe主要接口函数的功能及用法.基于Uniscribe接口实现了支持Unicode编码和OpenType字体的蒙古文竖向文本编辑器,解决了其中的一些技术难题.
关键词 多语言 复杂文本 布局引擎 OPENTYPE Uniscribe
下载PDF
角色反演算法在问答系统中的应用 被引量:1
17
作者 党琰 张冬茉 李芳 《计算机工程与应用》 CSCD 北大核心 2004年第36期213-217,共5页
该文介绍了如何将角色反演算法的思想用在多信息源多语种问答系统中来构建句法分析器。常用的句法分析算法由于受到语法规模大小的限制,一般都不能有效地应用到实际的自然语言处理当中。角色反演算法思想是将Chart算法的高空间效率和广... 该文介绍了如何将角色反演算法的思想用在多信息源多语种问答系统中来构建句法分析器。常用的句法分析算法由于受到语法规模大小的限制,一般都不能有效地应用到实际的自然语言处理当中。角色反演算法思想是将Chart算法的高空间效率和广义LR算法的高时间效率有效地结合起来,从而大大提高了综合的分析效率。基于多信息源多语种的问答系统,拥有大规模语法(上万条语法规则),通过引入角色反演算法思想,可以分别在问句分析模块和答句生成模块中有效地完成问句和文本答案候选文档的句法分析。 展开更多
关键词 角色反演算法 句法分析 多信息源 多语种 问答系统
下载PDF
少数民族多语人才资源开发与三种语言教育体系构建 被引量:28
18
作者 张贞爱 《延边大学学报(社会科学版)》 2007年第6期71-74,共4页
全球经济一体化和多元文化并存的时代特征比以往任何时期都彰显着多语能力的优势。这为少数民族双语双文化建构特征的优势发展搭建了新的平台。可见,多语能力是新时期少数民族人才资源的优势所在,少数民族需要重新认识自身语言文化建构... 全球经济一体化和多元文化并存的时代特征比以往任何时期都彰显着多语能力的优势。这为少数民族双语双文化建构特征的优势发展搭建了新的平台。可见,多语能力是新时期少数民族人才资源的优势所在,少数民族需要重新认识自身语言文化建构的本质属性。研究表明,少数民族语言、汉语、外语三种语言之间存在着语言和语言认知层面上的内在联系。因此,构建适合少数民族思维特征的三种语言教育体系,可以为少数民族多语人才资源开发探索出行之有效的途径。 展开更多
关键词 少数民族 三种语言教育体系 多语能力 认知潜能
下载PDF
以机器翻译技术为核心的多语信息处理研究 被引量:2
19
作者 赵铁军 曹海龙 《中文信息学报》 CSCD 北大核心 2011年第6期81-89,110,共10页
该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
关键词 机器翻译 多语信息处理 自然语言处理
下载PDF
信息时代的翻译工具 被引量:14
20
作者 冯志伟 《北华大学学报(社会科学版)》 2007年第6期68-75,共8页
我们正处于一个多语言网络的信息时代,如何有效地使用现代化手段来突破人们之间的语言障碍,成为了全人类面临的共同问题。翻译是克服语言障碍的有利手段。信息时代的翻译工具有:机器翻译系统、因特网上的语言翻译资源、CD-ROM上的语言... 我们正处于一个多语言网络的信息时代,如何有效地使用现代化手段来突破人们之间的语言障碍,成为了全人类面临的共同问题。翻译是克服语言障碍的有利手段。信息时代的翻译工具有:机器翻译系统、因特网上的语言翻译资源、CD-ROM上的语言翻译资源、计算机辅助术语管理系统、双语对应语料库、翻译记忆软件和本土化软件工具、机助翻译系统。掌握了信息时代的这些翻译工具,就可以大大地提高翻译的效率,满足信息时代对翻译的迫切需要。 展开更多
关键词 多语言问题 信息时代 机器翻译 资源 工具
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部