期刊文献+
共找到68篇文章
< 1 2 4 >
每页显示 20 50 100
《自然语言处理基础与大模型---案例与实践》
1
作者 宗成庆 赵阳 飞桨教材编写组 《中文信息学报》 CSCD 北大核心 2024年第3期F0003-F0003,共1页
近年来,自然语言处理技术迅猛发展,尤其自2022年底ChatGPT发布以来,人类语言技术成为举世瞩目的焦点。如何让初学者快速了解基于神经网络的自然语言处理方法的技术要点,能够在短时间内熟悉相关模型和算法的程序代码,通过对应用系统的上... 近年来,自然语言处理技术迅猛发展,尤其自2022年底ChatGPT发布以来,人类语言技术成为举世瞩目的焦点。如何让初学者快速了解基于神经网络的自然语言处理方法的技术要点,能够在短时间内熟悉相关模型和算法的程序代码,通过对应用系统的上机实践实现从理论到实操的跨越。 展开更多
关键词 自然语言处理 上机实践 神经网络 程序代码 CHAT 人类语言技术 技术要点
下载PDF
基于跨模态实体信息融合的神经机器翻译方法
2
作者 黄鑫 张家俊 宗成庆 《自动化学报》 EI CAS CSCD 北大核心 2023年第6期1170-1180,共11页
现有多模态机器翻译(Multi-modal machine translation,MMT)方法将图片与待翻译文本进行句子级别的语义融合.这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题,并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合... 现有多模态机器翻译(Multi-modal machine translation,MMT)方法将图片与待翻译文本进行句子级别的语义融合.这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题,并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题.针对这些问题,提出了一种跨模态实体重构(Cross-modal entity reconstruction,CER)方法.区别于将完整的图片输入到翻译模型中,该方法显式对齐文本与图像中的实体,通过文本上下文与一种模态的实体的组合来重构另一种模态的实体,最终达到实体级的跨模态语义融合的目的,通过多任务学习方法将CER模型与翻译模型结合,达到提升翻译质量的目的.该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率.进一步的分析实验表明,该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度. 展开更多
关键词 实体重构 跨模态学习 多任务学习 多模态机器翻译
下载PDF
跨模态信息融合的端到端语音翻译
3
作者 刘宇宸 宗成庆 《软件学报》 EI CSCD 北大核心 2023年第4期1837-1849,共13页
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较... 语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较长的语音序列,提取其中的声学信息,而且需要学习源语言语音和目标语言文本之间的对齐关系,从而导致建模困难,且性能欠佳.提出一种跨模态信息融合的端到端的语音翻译方法,该方法将文本机器翻译与语音翻译模型深度结合,针对语音序列长度与文本序列长度不一致的问题,通过过滤声学表示中的冗余信息,使过滤后的声学状态序列长度与对应的文本序列尽可能一致;针对对齐关系难学习的问题,采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中,并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系.在公开的语音翻译数据集上进行的实验表明,所提方法可以显著提升语音翻译的性能. 展开更多
关键词 语音翻译 神经机器翻译 端到端模型 多模态学习
下载PDF
基于对比学习的中文命名实体识别方法
4
作者 江洲钰 向露 +1 位作者 亢晓勉 宗成庆 《中文信息学报》 CSCD 北大核心 2023年第12期98-105,共8页
针对中文命名实体识别任务,基于字词图进行字词特征融合被证明是一类有效的性能提升方法。然而,在实际场景下,构建字词图所使用的外部词典与训练数据间在领域、表达方式等多方面存在不一致,导致引入的词与实体间存在不完全匹配问题。不... 针对中文命名实体识别任务,基于字词图进行字词特征融合被证明是一类有效的性能提升方法。然而,在实际场景下,构建字词图所使用的外部词典与训练数据间在领域、表达方式等多方面存在不一致,导致引入的词与实体间存在不完全匹配问题。不完全匹配词指与实体间存在边界冲突或语义冲突的词,这些词会在模型识别实体边界与类型过程中引入噪声特征。针对此问题,该文提出了一种基于对比学习的中文命名实体识别方法,将冲突实例视为负例,并为边界冲突和语义冲突分别设计了对比学习模块。另外,该文提出了改进的折损InfoNCE函数,以提升语义对比模块区分相似标签的能力。实验表明,在四个中文命名实体识别公开数据集上,该文方法均达到了当前最优性能。 展开更多
关键词 对比学习 命名实体识别 特征融合
下载PDF
中文信息处理60年 被引量:17
5
作者 宗成庆 曹右琦 俞士汶 《语言文字应用》 CSSCI 北大核心 2009年第4期53-61,共9页
本文首先简要回顾中国语文现代化走过的历程、取得的重要成果及其对中文信息处理的影响,然后对汉字信息处理和汉语信息处理的其他工作予以归纳阐述,并对这一领域的学术活动与国际交流情况做简要介绍,最后对中文信息处理所面临的挑战和... 本文首先简要回顾中国语文现代化走过的历程、取得的重要成果及其对中文信息处理的影响,然后对汉字信息处理和汉语信息处理的其他工作予以归纳阐述,并对这一领域的学术活动与国际交流情况做简要介绍,最后对中文信息处理所面临的挑战和未来发展的目标给予粗略的展望。 展开更多
关键词 中文信息处理 自然语言处理 自然语言理解 计算语言学
下载PDF
规则库冗余性控制策略的研究 被引量:6
6
作者 宗成庆 陈肇雄 黄河燕 《软件学报》 EI CSCD 北大核心 1997年第1期1-6,共6页
冗余性控制是研究知识库组织、管理和维护中的一个问题.本文通过对智能型机译系统中规则知识表示方法的分析,提出了将冗余规则划分为显式冗余规则和隐式冗余规则分别予以处理的思想,给出了显式冗余规则的判别算法和部分隐式冗余规则... 冗余性控制是研究知识库组织、管理和维护中的一个问题.本文通过对智能型机译系统中规则知识表示方法的分析,提出了将冗余规则划分为显式冗余规则和隐式冗余规则分别予以处理的思想,给出了显式冗余规则的判别算法和部分隐式冗余规则的检测标准。 展开更多
关键词 机器翻译 规则库 知识库 SC文法 冗余性 翻译机
下载PDF
受限语言子集的理论研究和探索 被引量:3
7
作者 宗成庆 宋今 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第1期9-16,共8页
本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并... 本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并在充分认识受限语言研究的必要性和困难的基础上。 展开更多
关键词 受限语言子集 形式化描述模型 计算机 信息处理
下载PDF
口语自动翻译系统技术评析 被引量:3
8
作者 宗成庆 黄泰翼 徐波 《中文信息学报》 CSCD 北大核心 1999年第2期56-64,F003,共10页
近几年来,随着信息技术的发展,口语自动翻译技术成为新的研究热点。目前国际上一些著名大学和研究机构甚至企业,都纷纷加入这一高技术的竞争行列,我国在相关技术方面也进行了卓有成效的研究。本文对目前自动口语翻译研究的技术现状... 近几年来,随着信息技术的发展,口语自动翻译技术成为新的研究热点。目前国际上一些著名大学和研究机构甚至企业,都纷纷加入这一高技术的竞争行列,我国在相关技术方面也进行了卓有成效的研究。本文对目前自动口语翻译研究的技术现状进行了全面综述和分析,并对一些具体问题作了深入探讨。作者希望本文作出的分析和讨论的问题。 展开更多
关键词 口语释译 语音释译 对话处理 机器翻译 鲁棒性
下载PDF
基于多知识源的同音词识别方法 被引量:1
9
作者 宗成庆 章森 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第4期22-29,共8页
本文提出了基于多知识源的同音词识别方法。该方法利用上下文条件测试函数实现了不定范围的信息相关处理,并根据词性、语义、位置、音节和词频等多种关联信息进行同音词综合识别,取得了较好的同音词识别效果。
关键词 音字转换 同音词识别 语音识别 多知识源
下载PDF
中文信息处理研究现状分析 被引量:15
10
作者 宗成庆 《语言战略研究》 2016年第6期19-26,共8页
60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引... 60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引起中国国内同行的关注,为未来的中文信息处理研究提供有益的参考。 展开更多
关键词 中文信息处理 自然语言处理 自然语言理解 计算语言学
下载PDF
语音翻译系统技术分析
11
作者 宗成庆 陈肇雄 黄河燕 《计算机科学》 CSCD 北大核心 1997年第5期12-15,共4页
语音翻译(SPeech Translation)技术作为一门综合性的计算机应用技术,近年来得到了广的关注。有关专家曾指出,语音翻译是自然语言处理、语音识别及其人工智能研究的最终目标一,是当今世界对计算机科学和工程最大的挑战[1]。
关键词 语音翻译系统 语音识别 语言处理系统
下载PDF
规则动态选择与路标记忆算法
12
作者 宗成庆 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1997年第1期20-26,共7页
本文提出一个语法分析中的规则动态选择与路标记忆算法,该算法提出了实时记录规则调用频度,通过调用频度对规则进行动态选择的处理方法以及设置路标信息记忆表以减少回溯次数的语法分析思想,通过对该算法的设计与分析,深入探讨了快... 本文提出一个语法分析中的规则动态选择与路标记忆算法,该算法提出了实时记录规则调用频度,通过调用频度对规则进行动态选择的处理方法以及设置路标信息记忆表以减少回溯次数的语法分析思想,通过对该算法的设计与分析,深入探讨了快速、高效的语法分析器设计方法以及规则优先次序的动态选择方法。 展开更多
关键词 机器翻译 语法分析 规则选择 路标记忆算法
下载PDF
中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望 被引量:31
13
作者 杜金华 张萌 +1 位作者 宗成庆 孙乐 《中文信息学报》 CSCD 北大核心 2013年第4期1-8,共8页
随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实... 随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实际需求仍有很长的路要走。那么,面对期望、面对需求,机器翻译之路应该如何走?为此,第八届全国机器翻译研讨会对当前机器翻译研究所面临的挑战和机遇进行了深入研讨。该文详细介绍了该次研讨会六个专题的讨论情况,对机器翻译研究面临的机遇和挑战进行了认真的分析和总结。 展开更多
关键词 机器翻译理论 机器翻译应用 语音翻译 少数民族语言 机器翻译评测
下载PDF
基于条件随机场的藏语自动分词方法研究与实现 被引量:27
14
作者 李亚超 加羊吉 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2013年第4期52-58,共7页
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场... 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。 展开更多
关键词 藏语自动分词 条件随机场 紧缩词识别 格助词
下载PDF
2005统计机器翻译研讨班研究报告 被引量:10
15
作者 徐波 史晓东 +11 位作者 刘群 宗成庆 庞薇 陈振标 杨振东 魏玮 杜金华 陈毅东 刘洋 熊德意 侯宏旭 何中军 《中文信息学报》 CSCD 北大核心 2006年第5期1-9,共9页
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研... 2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于短语的翻译模型 机器翻译评测
下载PDF
汉语术语定义的结构分析和提取 被引量:22
16
作者 张艳 宗成庆 徐波 《中文信息学报》 CSCD 北大核心 2003年第6期9-16,共8页
本文介绍的工作是在汉语句法分析研究基础上的一种应用研究 ,对术语如何下定义问题进行了理论上的探讨。术语的定义形式在汉语语法结构方面提供了模板结构和构成方式 ,可以作为知识发现研究的数据基础 ,也可以作为特定领域的语法知识系... 本文介绍的工作是在汉语句法分析研究基础上的一种应用研究 ,对术语如何下定义问题进行了理论上的探讨。术语的定义形式在汉语语法结构方面提供了模板结构和构成方式 ,可以作为知识发现研究的数据基础 ,也可以作为特定领域的语法知识系统。本文针对电子学和计算机领域的语料进行了分词和词性标注处理 ,然后应用句法分析工具分析出句子中的短语成分 ,并根据汉语句子的句型结构 ,总结出术语定义的结构特点 ,自动提取定义的模板。最后根据已建立的数据和概念描述 。 展开更多
关键词 计算机应用 中文信息处理 句法分析 知识发现 术语定义
下载PDF
基于姓氏驱动的中国姓名自动识别方法 被引量:8
17
作者 张仰森 徐波 +1 位作者 曹元大 宗成庆 《计算机工程与应用》 CSCD 北大核心 2003年第4期62-65,共4页
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的... 文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 展开更多
关键词 人名识别知识库 中国姓名识别 分级加权模型 姓氏驱动 自动识别
下载PDF
最大熵和条件随机场模型相融合的藏文人名识别 被引量:19
18
作者 加羊吉 李亚超 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2014年第1期107-112,共6页
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相... 藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。 展开更多
关键词 藏文人名识别 最大熵 条件随机场
下载PDF
语句拼音-汉字转换的智能处理机制分析 被引量:13
19
作者 章森 宗成庆 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第2期37-43,共7页
语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态... 语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音-汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音-汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音-汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音-汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因。 展开更多
关键词 自动分词 中文信息处理 人工智能 拼音-汉字转换
下载PDF
国际计算语言学大会将于2010年在北京召开
20
作者 宗成庆 《术语标准化与信息技术》 2009年第3期30-30,共1页
国际计算语言学大会(International Conference on Computational Linguistics,COLING)是国际计算语言学委员会(International Committee on Computational Linguistics,ICCL)每两年举办一次的学术盛会,是国际计算语言学界最具... 国际计算语言学大会(International Conference on Computational Linguistics,COLING)是国际计算语言学委员会(International Committee on Computational Linguistics,ICCL)每两年举办一次的学术盛会,是国际计算语言学界最具影响的学术会议之一,堪称该领域的“奥林匹克大会”。自1965年第一届COUNG大会召开以来,至今已成功地举办了22届。 展开更多
关键词 计算语言学 国际 北京 学术会议 奥林匹克 委员会
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部