近20年来,音频压缩技术的成熟及互联网的普及使得音乐迅速从磁带和激光唱盘(CD)转变为互联网上以MP3为代表的数字音乐.海量数字音乐带来分类组织、查询检索、内容理解与分析等一系列问题,促使产生了一个新兴的交叉学科,即基于内容的音...近20年来,音频压缩技术的成熟及互联网的普及使得音乐迅速从磁带和激光唱盘(CD)转变为互联网上以MP3为代表的数字音乐.海量数字音乐带来分类组织、查询检索、内容理解与分析等一系列问题,促使产生了一个新兴的交叉学科,即基于内容的音乐信息检索(Content-based Music Information Retrieval,MIR).本文阐述了MIR与音乐科技、声音与音乐计算、计算机听觉、语音信息处理、音乐声学等各个相关领域概念的区别与联系,将MIR技术的数十个研究领域按照与音乐要素的密切程度划分为核心层与应用层.分类总结了各领域的概念、原理、应用、基本技术框架及典型文献,同时介绍了研究中常用的音乐领域知识并明确了中英文术语.最后总结MIR领域存在的各方面问题,并展望其未来发展趋势.展开更多
大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力....大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.展开更多
文摘近20年来,音频压缩技术的成熟及互联网的普及使得音乐迅速从磁带和激光唱盘(CD)转变为互联网上以MP3为代表的数字音乐.海量数字音乐带来分类组织、查询检索、内容理解与分析等一系列问题,促使产生了一个新兴的交叉学科,即基于内容的音乐信息检索(Content-based Music Information Retrieval,MIR).本文阐述了MIR与音乐科技、声音与音乐计算、计算机听觉、语音信息处理、音乐声学等各个相关领域概念的区别与联系,将MIR技术的数十个研究领域按照与音乐要素的密切程度划分为核心层与应用层.分类总结了各领域的概念、原理、应用、基本技术框架及典型文献,同时介绍了研究中常用的音乐领域知识并明确了中英文术语.最后总结MIR领域存在的各方面问题,并展望其未来发展趋势.
文摘大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.