期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于跨模态技术的地铁施工风险对策生成方法研究
1
作者 周红 周莉 +1 位作者 汤世隆 黄文 《工程管理学报》 2024年第4期95-100,共6页
为了给地铁施工现场人员应对风险提供智能辅助,提出了基于跨模态技术的地铁施工风险对策智能生成方法,通过采用改进的卷积神经网络ResNet50模型对施工现场风险图像进行语义特征提取,并利用LSTM模型和注意力机制融合图像和文本的语义特征... 为了给地铁施工现场人员应对风险提供智能辅助,提出了基于跨模态技术的地铁施工风险对策智能生成方法,通过采用改进的卷积神经网络ResNet50模型对施工现场风险图像进行语义特征提取,并利用LSTM模型和注意力机制融合图像和文本的语义特征,将施工要素的图像语义与文字语义相关联,以实现施工现场风险图像到风险对策的自动生成。经实验评价可知,提出的基于跨模态技术的地铁施工风险对策生成方法具有0.9以上的准确率和0.8以上的召回率。实现了根据采集的风险图像生成对策文本,为地铁施工风险应对阶段的智能辅助研究提供了可行有效的方法。 展开更多
关键词 地铁施工风险 模态生成 对策生成
下载PDF
不同分布形式的钙盐对燃煤三模态颗粒物生成的影响 被引量:2
2
作者 张平安 袁静 +2 位作者 于敦喜 罗光前 姚洪 《燃料化学学报》 EI CAS CSCD 北大核心 2016年第3期273-278,共6页
通过物理掺混和溶液浸渍两种方式将醋酸钙添加至烟煤中,分别制得富含外在钙盐的掺钙煤与富含内在钙盐的浸钙煤,将原煤、掺钙煤和浸钙煤在沉降炉中进行燃烧实验,炉膛温度1 300℃。收集并分析燃烧生成的颗粒物,研究不同分布形式的钙盐对... 通过物理掺混和溶液浸渍两种方式将醋酸钙添加至烟煤中,分别制得富含外在钙盐的掺钙煤与富含内在钙盐的浸钙煤,将原煤、掺钙煤和浸钙煤在沉降炉中进行燃烧实验,炉膛温度1 300℃。收集并分析燃烧生成的颗粒物,研究不同分布形式的钙盐对三模态颗粒物生成的影响。结果表明,三种煤燃烧生成的超细模态、中间模态和粗模态颗粒物均分别位于小于0.2、0.2-2.0和大于2.0μm粒径范围内;内、外在钙盐均促进超细模态颗粒物的生成,其中,外在钙盐的促进作用更明显;内在钙盐抑制中间模态颗粒物的生成,而外在钙盐促进其生成;对于粗模态颗粒物的生成,内在钙盐具有促进作用,外在钙盐作用不明显。 展开更多
关键词 煤燃烧 煤基质 内在矿物 外在矿物 颗粒物 生成模态
下载PDF
音频驱动跨模态视觉生成算法综述 被引量:2
3
作者 姜莱 于震 +2 位作者 王鹏飞 周东生 侯亚庆 《图学学报》 CSCD 北大核心 2022年第2期181-188,共8页
由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音... 由于音频驱动的跨模态视觉生成算法具有广泛地应用场景,近年来已得到产业界和科研界的广泛关注。音频和视觉为人们日常生活中最重要和常见的2种模态,然而设计一种能够创意地想象出与音频相对应的视觉场景一直是一个巨大挑战,目前关于音频驱动的跨模态视觉生成问题在已有文献中尚未得到系统而全面地研究。针对现有音频驱动的跨模态视觉生成算法进行概述,并将其分为音频到图像、音频到肢体动作视频和音频到说话人脸视频3类。首先阐述其具体应用领域与主流算法流程,并对涉及框架技术进行解析,然后按照技术推进的顺序对相关算法的核心内容与优劣势进行阐述,并解释其生成表现效果,最后对目前领域内所面临的机遇和挑战进行讨论,给出未来研究方向。 展开更多
关键词 模态生成 音频 视觉 深度学习 综述
下载PDF
生成式AI浪潮下的内容革命:动因、逻辑与路径
4
作者 雷晓艳 李子豪 《中国传媒科技》 2024年第6期14-20,共7页
【目的】探讨生成式AI浪潮下新一轮内容革命的动因、逻辑与路径。【方法】运用文献研究、理论思辨、对比分析等方法。【结果】人工智能技术的推广与使用,开启了新一轮的内容革命。从ChatGPT、Sora到Genie,生成式AI成为开启智能互联时代... 【目的】探讨生成式AI浪潮下新一轮内容革命的动因、逻辑与路径。【方法】运用文献研究、理论思辨、对比分析等方法。【结果】人工智能技术的推广与使用,开启了新一轮的内容革命。从ChatGPT、Sora到Genie,生成式AI成为开启智能互联时代内容革命的里程碑。【结论】新一轮内容革命以AI涌现为主线,其兼具的类人化和自主性属性是驱动新一轮内容革命的文化逻辑。生成式AI在助推内容生产主体转换、流程再造、海量内容涌现的同时,在主体性、透明度、可解释性、数据质量等方面提出了紧迫的新课题。 展开更多
关键词 生成式AI 内容革命 类人化 模态交互生成 内容生产范式
下载PDF
多模态知识图谱表示学习综述 被引量:4
5
作者 王春雷 王肖 刘凯 《计算机应用》 CSCD 北大核心 2024年第1期1-15,共15页
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多... 在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。 展开更多
关键词 模态知识图谱 表示学习 模态融合 知识图谱补全 模态生成
下载PDF
基于动态频域分解的乐队指挥动作生成
6
作者 贺鑫 刘凡 +1 位作者 陈德龙 周睿志 《计算机应用研究》 CSCD 北大核心 2024年第3期923-927,955,共6页
近年来,音乐与人体动作之间的内在关联一直以来都在被广泛研究。然而,很少有人关注音乐驱动的乐队指挥动作生成这一任务,即以音乐为输入信号,生成与音乐节奏和语义相协调的乐队指挥动作。聚焦于这一任务,针对指挥动作多种语义成分时空... 近年来,音乐与人体动作之间的内在关联一直以来都在被广泛研究。然而,很少有人关注音乐驱动的乐队指挥动作生成这一任务,即以音乐为输入信号,生成与音乐节奏和语义相协调的乐队指挥动作。聚焦于这一任务,针对指挥动作多种语义成分时空重合的特性,提出基于动作动态频域分解(dynamic frequency-domain motion decomposition,DFMD)的指挥动作生成方法。具体地,首先利用节拍信息构建滤波器,将指挥动作分解成高频和低频分量;接着,通过深度卷积神经网络动态地学习这些分量;最后合成最终的指挥动作。在大规模指挥动作数据集ConductorMotion100上进行的实验中,基于DFMD的指挥动作生成方法得到的低频动作分量和高频动作分量的标准差分别达到了4.4579和9.6466,与真实动作十分接近。该方法突破了现有基于时域或空间域动作分解中连贯性与协调性不可兼得的局限,并有效避免了大幅值低频动作对小幅值高频动作的影响。可视化结果证明生成的动作自然、美观、多样,且与音乐信号紧密同步。为音乐与动作之间的关联提供了新的解释,并为音乐表演领域带来了创新的应用前景。 展开更多
关键词 模态生成 人体动作生成 频域分解 动作分解 音乐驱动生成
下载PDF
一种强真实感的图像生成算法设计与仿真 被引量:1
7
作者 应卫强 张帆 张玲燕 《计算机仿真》 北大核心 2022年第4期492-495,500,共5页
传统方法下生成的跨模态图像易造成目标部分重要信息缺失,生成的图像缺乏真实感,于是提出改进生成式对抗网络和半监督学习的跨模态图像生成方法。建立生成式对抗网络,分析半监督学习特征,经融合后组成半监督生成式对抗网络。在判别器中... 传统方法下生成的跨模态图像易造成目标部分重要信息缺失,生成的图像缺乏真实感,于是提出改进生成式对抗网络和半监督学习的跨模态图像生成方法。建立生成式对抗网络,分析半监督学习特征,经融合后组成半监督生成式对抗网络。在判别器中使用卷积神经网络、在生成器中引入反卷积神经网络,在半监督生成式对抗网络中添加分类器,改进所建的网络模型,利用全变差正则化项建立伪判别损失函数。利用架构的随机梯度下降优化算法,完成散度似然比的直接优化,最后在三个网络的共同作用下,输出生成的跨模态图像。仿真阶段分别从视觉效果与评估指标两个角度,验证出所提方法的有效性,结果证明上述方法不仅使生成图像更具真实感,而且保留了大部分目标特征,能够满足图像的高质量需求。 展开更多
关键词 生成式对抗网络 半监督学习 模态图像生成 随机梯度下降优化算法 损失函数
下载PDF
基于还音转换规则的胶片音频生成方法 被引量:2
8
作者 王睿琦 程皓楠 +1 位作者 叶龙 齐秋棠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第10期1524-1532,共9页
还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.... 还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.该方法包含2部分:一是在基于光电转换规则的包络线修正中,基于光度积分的包络线提取,并基于光学规则进行局部与全局校正,解决了光电转换过程中的信号误差问题;二是在基于频率调制规则的音频生成中,设计直流偏量调节方法,并基于电影音频录制还音标准进行信号频域调制,提升了合成音频质量.通过对MovieAD数据集中6类不同类别胶片进行音频生成并测试主观及客观音频评价,结果显示,相比目前较新的还音方法,文中方法生成的音频质量平均提高8.00%以上,且音频采样率可提高到行业标准的162.08%. 展开更多
关键词 音轨胶片 图像处理 模态音频生成
下载PDF
基于时空图卷积网络的语音驱动个人风格手势生成方法
9
作者 张斌 刘长红 +1 位作者 曾胜 揭安全 《计算机科学》 CSCD 北大核心 2022年第S02期604-608,共5页
人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱... 人们在发言时的手势动作往往具有自己独特的个人风格,研究者们提出了基于生成式对抗网络的语音驱动个人风格手势生成的方法,然而所生成的动作不自然,存在时序上动作不连贯的问题。针对该问题,文中提出了一种基于时空图卷积网络的语音驱动个人风格手势生成的方法,引入以时空图卷积网络为基础的时序动态性判别器,构建手势动作关节点之间空间和时间上的结构关系,并通过时空图卷积网络捕获手势动作关节点在空间上的相关性和提取时序上的动态性特征,使所生成的手势动作保持时序上的连贯性,以更符合真实手势的行为和结构。在Ginosar等构建的语音手势数据集上进行实验验证,与相关方法相比,正确关键点百分比指标提高了2%~5%,所生成的手势动作更自然。 展开更多
关键词 模态生成 手势生成 个人风格学习 时空图卷积网络 时序动态性
下载PDF
面向急性缺血性脑卒中CT到MRI的图像生成 被引量:2
10
作者 冯二燕 秦品乐 +2 位作者 柴锐 曾建朝 孟延锋 《计算机技术与发展》 2023年第10期135-142,共8页
急性缺血性脑卒中病灶很容易在磁共振成像(MRI)上表现为高信号区域。相较于MRI,计算机断层扫描(CT)成像速度快、价格低,不易受金属植入物干扰,但CT对缺血性脑卒中病灶不敏感,通常在CT上难以确定病灶的位置,且CT包含的信息量比MRI少。考... 急性缺血性脑卒中病灶很容易在磁共振成像(MRI)上表现为高信号区域。相较于MRI,计算机断层扫描(CT)成像速度快、价格低,不易受金属植入物干扰,但CT对缺血性脑卒中病灶不敏感,通常在CT上难以确定病灶的位置,且CT包含的信息量比MRI少。考虑到速度与可用性的提升以及成本的降低,为了以CT生成的MRI代替真实的MRI对急性缺血性脑卒中进行诊断,提出一种CT到MRI的跨模态图像生成算法。首先,利用影像组学在CT上确定病灶区域并提取影像组学特征,筛选出信息增益最大的特征并可视化,然后将该特征图与CT一同作为生成对抗网络的输入。生成对抗网络在pix2pix生成器中引入残差块,鉴别器采用PatchGAN。最后在损失函数中引入病灶特征相似性损失函数,更加关注病灶区域的相似性。经两名放射科医生的主观判断与评估指标的客观分析,结果表明,该算法生成的MRI与真实MRI相似性极高,且病灶位置正确,形状相似,可为医生的诊疗提供帮助。 展开更多
关键词 医学图像生成 影像组学 生成对抗网络 计算机断层扫描(CT) 磁共振成像(MRI) 模态图像生成
下载PDF
多模态技术赋能智能化内容创作 被引量:2
11
作者 吴晓英 《中国传媒科技》 2022年第12期73-76,共4页
【目的】近年来,随着自然语言处理、计算机视觉、深度学习等技术的不断突破,人工智能的发展正在进入多模态时代。人工智能要想更接近人类智慧,多模态是其必由之路。【方法】通过对国内、外各类人工智能研究机构关于多模态技术的最新研... 【目的】近年来,随着自然语言处理、计算机视觉、深度学习等技术的不断突破,人工智能的发展正在进入多模态时代。人工智能要想更接近人类智慧,多模态是其必由之路。【方法】通过对国内、外各类人工智能研究机构关于多模态技术的最新研究成果追踪,对多模态背后技术逻辑的剖析。【结果】文章试图探索多模态与智能化内容创作相结合的更多场景,及面临的机遇与挑战,进而指导多模态技术在新闻内容创作领域的研究与实践。【结论】多模态技术作为人工智能领域的新热点,必将为智能化新闻内容创作带来无限可能。 展开更多
关键词 模态 深度学习 深度神经网络 人工智能 模态生成
下载PDF
发掘和利用:细粒度层次化网络的文本到图像生成
12
作者 申恒涛 赵启轲 +3 位作者 朱俊臣 高联丽 陈岱渊 宋井宽 《中国科技论文》 CAS 北大核心 2023年第3期238-244,共7页
针对现有文本到图像生成(text-to-image synthesis,T2I)方法采用冗余的阶段性网络结构,同时缺乏对文本特性有效利用从而影响网络完全收敛的问题,提出了一种细粒度的层次化生成对抗网络(generative adversarial networks,GAN)。该网络利... 针对现有文本到图像生成(text-to-image synthesis,T2I)方法采用冗余的阶段性网络结构,同时缺乏对文本特性有效利用从而影响网络完全收敛的问题,提出了一种细粒度的层次化生成对抗网络(generative adversarial networks,GAN)。该网络利用多维度文本特征提取器充分地“发掘”(explore)文本语义特征;通过堆叠层次化模块,即空间仿射生成模块和累加结合模块,更好地“利用”(exploit)主干网络的生成性能。在3个基准数据集上的实验充分表明,所提方法在量化指标和可视化效果方面均显著领先于现有方法。实现代码已经公开在https:∥github.com/qikizh/EE-GAN。 展开更多
关键词 模态生成 文本到图像生成 生成对抗网络 层次化网络 多维度文本特征提取器
下载PDF
基于非牛顿微液滴的粒子封装及检测
13
作者 梁定新 吕鑫钰 +1 位作者 覃开蓉 薛春东 《力学学报》 EI CAS CSCD 北大核心 2024年第5期1307-1316,共10页
微流控液滴封装技术可将单个或者多个颗粒物封装到微尺度液滴,具有细胞培养、药物可控释放和微量成分分析等重要生物医学应用,而这些应用往往涉及多相混合的复杂非牛顿流体.目前制备尺寸均匀的非牛顿微液滴并实现高效率单粒子封装仍较... 微流控液滴封装技术可将单个或者多个颗粒物封装到微尺度液滴,具有细胞培养、药物可控释放和微量成分分析等重要生物医学应用,而这些应用往往涉及多相混合的复杂非牛顿流体.目前制备尺寸均匀的非牛顿微液滴并实现高效率单粒子封装仍较难实现.针对该问题,首先基于流动聚焦微通道和聚合物溶液开展非牛顿液滴生成实验,系统探究不同非牛顿性质对液滴生成模态的影响,指出兼具剪切稀化与弹性效应的聚合物溶液可在射流模态下实现高单分散性液滴的稳定生成.在此基础上,结合惯性-黏弹性粒子排序,实现了封装率超过58%的单粒子封装,突破了传统单粒子封装的泊松限制.最后,进一步构建了粒子封装率自动检测模型,验证了其在单液滴与多液滴场景下粒子封装率高精度检测的有效性.综上,研究结果不仅一定程度上拓展对于液滴微流控基础理论的认识,还充分验证了射流模态下非牛顿液滴稳定生成用于单粒子封装策略的可行性和优越性,可为优化基于非牛顿微液滴的粒子封装技术及开发一体化装置提供一定参考. 展开更多
关键词 非牛顿微液滴 粒子封装 流动聚焦微通道 液滴生成模态 高精度检测
下载PDF
注意力机制引导的多模态心脏图像分割
14
作者 杨琬琪 周子奇 郭心娜 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期27-31,41,共6页
为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态... 为有效挖掘模态间共享与模态特有的信息,本文提出一种注意力机制引导的半孪生网络,用于分割多模态(MRI与CT)心脏图像.具体地,首先运用循环一致的生成对抗网络(CycleGAN)进行双向的图像生成(即从MRI到CT以及从CT到MRI),这样可以解决模态间心脏图像不配对的问题;其次,设计一个新的半孪生网络,将原始的CT(或MR)图像及其生成的MR(或CT)图像进行配对并同时输入,先通过两个编码器(encoders)分别学习模态特有的特征,再经过一个跨模态的注意力模块将不同模态的特征进行融合,最后输入一个公共的解码器(decoder)来得到模态共享的特征,用于心脏图像分割.上述学习过程是端到端的方式进行训练.本文将所提方法在真实的CT与MR不配对的心脏图像数据集上进行实验评估,表明所提方法的分割精度超出基准方法. 展开更多
关键词 注意力机制 模态心脏图像分割 半孪生网络 模态图像生成
下载PDF
AIGC自动化内容创作平台的技术架构设计与实现
15
作者 荣蓉 《信息与电脑》 2024年第18期191-193,共3页
AIGC自动化内容创作平台是融合人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术与自动化流程的创新系统。该平台融合了大规模语言模型、多模态生成模型、知识图谱等核心技术,构建了从内容规划、素材管理到成品... AIGC自动化内容创作平台是融合人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术与自动化流程的创新系统。该平台融合了大规模语言模型、多模态生成模型、知识图谱等核心技术,构建了从内容规划、素材管理到成品生成的全流程自动化体系。通过对平台的设计与实现的深入研究,本文探讨了其关键技术难点与解决方案。实验结果表明,该平台显著提高了内容创作效率,降低了创作成本,为新一代智能内容生产提供了可行方案。 展开更多
关键词 AIGC 自动化内容创作 技术架构 大规模语言模型 模态生成
下载PDF
山东中西部后向发展雷暴初步研究 被引量:18
16
作者 侯淑梅 俞小鼎 +3 位作者 张少林 刘畅 王俊 万明波 《气象学报》 CAS CSCD 北大核心 2015年第5期819-836,共18页
基于山东济南新一代天气雷达多年资料,首先提出后向发展雷暴的概念,并规定了普查标准。通过普查2005—2012年8年济南多普勒天气雷达资料,选取了75个后向发展雷暴个例,分析了山东中西部后向发展雷暴的统计特征,给出了常见的3种后向发展... 基于山东济南新一代天气雷达多年资料,首先提出后向发展雷暴的概念,并规定了普查标准。通过普查2005—2012年8年济南多普勒天气雷达资料,选取了75个后向发展雷暴个例,分析了山东中西部后向发展雷暴的统计特征,给出了常见的3种后向发展雷暴概念模型。选取典型个例,分别对3种类型后向发展雷暴的演变方式及其物理机制进行了初步分析,为山东中西部后向发展雷暴的生成和演变提供了初步的认识。结果表明:(1)后向发展雷暴主回波以带状为主,生命史1—5 h,最大反射率因子在50 dBz以上,移动路径有西—西北、西南、原地新生3种类型;(2)新回波初生时间发生在16—17时(北京时)最多,初生地点在鲁西北和鲁中山区一带,强度一般在30 min内超过40 dBz,生命史在1 h以上,74.7%的新生回波与主回波合并或连接;(3)山东省中西部具有后向发展特征的对流系统产生的灾害性天气以冰雹和雷暴大风为主,很少伴随暴雨灾害;(4)新回波的源地特征可以分为随主回波移动、沿同一方向延伸以及位于两雷暴群之间3种类型;多个雷暴群共存时,新回波的源地介于两个回波带之间,使二者逐渐趋为一体;(5)当主回波传播方向与其长轴相交时,其长轴方向转向,距离新回波较远的一侧减弱;当主回波传播方向与其长轴方向一致,新回波源地位于主回波长轴的延长线上时,主回波加强;(6)天气尺度系统为后向发展雷暴提供了条件不稳定的大气层结和丰富的水汽,地面辐合线和冷池前沿阵风锋是产生新雷暴的主要抬升触发机制;适当的低层垂直风切变有利于新雷暴持续产生并加强;地形的阻挡使新回波源地在同一地点停滞,冷池阵风锋在低层风引导下沿地形向下游移动,新回波源地也随之移动。 展开更多
关键词 后向发展雷暴 山东中西部 时空分布 雷达回波演变分类 新雷暴生成模态 物理机制
下载PDF
Slope displacement prediction based on multisource domain transfer learning for insufficient sample data 被引量:1
17
作者 Zheng Hai-Qing Hu Lin-Ni +2 位作者 Sun Xiao-Yun Zhang Yu Jin Shen-Yi 《Applied Geophysics》 SCIE CSCD 2024年第3期496-504,618,共10页
Accurate displacement prediction is critical for the early warning of landslides.The complexity of the coupling relationship between multiple influencing factors and displacement makes the accurate prediction of displ... Accurate displacement prediction is critical for the early warning of landslides.The complexity of the coupling relationship between multiple influencing factors and displacement makes the accurate prediction of displacement difficult.Moreover,in engineering practice,insufficient monitoring data limit the performance of prediction models.To alleviate this problem,a displacement prediction method based on multisource domain transfer learning,which helps accurately predict data in the target domain through the knowledge of one or more source domains,is proposed.First,an optimized variational mode decomposition model based on the minimum sample entropy is used to decompose the cumulative displacement into the trend,periodic,and stochastic components.The trend component is predicted by an autoregressive model,and the periodic component is predicted by the long short-term memory.For the stochastic component,because it is affected by uncertainties,it is predicted by a combination of a Wasserstein generative adversarial network and multisource domain transfer learning for improved prediction accuracy.Considering a real mine slope as a case study,the proposed prediction method was validated.Therefore,this study provides new insights that can be applied to scenarios lacking sample data. 展开更多
关键词 slope displacement multisource domain transfer learning(MDTL) variational mode decomposition(VMD) generative adversarial network(GAN) Wasserstein-GAN
下载PDF
Sora技术路线及其对媒体内容生产格局影响分析
18
作者 朱红天 《现代电视技术》 2024年第12期48-51,105,共5页
随着人工智能技术的迅猛发展,多模态内容生成已经成为科技前沿的热点话题。2024年初,OpenAI发布的Sora模型,以其卓越的视频生成能力,迅速吸引了全球关注,标志着多模态生成技术迈入了一个全新的阶段。本文将深入探讨Sora的技术特点,分析... 随着人工智能技术的迅猛发展,多模态内容生成已经成为科技前沿的热点话题。2024年初,OpenAI发布的Sora模型,以其卓越的视频生成能力,迅速吸引了全球关注,标志着多模态生成技术迈入了一个全新的阶段。本文将深入探讨Sora的技术特点,分析其技术及工作原理,并评估其对产业格局的潜在影响。 展开更多
关键词 人工智能 模态内容生成 Sora模型
下载PDF
基于跨域对抗学习的零样本分类 被引量:11
19
作者 刘欢 郑庆华 +3 位作者 罗敏楠 赵洪科 肖阳 吕彦章 《计算机研究与发展》 EI CSCD 北大核心 2019年第12期2521-2535,共15页
零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统... 零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布.最近,随着深度神经网络在跨模态生成方面的成功,使用合成的样本对未见数据进行分类取得了巨大突破.现有方法通过共享生成器和解码器,联合传统生成对抗网络和变分自编码器来实现样本的合成.然而,由于这2种生成网络产生的数据分布不同,联合模型合成的数据遵循复杂的多域分布.针对这个问题,提出跨域对抗生成网络(CrossD-AGN),将传统生成对抗网络和变分自编码器有机结合起来,基于类级语义信息为未见类合成样本,从而实现零样本分类.提出跨域对抗学习机制,引入2个对称的跨域判别器,通过判断合成样本属于生成器域分布还是解码器域分布,促使联合模型中的生成器解码器不断优化,提高样本合成能力.在多个真实数据集上进行了广泛的实验,结果表明了所提出方法在零样本学习上的有效性和优越性. 展开更多
关键词 零样本学习 生成模型 模态生成 跨域对抗学习 联合模型
下载PDF
GPT-4对多模态大模型在多模态理解、生成、交互上的启发 被引量:15
20
作者 刘静 郭龙腾 《中国科学基金》 CSSCI CSCD 北大核心 2023年第5期793-802,共10页
对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符... 对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言理解与生成能力能够带来模型在多模态理解、生成、交互能力上的巨大提升。本文将介绍多模态大模型的概念、关键技术、近期进展和应用场景、GPT-4的技术特性,并重点探讨以GPT-4为代表的大语言模型对构建多模态大模型的几点启发。具体而言,将讨论如何充分利用大语言模型的语言能力,在多模态大模型的构建中,借助语言的帮助更好地感知理解世界、创作生成内容、与人和环境交互。 展开更多
关键词 GPT-4 模态大模型 模态理解 模态生成 模态交互
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部