期刊文献+
共找到1,148篇文章
< 1 2 58 >
每页显示 20 50 100
基于大语言模型的BIM正向设计问答系统研究 被引量:1
1
作者 丁志坤 李金泽 刘明辉 《土木工程与管理学报》 2024年第1期1-7,12,共8页
在正向设计中,设计人员能够通过BIM技术进行设计和管理建筑项目,以支持决策。然而,BIM正向设计过程中的信息处理和知识共享仍面临诸多挑战,尤其是在快速获取和应用复杂建筑规范及设计知识方面。为解决上述问题,本研究基于大语言模型(LLM... 在正向设计中,设计人员能够通过BIM技术进行设计和管理建筑项目,以支持决策。然而,BIM正向设计过程中的信息处理和知识共享仍面临诸多挑战,尤其是在快速获取和应用复杂建筑规范及设计知识方面。为解决上述问题,本研究基于大语言模型(LLM)设计了一套BIM正向设计问答系统,旨在探究LLM在BIM正向设计场景中的实际应用。通过采用基于QLoRA的LLM微调方式提高模型的专业性,并构建本地知识库形成问答系统,最后设计评价指标对系统进行主客观性能评估、专业问答对比分析。实验结果表明,该系统在专业领域性能表现良好,并能根据特定设计场景生成建议和解决方案,验证了本系统的可行性和优越性。 展开更多
关键词 正向设计 BIM 语言模型 专业问答
下载PDF
大语言模型融合知识图谱的医学问答系统构建研究
2
作者 胡佳慧 李姣 +3 位作者 姚宽达 徐晓巍 娄培 方安 《中国数字医学》 2024年第6期91-95,共5页
大语言模型(LLM)具有强大的学习和推理能力,然而由于缺乏内部知识,该模型面临幻觉挑战。针对医学问答对高质量专业知识的需求,本研究提出一种大语言模型融合知识图谱的医学问答方法,并将其应用于医学科技信息知识服务平台(MedKaaS)的问... 大语言模型(LLM)具有强大的学习和推理能力,然而由于缺乏内部知识,该模型面临幻觉挑战。针对医学问答对高质量专业知识的需求,本研究提出一种大语言模型融合知识图谱的医学问答方法,并将其应用于医学科技信息知识服务平台(MedKaaS)的问答系统构建。研究表明,相比传统的知识库问答(KBQA)和新兴的基于生成式大语言模型的问答,本文所提出的大语言模型融合知识图谱的方法充分综合了二者的优势,并为医学问答提供了证据溯源支持,有效提升了医学智能问答质量和医学知识服务效果。 展开更多
关键词 语言模型 知识图谱 医学问答 知识溯源 知识服务
下载PDF
大语言模型中文问答正确性对比实验研究——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例
3
作者 唐明伟 陈宙 +3 位作者 丁晗萱 朱翼 顾明辉 陈羽 《情报探索》 2024年第7期71-78,共8页
[目的/意义]对大语言模型中文问答正确性进行实验测评研究,为中文用户使用大语言模型提供一定的指导作用。[方法/过程]针对科技、教育、医学、生活、旅游美食和哲学文化6个领域,分别设计常识性、专业性和开放性三类问题,每类20个问题,共... [目的/意义]对大语言模型中文问答正确性进行实验测评研究,为中文用户使用大语言模型提供一定的指导作用。[方法/过程]针对科技、教育、医学、生活、旅游美食和哲学文化6个领域,分别设计常识性、专业性和开放性三类问题,每类20个问题,共计360个问题。分别向ChatGPT 3.5、Claude 1.0和文心一言2.1提问,再针对回答进行正确性的人工评价。最后汇总评价结果,进行正确性的多方面对比分析。[结果/结论]实验分析表明中文语料数据的规模与质量,以及大语言模型的参数规模是影响大语言模型中文问答正确性的重要因素。 展开更多
关键词 语言模型 中文问答 实验研究
下载PDF
多模态网络社交中图像符号的社会语言分析
4
作者 王大青 《辽宁开放大学学报》 2024年第2期102-105,共4页
随着信息技术的迅猛发展,多模态网络社交图像符号逐渐成为社会语言研究的一个重要话题。从国内外已有的研究成果来看,网络语言研究多集中在文本语言方面,图像语言研究则大多归属于现代艺术史研究。基于语言学转向理论,在文本语言与图像... 随着信息技术的迅猛发展,多模态网络社交图像符号逐渐成为社会语言研究的一个重要话题。从国内外已有的研究成果来看,网络语言研究多集中在文本语言方面,图像语言研究则大多归属于现代艺术史研究。基于语言学转向理论,在文本语言与图像符号之间建立联系,同时依据韩礼德(Halli⁃day)创立的系统功能语言学理论,对多模态网络社交中的图像符号进行分析、归纳、整理,提出多模态网络社交中图像的社会语言特征,即文本与图像的互文性,视觉图像的简洁性和即时性,图像思维的碎片化、肤浅化,图像的娱乐化、广告化,以期更好地开展网络交际沟通。 展开更多
关键词 多模态 网络社交 文本语言 图像符号 社会语言特征
下载PDF
一种消减多模态偏见的鲁棒视觉问答方法 被引量:1
5
作者 张丰硕 李豫 +2 位作者 李向前 徐金安 陈钰枫 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期23-33,共11页
为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后... 为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响。进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果。最后,依据标准视觉问答与偏见分支之间的预测概率差异,对样本进行动态赋权,使模型针对不同偏见程度的样本动态地调节学习程度。在VQA-CP v2.0等数据集上的实验结果证明了所提方法的有效性,缓解了偏见对模型的影响。 展开更多
关键词 视觉问答 数据集偏差 语言偏见 深度学习
下载PDF
基于大语言模型的智能问答系统在高校中的设计与应用
6
作者 王家 龙冬梅 《移动信息》 2024年第6期288-290,294,共4页
随着信息技术的迅速发展,智能问答系统已经成为高等教育领域提高教学效率和资源可及性的重要工具。文中探讨了基于大语言模型(LLM)的智能问答系统在高校中的设计与应用。通过分析当前智能问答系统的发展现状和面临的挑战,提出了一个整... 随着信息技术的迅速发展,智能问答系统已经成为高等教育领域提高教学效率和资源可及性的重要工具。文中探讨了基于大语言模型(LLM)的智能问答系统在高校中的设计与应用。通过分析当前智能问答系统的发展现状和面临的挑战,提出了一个整合了最新自然语言处理技术和人工智能的智能问答系统框架。该系统旨在为学生、教师及其他利益相关者提供快速准确的信息检索和问答服务,涵盖了招生信息、奖学金资讯、职业发展指导、学术辅导等多个方面。通过案例分析,文中展示了系统的设计过程、关键技术、实现挑战及解决策略,旨在为高等教育机构实施智能问答系统提供参考。 展开更多
关键词 语言模型 自然语言处理 问答系统
下载PDF
一种基于多模态特征提取的医学视觉问答方法 被引量:1
7
作者 吴松泽 刘利军 +3 位作者 黄青松 孔凡彦 刘骊 付晓东 《小型微型计算机系统》 CSCD 北大核心 2024年第3期676-683,共8页
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对... 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率. 展开更多
关键词 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制
下载PDF
基于跨模态信息过滤的视觉问答网络
8
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
下载PDF
基于多模态知识主动学习的视频问答方案
9
作者 刘明阳 王若梅 +1 位作者 周凡 林格 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影... 视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. 展开更多
关键词 视频问答 数据融合与推理 多模态主动学习 视频细节描述提取 深度学习
下载PDF
面向视觉问答的上下文感知多模态交互网络
10
作者 颜洪 黄青松 刘利军 《中文信息学报》 CSCD 北大核心 2024年第7期106-114,共9页
近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问... 近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力。该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态交互网络
下载PDF
问答式林业预训练语言模型ForestBERT
11
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 BERT 预训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
下载PDF
结合多模态知识图谱与大语言模型的风机装配工艺问答系统 被引量:5
12
作者 胡志强 潘鑫瑜 +2 位作者 文思捷 李心雨 鲍劲松 《机械设计》 CSCD 北大核心 2023年第S02期20-26,共7页
风力发电机是风能发电的基础,但其装配工艺信息通常分散于以三维模型、自然文本和图像等多模态信息构成的工艺文件中,导致历史工艺难以高效复用,装配工艺设计效率低下。针对这一问题,文中通过构建多模态知识图谱的方式整合风力发电机历... 风力发电机是风能发电的基础,但其装配工艺信息通常分散于以三维模型、自然文本和图像等多模态信息构成的工艺文件中,导致历史工艺难以高效复用,装配工艺设计效率低下。针对这一问题,文中通过构建多模态知识图谱的方式整合风力发电机历史装配工艺信息,并且为了能对工艺信息进行有效利用,提出了结合多模态知识图谱与大语言模型的风力发电机装配工艺问答系统,利用大语言模型进行自然语言问题的粗粒度解析,再结合模式层关系细粒度解析问题,最后获得答案。在风力发电机装配工艺数据集上与其他最新KBQA方法和最新大语言模型对比取得优异结果,并在装配工艺可视化问答系统上进行验证,研究结果表明:风机装配工艺设计效率有显著提升。 展开更多
关键词 多模态知识图谱 风力发电机 装配工艺知识 语言模型 知识问答
下载PDF
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型
13
作者 林俊安 包翠竹 +2 位作者 董建锋 杨勋 王勋 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2195-2210,共16页
本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构... 本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%. 展开更多
关键词 多语言 模态检索 模态特征表示 对比学习
下载PDF
医学影像与自然语言处理多模态探索研究
14
作者 龚宇新 向菲 应葵 《医学信息学杂志》 CAS 2024年第1期33-38,共6页
目的/意义实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法/过程重点查找近几年公开源代码的胸部报告生成模型,开发一种基于CDGPT 2模型的医学影像报告自动生成方法。结果/结论大参数... 目的/意义实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法/过程重点查找近几年公开源代码的胸部报告生成模型,开发一种基于CDGPT 2模型的医学影像报告自动生成方法。结果/结论大参数量的语言模型在报告生成方面的优势仍有待挖掘,对模型的解码器输入进行修改后生成报告的质量不高。未来研究可采用大型数据集并结合更多临床信息来提高模型性能。 展开更多
关键词 胸片 多模态 报告自动生成 注意力机制 自然语言处理
下载PDF
用于未对齐多模态语言序列情感分析的多交互感知网络 被引量:1
15
作者 罗俊豪 朱焱 《计算机应用》 CSCD 北大核心 2024年第1期79-85,共7页
针对现有对齐多模态语言序列情感分析方法常用的单词对齐方法缺乏可解释性的问题,提出了一种用于未对齐多模态语言序列情感分析的多交互感知网络(MultiDAN)。MultiDAN的核心是多层的、多角度的交互信息提取。首先使用循环神经网络(RNN)... 针对现有对齐多模态语言序列情感分析方法常用的单词对齐方法缺乏可解释性的问题,提出了一种用于未对齐多模态语言序列情感分析的多交互感知网络(MultiDAN)。MultiDAN的核心是多层的、多角度的交互信息提取。首先使用循环神经网络(RNN)和注意力机制捕捉模态内的交互信息;然后,使用图注意力网络(GAT)一次性提取模态内及模态间的、长短期的交互信息;最后,使用特殊的图读出方法,再次提取图中节点的模态内及模态间交互信息,得到多模态语言序列的唯一表征,并应用多层感知机(MLP)分类获得序列的情感分数。在两个常用公开数据集CMU-MOSI和CMU-MOSEI上的实验结果表明,MultiDAN能充分提取交互信息,在未对齐的两个数据集上MultiDAN的F1值比对比方法中最优的模态时空注意图(MTAG)分别提高了0.49个和0.72个百分点,具有较高的稳定性。MultiDAN可以提高多模态语言序列的情感分析性能,且图神经网络(GNN)能有效提取模态内、模态间的交互信息。 展开更多
关键词 情感分析 多模态语言序列 多模态融合 图神经网络 注意力机制
下载PDF
基于大语言模型与视觉语言模型的多模态事实核查
16
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 语言模型 视觉语言模型 多模态 事实核查
下载PDF
基于语言-视觉对比学习的多模态视频行为识别方法 被引量:1
17
作者 张颖 张冰冰 +3 位作者 董微 安峰民 张建新 张强 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期417-430,共14页
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模... 以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性. 展开更多
关键词 视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
下载PDF
ChatSOS:基于大语言模型的安全工程知识问答系统
18
作者 唐海洋 刘振翼 +1 位作者 陈东平 初庆钊 《中国安全科学学报》 CAS CSCD 北大核心 2024年第8期178-185,共8页
为解决大语言模型在安全工程领域应用时面临的语料库规模、输入处理能力和隐私性限制等问题,以2013—2023年间共117篇爆炸事故调查报告为基础构建向量数据库,利用大语言模型的生成式能力,进行提示工程,提出一个基于大语言模型的安全工... 为解决大语言模型在安全工程领域应用时面临的语料库规模、输入处理能力和隐私性限制等问题,以2013—2023年间共117篇爆炸事故调查报告为基础构建向量数据库,利用大语言模型的生成式能力,进行提示工程,提出一个基于大语言模型的安全工程知识问答(Q&A)系统——ChatSOS;与ChatGPT大语言模型相比,ChatSOS能够通过整合外部知识库,使大语言模型根据用户的输入信息,从数据库中检索相关语料,并深入分析。结果表明:ChatSOS具备深入分析问题、自主分配任务的能力,能够详尽总结事故报告并提出建议;通过结合外部知识库解决基础大模型在安全工程领域语料不足和语料实时性不高的问题,避免了使用新数据集微调模型可能导致的模型性能下降等问题,提升了大语言模型在安全工程领域的应用能力。 展开更多
关键词 ChatSOS 语言模型 安全工程 知识问答(Q&A)系统 事故调查 向量数据库
下载PDF
视觉-语言多模态下的多任务人脸年龄估计
19
作者 何江 池静 +1 位作者 池佳稷 高松 《现代电子技术》 北大核心 2024年第14期171-176,共6页
现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计... 现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计方法。该方法利用提示文本信息为年龄估计提供更丰富、更准确的图像理解和先验知识。同时,引入多任务学习方法,利用任务间的互补性将年龄分类任务与序数回归任务相结合,以获得更好的性能。最后,为了获得可靠的预测结果,研究了加权平均法和任务回归法两种多任务结果融合方法,并对加权平均法的权重系数进行了消融实验,以期找到一组合适的权重系数。结果表明:与其他先进方法相比,所提方法在UTK-FACE数据集上的平均绝对误差(MAE)降低了7.32%,在MorphⅡ数据集上的MAE降低了1.20%,累积分数(CS)提升了0.11%。 展开更多
关键词 年龄估计 视觉-语言多模态 多任务学习 加权平均法 提示文本 任务回归器
下载PDF
杭州服务亚运的多模态外语语言景观调查
20
作者 施子诺 刘琛琛 +1 位作者 林莹莹 周伟盛 《现代语言学》 2024年第6期84-90,共7页
本文采取量化与质化相结合的分析方法,运用语言景观学的研究理论,从语言权势地位、功能、多模态特征、读者感知等四个方面探索了亚运会期间杭州服务亚运的多模态外语语言景观的特点。调查研究表明:汉语在使用语言中占有绝对优势,中英双... 本文采取量化与质化相结合的分析方法,运用语言景观学的研究理论,从语言权势地位、功能、多模态特征、读者感知等四个方面探索了亚运会期间杭州服务亚运的多模态外语语言景观的特点。调查研究表明:汉语在使用语言中占有绝对优势,中英双语标牌占了统计样本大多数;外语语言标牌主要发挥指示和提供信息的作用;外语语言景观多模态特征显著,主要包含颜色、文字、图像等模态。除此之外,通过调查研究,还能发现杭州服务亚运的外语语言景观具有官方景观主导、规范统一、多重复标牌、小语种缺失等特征。杭州市欲借助亚运会进一步向国际化迈进,向全世界介绍杭州,就必须优化外语语言景观,改善提升城市形象,营造国际化的人文环境。 展开更多
关键词 杭州亚运会 语言景观 多模态 国际化城市
下载PDF
上一页 1 2 58 下一页 到第
使用帮助 返回顶部