-
题名面向开源情报的信息抽取大语言模型
- 1
-
-
作者
赵勤博
王又辰
陈荣
宋颖毅
栾真
田夫兰
-
机构
中国航天科工集团第二研究院七〇六所
中共云南省委办公厅信息技术中心
-
出处
《计算机工程与设计》
北大核心
2024年第12期3772-3778,共7页
-
文摘
针对开源情报信息抽取过程依赖多类专用模型和抽取属性限制强等问题,基于一种GLM大语言模型进行指令微调和上下文学习提高信息抽取准确率,利用指令自动化生成方法对原始问题进行泛化,构建SFT数据集。开展多任务统一的微调学习常见抽取模式,通过自动思维链扩充提示增强模型推理能力。实验结果表明,该方法在开源情报命名实体识别、关系抽取和事件抽取任务上,微调模型能满足不同场景下的抽取要求,具有较好的抽取效果。
-
关键词
开源情报
大语言模型
信息抽取
指令自动化生成
指令微调
上下文学习
自动思维链
-
Keywords
open source intelligence
large language model
information extraction
automatic instruction generation
instruction tuning
in-context learning
automatic chain-of-thought
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名跨语种多模态信息分拣技术与应用
被引量:1
- 2
-
-
作者
赵勤博
邹烨
栾真
范昕煜
张峰
魏才越
-
机构
北京计算机技术与应用研究所
国防科技大学大数据与决策实验室
解放军
国防科技大学系统工程学院
-
出处
《火力与指挥控制》
CSCD
北大核心
2023年第10期73-83,共11页
-
基金
国家自然科学基金
国家高技术研究发展计划(863计划)资助项目。
-
文摘
大数据时代,由于语言的差异性和信息的多样性,处理海量跨语种、跨模态数据给信息分析技术提出了考验。通过构建多语种平行语料库和跨语种词嵌入模型,解决跨语种词嵌入的挑战,实现跨语种信息的词嵌入表示。通过利用跨模态的表示学习技术,将文本、图像和语音等多模态信息进行语义对齐及融合,从而实现对跨模态信息的综合分析。另外,设计了多任务学习参数共享模型,提高信息分拣的准确性,并加快信息分练效率。该研究支持情报分析人员快速获取、整理和分析海量跨语种多模态信息,为情报支持和决策提供更全面、准确的参考。
-
关键词
多模态
跨语种
多任务学习
表示学习
-
Keywords
multimodal
cross-language
multi-task learning
representation learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-