英汉双语富媒体知识图谱构建工程研究——以CNS英文期刊为例

Research on the Construction of English-Chinese Bilingual Rich Media Knowledge Graph:A Case Study of CNS English Journal

下载PDF

导出

摘要 [目的/意义]研究自动构建英汉双语富媒体知识图谱的方法和过程,为跨语言多模态知识图谱的自动构建提供借鉴参考,对及时获取最新英文科研成果、科技情报监测等具有重要意义。[方法/过程]采用自顶向下和自底向上相结合的方法,先从顶层设计要抽取的主要实体、属性和关系,从底层非结构化文本数据进行分析抽取细粒度的实体和属性,对有歧义实体和跨语言实体进行实体对齐,对跨媒体的实体进行实体链接,用图数据库实现知识图谱的存储及应用。[局限]未来需进一步提高细粒度实体的抽取正确率,对音视频媒体进行特征提取和内容自动识别。[结果/结论]以CNS(Cell、Nature、Science)等英文科技期刊网站为例,通过数据抓取、实体抽取、属性抽取、知识融合、跨媒体链接等过程,实现了英汉双语富媒体知识图谱的构建、存储和可视化展示。 [Objective/Significance]It is of great significance for scientific and technological information monitoring and obtaining the latest English scientific research results in time,with researching the method and process of automatically constructing the English-Chinese rich media knowledge graph.It is also a meaningful experience for constructing cross-language and cross-media knowledge graph.[Methods/Processes]The approach that combines top-down and bottom-up methods is employed,starting with top-level design for extracting primary entities,attributes,and relationships.For fine-grained entities and attributes,analysis and extraction are performed from the bottom-up analyzing unstructured textual data.Ambiguous entities and cross-lingual entities require entity alignment,while cross-media entities require entity linking.By using a graph database,teh storage and its application of the knowledge graph can be implemented.[Limitations]Future works include further improving the accuracy of fine-grained entity extraction,extracting features and automatically recognizing content for audio and video media.[Results/Conclusions]Taking CNS(Cell,Nature,Science)and other English scientific and technological journal websites as an example,this paper successfully constructed a bilingual English-Chinese multimedia knowledge graph through data scraping,entity extraction,attribute extraction,knowledge fusion,cross-media linking.

作者韦向峰缪建明张全袁毅 WEI Xiangfeng;MIAO Jianming;ZHANG Quan;YUAN Yi(Institute of Acoustics,Chinese Academy of Science,Beijing 100190,China;The Key Laboratory of Rich-Media Knowledge Organization and Service of Digital Publishing Content,Beijing 100038,China;Information Center of China North Industries Group Corporation Limited,Beijing 100089,China)

机构地区中国科学院声学研究所富媒体数字出版内容组织与知识服务重点实验室中国兵器工业信息中心

出处《情报工程》 2023年第5期84-96,共13页 Technology Intelligence Engineering

基金 2022年富媒体数字出版内容组织与知识服务重点实验室开放基金“基于英文科技出版物的跨语言富媒体知识工程研究”(ZD2022-10/01)。

关键词富媒体知识图谱实体抽取实体对齐语步识别 Rich media knowledge graph entity extraction entity alignment moves recognition

分类号 G35 [文化科学—情报学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. 被引量：231
2叶宏彬,张宁豫,陈华钧,邓淑敏,毕祯,陈想.OpenConcepts:一个开放的细粒度中文概念知识图谱[J].中文信息学报,2023,37(1):46-53. 被引量：1
3刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：956
4李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：123
5郭航程,何彦青,兰天,吴振峰,董诚.基于Paragraph-BERT-CRF的科技论文摘要语步功能信息识别方法研究[J].数据分析与知识发现,2022,6(2):298-307. 被引量：9

二级参考文献26

1张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：23
2刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：59
3王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13
4赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
5郭剑毅,李真,余正涛,张志坤.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报（自然科学版）,2012,48(4):383-389. 被引量：32
6卢道设,杨世瀚,吴尽昭,熊玲芳.基于描述逻辑的组合知识库推理[J].计算机应用研究,2012,29(12):4503-4506. 被引量：5
7陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
8杨莉,胡守仁.知识库推理和维护系统(KBIMS)[J].国防科技大学学报,1991,13(2):127-133. 被引量：1
9程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：740
10王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：96

共引文献1243

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
3苏杭,欧中洪,宋美娜.知识图谱在科技资源领域的研究与应用[J].中国基础科学,2020,22(3):53-59.
4袁野,刘佳伟,赵惠浞,左志平,葛超,朱晋锐.基于知识图谱的钢厂设备故障智能诊断技术研究与应用[J].冶金设备,2023(S02):20-25.
5何宏,葛张鹏,徐小良,夏一行,王宇翔.基于知识图谱语义查询技术的科技咨询服务研究[J].信息与管理研究,2019,4(4):86-96.
6李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
7吴雅娟,杨壮壮,尚福华,解红涛,杜睿山.学习仪表盘在油田射孔取心工培训系统中的应用[J].系统仿真技术,2021,17(1):17-21.
8李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36.
9熊回香,严舞月.基于知识图谱的数字档案服务模式探究[J].知识管理论坛,2021(4):204-212. 被引量：3
10冯鑫,李雪,闫月,李佳培,刘梦瑶,吴晔.基于知识实体的突发公共卫生事件数据平台构建研究[J].知识管理论坛,2020(3):175-190. 被引量：2

1中华实验和临床病毒学杂志编辑部.常见病毒学相关英文期刊标准缩写与全称(一)[J].中华实验和临床病毒学杂志,2023,37(6):669-669.
2《中华医学遗传学杂志》对于统计学符号及描述的规定[J].中华医学遗传学杂志,2024,41(1):122-122.
3《数字图书馆论坛》选题指南[J].数字图书馆论坛,2023,19(11).
4刘怡冰,于宁,刘况,赵辉.基于Citespace的我国鹅产蛋性能研究文献知识图谱分析[J].中国家禽,2024,46(2):22-28. 被引量：1
5郑勇,于涛,黄伟.矿用自卸车燃油箱的自顶向下设计[J].设备管理与维修,2024(2):40-43.
6《数字图书馆论坛》选题指南[J].数字图书馆论坛,2023,19(12).
7杨森杰,卢玄兴,杨朝火,刘月红.一种基于STM32的模拟眼球移动装置设计[J].电子制作,2024,32(3):3-6.
8祝贺Nanomanufacturing and Metrology入选“顶尖期刊”,130种中国期刊入选[J].Nanomanufacturing and Metrology,2023,6(4).
9赵碧泓.文旅媒体短视频新闻内容传播研究——以“山西•魏道文旅”抖音号为例[J].社会科学前沿,2024,13(1):50-54.
10左露,牛晓伟,朱春惠,朱木雷.基于改进ConvNeXt的遥感图像目标检测算法[J].电光与控制,2024,31(2):46-51. 被引量：1

情报工程

2023年第5期

浏览历史

内容加载中请稍等...

英汉双语富媒体知识图谱构建工程研究——以CNS英文期刊为例

参考文献5

二级参考文献26

共引文献1243

相关作者

相关机构

相关主题

浏览历史