基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

Automatic Extraction of Patent Technical Effect Words Based on Large Model Knowledge Distillation:A Case Study of V2X in Internet of Vehicle

原文传递

导出

摘要【目的】提高专利技术功效词自动化抽取的准确度。【方法】采用ChatGPT作为教师模型,ChatGLM3作为学生模型,通过知识蒸馏,将ChatGPT生成的训练数据用于微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,采用功效词抽取模型从技术功效语段中抽取功效词。【结果】相较于ChatGPT,微调后的多个技术词抽取模型和功效词抽取模型呈现出准确率高、召回率低的特点。基于第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724;功效词抽取模型的准确率为0.649,大于商业工具标注功效词的准确率0.530。【局限】本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则不够全面。【结论】本研究方案通过知识蒸馏操作,提升了大语言模型自动抽取技术功效词的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。 [Objective]This paper aims to improve the accuracy of automatic extraction of technical words and function effects of patents.[Methods]First,ChatGPT is used as the Teacher-model,and ChatGLM3 is used as the Student-model.Through knowledge distillation,the training data extracted by ChatGPT are used to fine-tune ChatGLM3,resulting in multiple technical word extraction models and a function word extraction model.These models are performed to extract technical words and function words from the abstract,the first claim,and the technical effect segments of patents,respectively.[Results]Compared to ChatGPT,the fine-tuned technical word extraction models and the function word extraction model show higher accuracy and lower recall rates.The ChatGLM3 fine-tuning model of the first claim has the highest accuracy of 0.734 and F1 values of 0.724,respectively.The accuracy of the function word extraction model reached 0.649,which was higher than the accuracy of the commercial tool’s 0.530.[Limitations]This study needs to be further optimized in the following aspects.The technical field and patent language are single,the amount of verification data is small,and the data cleaning rules are not comprehensive enough.[Conclusions]This research scheme improves the accuracy of large language models in automatically extracting technical effects through knowledge distillation operation.Additionally,this study supports mining cutting-edge innovative and hotspot technologies from patents,facilitating higher quality intelligent patent analysis.

作者王奎芳吕璐成孙文君王翼虎赵亚娟 Wang Kuifang;Lyu Lucheng;Sun Wenjun;Wang Yihu;Zhao Yajuan(National Science Library,Chinese Academy of Sciences,Beijing 100190,China;Department of Information Resources Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Institute of Scientific and Technical Information of China,Beijing 100038,China)

机构地区中国科学院文献情报中心中国科学院大学经济与管理学院信息资源管理系中国科学技术信息研究所

出处《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期144-156,共13页 Data Analysis and Knowledge Discovery

基金国家自然科学基金青年科学基金项目(项目编号:72304268) 2023年度国家资助博士后研究人员计划(C档)(项目编号:GZC20232931) 支撑科技自立自强的知识产权情报导航分析研究(项目编号:E329110602)的研究成果之一

关键词技术功效词抽取知识蒸馏微调大模型语义相似矩阵 Technical Function Word Extraction Knowledge Distillation Fine-Tuning Model Semantic Similarity Matrix

分类号 G353.1 [文化科学—情报学] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(2):465-471. 被引量：9
2钱力,刘熠,张智雄,李雪思,谢靖,许钦亚,黎洋,管铮懿,李西雨,文森.ChatGPT的技术基础分析[J].数据分析与知识发现,2023,7(3):6-15. 被引量：129
3白如江,陈启明,张玉洁,杨超.基于ChatGPT+Prompt的专利技术功效实体自动生成研究[J].数据分析与知识发现,2024,8(4):14-25. 被引量：7
4陈颖,张晓林.基于特征度和词汇模型的专利技术功效矩阵结构生成研究[J].现代图书情报技术,2012(2):53-59. 被引量：15
5翟东升,蔡力伟,张杰,冯秀珍.基于专利数据仓库的技术功效图挖掘方法研究——以3D打印技术为例[J].现代图书情报技术,2015(7):131-138. 被引量：11
6胡菊香,吕学强,刘秀磊,刘克会.专利技术功效短语获取研究[J].科学技术与工程,2016,16(14):228-235. 被引量：12
7段庆锋,蒋保建.基于SAO结构的专利技术功效图构建研究[J].现代情报,2017,37(6):48-54. 被引量：13
8王巍洁,穆晓敏,王琰,杜婉盈,王伟.多维专利技术功效分析模型构建及应用研究[J].情报理论与实践,2020,43(6):131-134. 被引量：7
9李剑飞,吴红,张彪,高道斌,崔哲.技术-功效分析视域下的高校专利转移对象识别研究--以石墨烯领域为例[J].情报杂志,2021,40(10):193-199. 被引量：4
10向姝璇,李睿.专利技术功效特征自动抽取方法探索——以6G领域为例[J].中国发明与专利,2021,18(4):3-9. 被引量：4

二级参考文献113

1孙鑫.自然语言处理中语法分析研究[J].现代图书情报技术,2004(S1):44-46. 被引量：3
2陈燕,方建国.专利信息分析方法与流程[J].中国发明与专利,2005(12):58-61. 被引量：13
3吴菲菲,李倩,黄鲁成.基于专利SAO结构的技术应用领域识别方法研究[J].科研管理,2014,35(6):1-7. 被引量：27
4张琪玉.检索标识的专指度[J].江西图书馆学刊,2006,36(2):5-6. 被引量：4
5刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
6王圣顺.专利文件之专利技术特性及功能知识分析法[D].台湾:国立台湾科技大学,2006.
7吴清强.主题结构构建技术优化研究[D].北京:中国科学院文献情报中心,2005.
8Sheremetyeva S.An Efficient Patent Keyword Extractor as Transla-tion Resource[EB/OL].[2011-09-28].http://www.mt-ar-chive.info/MTS-2009-Sheremetyeva.pdf.
9陈颖.专利技术功效矩阵构建关键技术研究[D].北京:中国科学院文献情报中心,2010.
10Grant J W.New Tools for Patent Trend Recognition:An Introductionto Thomson Data Analyzer[EB/OL].[2011-09-28].http://units.sla.org/division/dche/2006/grant.pdf.

共引文献193

1李西雨,钱力,张智雄.基于提示微调的科技论文语义评价指标量化方法研究[J].数据分析与知识发现,2024,8(8):200-212.
2陈亮,尚玮姣,余池,牟琳,夏春姊,葛川.利用技术分类号辅助的无监督专利实体抽取方法研究[J].知识管理论坛,2024(4):422-436.
3化柏林,陈丹蕾,汪大锟.数据中台在科技情报中的应用[J].情报学进展,2022(1):265-314.
4张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
5刘海涛,陈鹏,陈春梅.论生成式人工智能时代的中国式教学现代化——基于学习哲学的视角[J].沈阳师范大学学报（教育科学版）,2023(5):10-17.
6康静涵.入情入境感悟运用——《颐和园》一课教学谈[J].小学语文教学,2000(7):106-107.
7翟东升,蔡万江,陈晨,黄鲁成,赵京.基于MapReduce构建专利技术功效图的研究[J].情报杂志,2013,32(6):29-33. 被引量：15
8汪守霞,汪张林.提升大学生创业能力的多维技术功效模型构建[J].安徽工程大学学报,2019,34(4):81-88.
9沙振江,张蓉,刘桂锋.国内专利地图研究进展与展望[J].情报理论与实践,2014,37(8):139-144. 被引量：22
10周磊,杨威.竞争情报视角下突破性创新的识别思路[J].情报杂志,2015,34(1):32-37. 被引量：10

1赵建飞,陈挺,王小梅,冯冲.基于大语言模型知识自蒸馏的无标注专利关键信息抽取[J].数据分析与知识发现,2024,8(8):133-143.
2张国宾,姬红兵,王佳萌,韩如雪,曹秋生.基于通用信息抽取大模型的特定领域文本实体关系抽取研究[J].中国信息界,2024(8):159-161.
3陈巍.丝绸之路上的蒸馏酒[J].中国科技教育,2024(11):74-75.
4朱伶杰,贺圆圆.人工智能技术在美国文档领域的应用及启示——基于专利数据的分析[J].档案管理,2024(6):124-128.
5刘洁.自动驾驶轨迹预测技术专利分析[J].海峡科技与产业,2024,37(11):35-39.
6谢瑶瑶,邓三鸿,王昊,章学周.基于SAO语义挖掘的用户需求-专利技术匹配[J].数据分析与知识发现,2024,8(8):213-225.
7崔瑞敏,张斌,樊睿,高彩霞,刘玉飞.基于专利分析的聚3,4-乙撑二氧噻吩及应用态势[J].塑料工业,2024,52(11):9-13.
8葛岩岩,王亚茹.矩阵迹的Cauchy-Schwarz公式和Schur公式[J].理论数学,2024,14(11):50-56.
9史筱飞,金馨,聂静,李潇,丁娜.基于专利数据挖掘的全球金线莲研究态势分析[J].热带农业科学,2024,44(9):114-121.
10蒋应军,苏洪建,李明杰,何岩,白雅伟,王鹏飞,鲍豫豪,蔡敏锋.振动成型设计下AC-16沥青混合料的耐久性能[J].吉林大学学报（工学版）,2024,54(10):2849-2858.

数据分析与知识发现

2024年第8期

浏览历史

内容加载中请稍等...

基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

参考文献12

二级参考文献113

共引文献193

相关作者

相关机构

相关主题

浏览历史