基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例被引量：2

Research onPatent Technology Subject Clustering Based on Sentence-BERT:Taking the Field of Artificial Intelligence as an Example

下载PDF

导出

摘要 [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 [Research purpose]The Sentence-Bert model is applied to patent technology topic clustering to solve the problem of sparse semantic features of lexical vectors caused by the frequent use of unique technical terms in patent documents in order to highlight novelty.[Research method]The study takes 22370 patents in the field of artificial intelligence from 2015 to 2019 as experimental data.Firstly,the Sentence-Bert algorithm is used to vectorize the patent document abstract text;Secondly,the data dimension of the vectorization matrix is reduced,and the HDBSCAN method is used to find the high-density clusters in the original data;Finally,the topic features in the class cluster text collection are identified and the topic presentation was completed.[Research conclusion]Compared with LDA topic model,K-means,doc2vec and other methods,the experimental results of this study improves the granularity and accuracy of topic division,and obtains better topic consistency.How to use the fine tune strategy to further improve the effect of the model is the direction of further exploration of this method in the future.

作者阮光册周萌葳 Ruan Guangce;Zhou Mengwei(Faculty of Economics and Management,East China Normal University,Shanghai 200241)

机构地区华东师范大学经济与管理学部信息管理系

出处《情报杂志》北大核心 2024年第2期110-117,共8页 Journal of Intelligence

关键词 Sentence-BERT 专利文本主题识别文本聚类 Sentence-BERT patent text subject identification text clustering

分类号 G306 [文化科学]

引文网络
相关文献

参考文献25

1梁晓贺,周爱莲,谢能付,张毅,吴赛赛.区块链农业应用现状与技术热点[J].中国农业科技导报,2021,23(12):84-93. 被引量：13
2许景龙,赵亚娟.IPC分类修订中的技术演化研究[J].图书情报工作,2021,65(15):140-152. 被引量：8
3肖悦珺,李红莲,张乐,吕学强,游新冬.特征融合的中文专利文本分类方法研究[J].数据分析与知识发现,2022,6(4):49-59. 被引量：8
4夏冰,李宝安,吕学强.综合词位置和语义信息的专利文本相似度计算[J].计算机工程与设计,2018,39(10):3087-3091. 被引量：8
5刘向,万小萍,闫肖婷,汪锦霞.基于引文路径叠加网络的主路径分析[J].情报学报,2019,38(8):807-814. 被引量：10
6许振亮,张建宇,刘喜美.基于专利引文的稀土产业中游技术演进路径分析[J].稀土,2019,40(4):149-158. 被引量：9
7万小萍,汪锦霞,刘向.科技主路径分析:提升路径多样性的组合路径[J].情报理论与实践,2019,42(6):83-87. 被引量：5
8李玉华,张福俊,尹燕霞,卢昱波.全球人工智能科学领域专利信息计量分析及其启示[J].科技管理研究,2020,40(21):154-162. 被引量：14
9陈欣然,李国正,崔一迪,夏秋芳,王明强.基于专利计量的全球人工智能技术在医疗健康领域应用发展态势分析[J].科技管理研究,2021,41(3):139-147. 被引量：21
10刘建明,颜学明.基于专利计量的区块链技术发展现状及关键技术分析[J].科技管理研究,2021,41(16):37-44. 被引量：12

二级参考文献260

1陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：5
2赵萍,杨艳萍.人冠状病毒感染诊断技术专利态势分析[J].中国生物工程杂志,2020,40(1):51-56. 被引量：7
3韩正琪,刘小平,寇晶晶.基于Rao-Stirling指数和LDA模型的领域学科交叉主题识别——以纳米科技为例[J].情报科学,2020,38(2):116-124. 被引量：19
4汪垚.物联网和区块链技术在农产品安全领域应用探析[J].农村经济与科技,2019,30(23):75-76. 被引量：8
5暴海龙,李金林.专利技术关联性分析方法研究[J].科研管理,2004,25(z1):3-8. 被引量：18
6邱均平.论“引文耦合”与“同被引”[J].图书馆,1987(3):13-19. 被引量：24
7刘则渊,王海山.论技术发展模式[J].科学学研究,1985,3(4):10-23. 被引量：9
8王永生.基于改进的Lesk算法的词义排歧算法[J].微型机与应用,2013,32(24):69-71. 被引量：4
9吴菲菲,李倩,黄鲁成.基于专利SAO结构的技术应用领域识别方法研究[J].科研管理,2014,35(6):1-7. 被引量：27
10Allen,B,窦平安.图书情报学研究中的内容分析法[J].国外情报科学,1993,11(1):27-30. 被引量：15

共引文献777

1吴丹,李秀园,徐爽,董晶,樊舒,桂丹云.近十年信息素养理论的使用与发展研究[J].图书馆杂志,2020,39(1):26-35. 被引量：13
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
4李彦泽.开源科技情报技术体系构建[J].情报科学,2023,41(12):65-74. 被引量：2
5张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
6孙艺伟,郭婷,戴红君,任妮.专利视角下全球智慧农业技术创新态势分析[J].中国农业信息,2021,33(4):40-52. 被引量：5
7万鸿阳,牛粟楠.能源产业绿色政策及绿色技术创新研究[J].煤炭经济研究,2023,43(2):44-51.
8陈茜,毛进,马亚雪,李纲.创新型企业的论文与专利关联性研究——以基因工程领域为例[J].科学学研究,2023,41(3):565-576. 被引量：6
9杨林伟,曾绍伦,王强.乡村振兴的内涵界定、政策体系与实施路径[J].昆明理工大学学报（社会科学版）,2020(4):71-80. 被引量：9
10李玉明.我国中等职业教育“国培计划”研究现状与分析[J].交通职业教育,2019(3):50-54.

同被引文献28

1曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
2马金辉,王志飞,谢雁鸣,易丹辉.基于大型电子医疗数据的高血压中医证候分析[J].中国中医基础医学杂志,2014,20(9):1236-1238. 被引量：11
3田野,张静蓓.基于词袋模型的关联数据融合算法改进研究[J].图书馆杂志,2016,35(12):17-22. 被引量：3
4马费成,周利琴.面向智慧健康的知识管理与服务[J].中国图书馆学报,2018,44(5):4-19. 被引量：66
5李岳峰,胡建平,张学高.中国健康医疗大数据资源目录体系与技术架构研究[J].中国卫生信息管理杂志,2019,16(3):249-256. 被引量：23
6蔡庆平,马海群.基于Word2Vec和CNN的产品评论细粒度情感分析模型[J].图书情报工作,2020,64(6):49-58. 被引量：29
7董坤,许海云,崔斌.知识流动研究述评[J].情报学报,2020,39(10):1120-1132. 被引量：17
8李家全,李宝安,游新冬,吕学强.基于专利知识图谱的专利术语相似度计算研究[J].数据分析与知识发现,2020,4(10):104-112. 被引量：5
9向姝璇,李睿.基于专利文献整体相似度计算的竞争对手发现——以5G领域为例[J].情报理论与实践,2021,44(5):100-105. 被引量：14
10伊惠芳,刘细文.一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J].数据分析与知识发现,2021,5(4):25-36. 被引量：15

引证文献2

1陈天怡.基于专利数据挖掘的我国智慧健康服务发展趋势研判[J].现代信息科技,2024,8(8):161-166.
2董同强,朱彦君,马秀峰.基于中文文本类别信息的主题生成模型构建研究[J].情报科学,2024,42(4):36-42.

1裴思远.国安剧《对手》反派人物形象创新性塑造[J].科技传播,2023,15(18):76-78.
2分子植物育种论文编写指南[J].分子植物育种,2024,22(3).
3邹琳.素养提升下的小学语文教学研究--评《统编版小学语文怎么教》[J].语文建设,2024(2).
4麦麦提敏·麦提萨伍尔,赖梦亭,段金廒,肖平.基于文献计量学和专利分析的板蓝根研究现状剖析及产业化前景展望[J].中草药,2024,55(2):563-574. 被引量：2

情报杂志

2024年第2期

浏览历史

内容加载中请稍等...

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例被引量：2

参考文献25

二级参考文献260

共引文献777

同被引文献28

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量：2

参考文献25

二级参考文献260

共引文献777

同被引文献28

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例被引量：2