基于多元数据融合的科学文献主题识别研究被引量：5

Research on the Topic Identification of Scientific Literature Based on Multivariate Data Fusion

导出

摘要 [目的/意义]科学文献的主题识别研究是科研管理的重要内容之一,如何全面把握文献的多元数据、提升自动文献主题识别的效果是一个值得研究的问题。[方法/过程]文献的关键词、摘要是判断文献主题的重要依据,文章提出基于文献多元数据融合的主题识别模型,使用Word2vec模型、AP聚类及Node2vec模型表示出关键词层的主题向量,使用LDA模型表示出摘要层的主题向量,通过多视图聚类中的SGF方法进行数据融合并识别文献主题。[结果/结论]以不同规模的文献集为例,通过主题识别研究,验证该模型识别效果的准确性和可解释性优于典型LDA方法、DoC-LDA模型。 [Purpose/significance]The research on topic identification of scientific literature is one of the important contents of scientific research management.How to comprehensively grasp the multivariate data of literature and effectively improve the accuracy of automatic literature topic identification is a problem worthy of research.[Method/process] Keywords and abstracts of documents are important basis for judging document topics.This paper proposes a topic identification model based on multi-data fusion of documents.Word2vec model,AP clustering and Node2vec model are used to represent the topic vector of the keyword layer.The topic vector of the abstract layer is represented by the LDA model,and the SGF method in the multi-view clustering method is used to perform data fusion and extract document topics.[Result/conclusion]Taking document sets of different scales as an example,through topic identification research,it is verified that the accuracy and interpretability of the recognition effect of the model are better than the typical LDA method and the Doc-LDA model.

作者邱均平孙月瑞周贞云 Qiu Junping;Sun Yuerui;Zhou Zhenyun(Chinese Academy of Science and Education Evaluation,Hangzhou Dianzi University,Zhejiang,310018;School of Management,Hangzhou Dianzi University,Zhejiang,310018;Academy of Data Science and Informatics,Hangzhou Dianzi University,Zhejiang,310018)

机构地区杭州电子科技大学中国科教评价研究院杭州电子科技大学管理学院杭州电子科技大学数据科学与信息计量研究院

出处《情报资料工作》 CSSCI 北大核心 2022年第6期14-20,共7页 Information and Documentation Services

基金 2019年国家社会科学基金重大项目“基于大数据的科教评价信息云平台构建和智能服务研究”(项目编号:19ZDA348) 2020年浙江省软科学研究计划重点项目“创新强省背景下浙江高校科技创新竞争力评价及提升研究”(项目编号:2020C25027)的研究成果之一。

关键词科学文献主题识别数据融合多视图聚类多元数据 scientific literature topici dentification data fusion multi-view clustering multivariate data

分类号 G254 [文化科学—图书馆学] G311 [文化科学]

引文网络
相关文献

参考文献10

1霍朝光,魏瑞斌,张斌.基于PageRank和Node2vec的研究热点与集群发现——以国际深度学习研究领域为例[J].情报杂志,2020,39(8):174-179. 被引量：11
2谭春辉,熊梦媛.基于LDA模型的国内外数据挖掘研究热点主题演化对比分析[J].情报科学,2021,39(4):174-185. 被引量：64
3许海云,武华维,罗瑞,董坤,李婧.基于多元关系融合的科技文本主题识别方法研究[J].中国图书馆学报,2019,45(1):82-94. 被引量：10
4武华维,罗瑞,许海云,董坤,王超,岳增慧.科学技术关联视角下的创新演化路径识别研究述评[J].情报理论与实践,2018,41(8):137-143. 被引量：9
5巴志超,杨子江,朱世伟,王蕾.基于关键词语义网络的领域主题演化分析方法研究[J].情报理论与实践,2016,39(3):67-72. 被引量：35
6陈翔,黄璐,倪兴兴,刘家润,曹晓丽,王长天.基于动态语义网络分析的主题演化路径识别研究[J].情报学报,2021,40(5):500-512. 被引量：21
7关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：52
8张文伟,赵辉.LDA与BTM概率主题模型抽取科学主题效果比较研究[J].情报工程,2020,6(2):66-77. 被引量：9
9张卫卫,胡亚琦,翟广宇,刘志鹏.基于LDA模型和Doc2vec的学术摘要聚类方法[J].计算机工程与应用,2020,56(6):180-185. 被引量：21
10林江豪,周咏梅,阳爱民,王伟.结合词向量和聚类算法的新闻评论话题演进分析[J].计算机工程与科学,2016,38(11):2368-2374. 被引量：15

二级参考文献137

1张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,10(6):65-75. 被引量：482
2BLEO D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J].Journal of machine learning research, 2003,3:993-1022.
3SCOTT J. Social network analysis[M]. London:Sage, 2012.
4BLEI D M, LAFFERTY J D. A correlated topic model of science[J]. The annals of applied statistics, 2007,1(1):17-35.
5GRIFFITHS T L,STEYVERS M. Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America, 2004,101(1):5228-5235.
6HE Q, CHEN B, PEI J, et al. Detecting topic evolution in scientific literature:how can citations help?[C]//Proceedings of the 18th ACM conference on information and knowledge management. New York:ACM, 2009:957-966.
7ALSUMAIT L, BARBARà D, DOMENICONI C. On-line LDA:adaptive topic models for mining text streams with applications to topic detection and tracking[C]//Eighth IEEE international conference on data mining. Piscataway:IEEE, 2008:3-12.
8HASSAN S U, HADDAWY P. Analyzing knowledge flows of scientific literature through semantic links:a case study in the field of energy[J]. Scientometrics, 2015, 103(1):33-46.
9DIETZ L, BICKEL S, SCHEFFER T. Unsupervised prediction of citation influences[C]//Proceedings of the 24th international conference on machine learning.New York:ACM, 2007:233-240.
10STEYVERS M, SMYTH P, ROSEN-ZVI M, et al. Probabilistic author-topic models for information discovery[C]//Proceedings of the tenth ACM SIGKDD international conference on knowledge discovery and data mining.New York:ACM,2004:306-315.

共引文献232

1张春颜,陈纪茹.基于多维图谱的高校网络舆情演化路径研究[J].中国应急管理科学,2024(6):86-102.
2刘勘,赵帅,彭虎锋,黄漫宇.营商环境政策的主题演化研究[J].知识管理论坛,2022(3):314-331. 被引量：1
3席崇俊,刘文斌,丁楷.词共现频次变化视角下的动态主题识别研究[J].知识管理论坛,2022(2):197-208. 被引量：1
4盛一涵,霍朝光.基于《三国志》的蜀汉政治网络分析[J].数字人文研究,2022,2(3):61-74.
5张良,王现臣,肖银涛,江程.基于文本语义的用户协同过滤文献推荐算法[J].数字技术与应用,2024,42(3):126-129.
6陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：10
7祁颖,张涛.国内外人文社科领域跨学科研究:文献主题对比与中国路径选择[J].情报科学,2023,41(12):81-90. 被引量：3
8王山,原磊,付敏杰.习近平经济思想研究评述及其发展动态——从文献计量到研究主题(2013-2023年)[J].价格理论与实践,2024(3):29-35.
9李婷.构建适配人工智能辅助价值计算的核心价值观裁判说理机制[J].法律方法,2022,28(2):260-279.
10黄子涵.差异·根源·思路——图书情报档案三界“一体化”语境下的态度、重点差异分析[J].办公自动化,2020(15):54-57. 被引量：1

同被引文献81

1陈威良,郑胜杰,李骁健.植入式脑机接口技术的发展历程与趋势[J].微纳电子与智能制造,2022,4(3):64-68. 被引量：1
2刘桥阳,张业明.对高校化学品储存及使用管理的探讨[J].工业安全与环保,2005,31(9):48-49. 被引量：22
3刘玉琴,汪雪锋,雷孝平.基于文本挖掘技术的专利质量评价与实证研究[J].计算机工程与应用,2007,43(33):12-14. 被引量：43
4张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676. 被引量：14
5苏娜,张志强.基于z得分的科学计量学多关系融合方法研究[J].情报学报,2013,32(3):244-250. 被引量：5
6王海文,殷馨.浅谈实验室化学品管理[J].实验科学与技术,2014,12(2):203-205. 被引量：23
7李广建,化柏林.大数据分析与情报分析关系辨析[J].中国图书馆学报,2014,40(5):14-22. 被引量：172
8李广艳.浅析高校化学类科研实验室的危险化学品管理[J].实验室研究与探索,2014,33(11):301-304. 被引量：39
9张洋,谢卓力.基于多源网络学术信息聚合的知识图谱构建研究[J].图书情报工作,2014,58(22):84-94. 被引量：16
10谢萍,袁润,钱过.基于TOPSIS方法的核心专利识别研究[J].情报理论与实践,2015,38(6):88-92. 被引量：15

引证文献5

1逯万辉.科学文献主题建模方法及其效果评估研究[J].现代情报,2024,44(4):22-31. 被引量：6
2张昌福,叶智,王飞飞,李洋,陈竹.基于流程工业的多元数据融合分析软件设计研究[J].互联网周刊,2024(9):17-19.
3曹茹烨,曹树金.基于知识图谱的高价值专利技术创新演化研究[J].现代情报,2024,44(6):3-17.
4陈一帆,张志强,丁敬达,谢瑞霞.图书情报领域多源数据特征级融合方法研究综述[J].图书情报工作,2024,68(18):134-146.
5刘颜玲,王文峰,赵鑫华.基于数据融合的高校化学品实时管理体系构建[J].实验技术与管理,2024,41(10):250-254.

二级引证文献6

1王蓝蓝,刘艳丽.基于BERTopic的计算机视觉领域热点技术主题及演化分析[J].科学观察,2024,19(2):46-60. 被引量：1
2胡凯茜,李欣,王龙腾.基于BERTopic模型的网络暴力事件衍生舆情探测[J].情报杂志,2024,43(7):146-153. 被引量：2
3董同强,朱彦君,马秀峰.基于中文文本类别信息的主题生成模型构建研究[J].情报科学,2024,42(4):36-42.
4金国峰,陈泽峰.基于BERTopic模型的组织成员工作投入研究的主题提取[J].情报探索,2024(8):73-81.
5聂思言,杨江华.多维视角下新一代人工智能技术的公众感知研究[J].情报杂志,2024,43(9):130-138.
6黄芳.术语学视角下的数字人文研究及其对高校图书馆的启示[J].图书馆研究,2024,54(5):44-53.

1中国学术期刊影响因子年报(2022版)——《中国医学影像技术》[J].中国医学影像技术,2023,39(1):133-133.
2中国学术期刊影响因子年报(2022版)——《中国介入影像与治疗学》[J].中国医学影像技术,2023,39(1):147-147.
32021版《中国学术期刊影响因子年报》发布辽宁中医药大学主办的三种期刊名次靠前,并再次进入Q1区名单[J].辽宁中医杂志,2022,49(10):136-136.
4《经济学家》影响因子再创新高[J].经济学家,2022(12).
5曾莉,杨添宝,周慧.基于LDA与注意力机制BiLSTM的微博舆情分析模型[J].南京理工大学学报,2022,46(6):742-748. 被引量：11
6《中国冶金》广告版面征订(2023年)[J].中国冶金,2022,32(12):71-71.
7《震灾防御技术》征稿启事[J].震灾防御技术,2022,17(4).
82023年《钢铁》《中国冶金》《连铸》期刊征订启事[J].中国冶金,2022,32(12):112-112.
9许鹤翎.高中数学教学中对学生创造性思维能力的培养[J].数学学习与研究,2022(31):128-130. 被引量：1
10吴金红,黄彩云,李问秋,周磊,王济平.融合深度学习和链路预测的交叉性研究主题预测研究[J].情报杂志,2022,41(12):57-63. 被引量：2

情报资料工作

2022年第6期

浏览历史

内容加载中请稍等...

基于多元数据融合的科学文献主题识别研究被引量：5

参考文献10

二级参考文献137

共引文献232

同被引文献81

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多元数据融合的科学文献主题识别研究 被引量：5

参考文献10

二级参考文献137

共引文献232

同被引文献81

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多元数据融合的科学文献主题识别研究被引量：5