基于主题模型的科技报告文档聚类方法研究被引量：16

Research on the Text Clustering Method of Science and Technology Reports Based on the Topic Model

导出

摘要 [目的／意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法，拓展基于科技文献进行技术监测服务的新领域，提出基于科技报告进行语义分析的新方法。[方法／过程]以国家科技报告服务系统中的科技报告为数据源，首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘，再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析，尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果／结论]实验结果表明，LDA主题模型能有效准确挖掘科技报告中的主题信息，所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。 [ Purpose/significance] This paper explores the method of text clustering in the science and technology reports based on the topic model, develops new scientific literature technology monitoring areas, and puts forward a new semantic analysis method based on science and technology reports. [ Method/process] Based on the national science and technology report service system, firstly, it conducted topic mining based on the LDA model after the text preprocessing; secondly, a clustering analysis based on the combination of K-means and Ward was carried out based on the text vector of the abstract containing theme distribution information. A proper text clustering method for the text mining suitable for the science and technical report was proposed. [ Result/conclusion] The experimental results show that the LDA model can be effectively and accurately used in the topic mining of science and technology reports, and the clustering effect of the combination of Ward and K-means proposed in this paper is better than that of other traditional clustering algorithms in sci- ence and technology reports.

作者曲靖野陈震郑彦宁

机构地区北华大学信息技术与传媒学院中国科学技术信息研究所

出处《图书情报工作》 CSSCI 北大核心 2018年第4期113-120,共8页 Library and Information Service

基金吉林省教育科学“十三五”规划项目“项目教学法在高校基础计算机教学中的应用研究”(项目编号:GH170061)研究成果之一

关键词科技报告主题模型 LDA 文本聚类 science and technology report topic model LDA text clustering

分类号 G203 [文化科学—传播学]

引文网络
相关文献

参考文献11

1侯人华,刘春燕,杜薇薇.科技报告制度体系与形成模式研究[J].情报理论与实践,2014,37(1):51-54. 被引量：16
2郭学武,朱江.开放科技报告服务体系建设刍议[J].情报理论与实践,2011,34(9):82-84. 被引量：11
3毛刚,贾志雷,侯人华.情报学视角下的科技报告研究[J].情报杂志,2013,32(12):62-66. 被引量：14
4朱亮,孟宪学,赵瑞雪,寇远涛,鲜国建.基于文献计量的科技监测方法与应用系统比较研究[J].数字图书馆论坛,2015(1):52-56. 被引量：3
5吕一博,康宇航.基于共现分析的科技监测地图绘制及实证研究[J].科学学研究,2010,28(10):1459-1466. 被引量：10
6李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究[J].情报杂志,2014,33(7):115-121. 被引量：66
7关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：52
8王曰芬,傅柱,陈必坤.采用LDA主题模型的国内知识流研究结构探讨:以学科分类主题抽取为视角[J].现代图书情报技术,2016(4):8-19. 被引量：22
9王平.基于层次概率主题模型的科技文献主题发现及演化[J].图书情报工作,2014,58(22):70-77. 被引量：31
10奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104

二级参考文献248

1蔡强,韩东梅,李海生,毛典辉.基于知识流优化的业务流程重组[J].华中科技大学学报（自然科学版）,2013,41(S2):33-37. 被引量：6
2张培富,李艳红.知识流与技术创新的群体社会互动[J].科技管理研究,2004,24(4):105-109. 被引量：16
3苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6朱东辉,文秀芳.科技报告:一种高值高效的技术信息产品[J].情报理论与实践,2004,27(5):558-560. 被引量：13
7朱东华,袁军鹏.基于数据挖掘的科技监测方法研究[J].管理工程学报,2004,18(4):135-139. 被引量：59
8龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
9张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
10张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1

共引文献398

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：10
4李锋亮,舒宜彬.大学优秀学生集体形成要素的实证分析——以清华大学为例[J].教育发展研究,2020(13):50-56. 被引量：1
5曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
6任亮,张爱霞,汪芸辉,郑彦宁.基于NSTRS的科技报告知识共享机理研究[J].情报科学,2022,40(8):64-70.
7杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
8井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
9游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
10楚东晓,易木涵.基于在线评论构建面向博物馆的访客体验维度模型[J].包装工程,2024,45(S01):22-29.

同被引文献285

1陈卫红.航天国防科技报告的编写与检索利用[J].航天器工程,2007,16(5):95-99. 被引量：4
2张龙根.科技报告的查检[J].图书情报工作,1982,26(1):14-17. 被引量：2
3刘立雪.我们是怎样用主题键词处理科技报告的[J].图书情报工作,1981,25(4):13-18. 被引量：5
4张玉麟.日文学术会议录、科技报告的著录和目录组织[J].图书情报工作,1980,24(5):26-30. 被引量：2
5曾丽萍.核科技报告的标引[J].四川图书馆学报,2005(1):54-56. 被引量：3
6银路,石忠国,王敏,张徽燕,刘炬.新兴技术:概念、特点和管理新思维[J].现代管理科学,2005(4):5-7. 被引量：18
7邹大挺,沈玉兰,张爱霞.关于建设中国科技报告体系的思考[J].情报学报,2005,24(2):131-135. 被引量：31
8李仕明,李平,肖磊.新兴技术变革及其战略资源观[J].管理学报,2005,2(3):304-306. 被引量：49
9屠原梓,杨学泉.科技报告的特点及作用[J].河海大学机械学院学报,1995,9(3):76-80. 被引量：4
10方志良.船舶科技报告工作“八五”回顾与“九五”设想[J].造船技术,1996,24(9):1-5. 被引量：1

引证文献16

1龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：2
2彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
3薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
4夏艳红.科技报告工作中博弈关系及其推进机制研究[J].图书馆,2019(10):78-83. 被引量：3
5刘富军,杨莉.科技报告在科技管理中的作用研究[J].山西科技,2019,34(6):7-9. 被引量：3
6罗建,蔡丽君,史敏.基于专利的两阶段新兴技术识别研究——以图像识别技术为例[J].情报科学,2019,37(12):57-62. 被引量：16
7杨锴.高校智库联盟成员服务能力识别及匹配研究[J].情报杂志,2020,39(5):97-103. 被引量：7
8朱光,刘蕾,李凤景.基于LDA和LSTM模型的研究主题关联与预测研究——以隐私研究为例[J].现代情报,2020,40(8):38-50. 被引量：23
9盖璇.基于聚类分析算法的垃圾邮件识别[J].计算机与现代化,2020(10):17-22. 被引量：3
10张金柱,于文倩.基于短语表示学习的主题识别及其表征词抽取方法研究[J].数据分析与知识发现,2021,5(2):50-60. 被引量：4

二级引证文献111

1陈花.全景视角下综述性研究的新架构——概念、流程与示例[J].知识管理论坛,2022(2):189-196. 被引量：1
2刘富军,杨莉.科技报告在科技管理中的作用研究[J].山西科技,2019,34(6):7-9. 被引量：3
3晁蓉,龙海东.面向新冠肺炎治疗的技术识别与发现[J].情报探索,2020(7):36-42. 被引量：3
4董少林,李钟慎.采用Scrapy分布式爬虫技术的微博热点舆情信息获取与分析[J].电脑与信息技术,2020,28(5):23-26. 被引量：3
5刘富军,陈会谦.提高我国科技报告服务效果研究[J].河北工程大学学报（社会科学版）,2020,37(3):41-46. 被引量：2
6杨锴.用户视角下高校智库信息服务评价方法及应用[J].图书馆,2020(12):20-26. 被引量：1
7鞠昕蓉,郑荣.高校智库联盟成员选择的影响因素模型及实证研究[J].图书情报工作,2020,64(23):96-108. 被引量：6
8李璐,何利力.融合信息熵与多权TF-IDF的营销评论关键词提取算法[J].智能计算机与应用,2020,10(9):69-72. 被引量：2
9张锦红,张云华.基于CTM模型的在线轻问诊医生推荐研究[J].智能计算机与应用,2021,11(2):35-39. 被引量：1
10何烨辛,谷林,孙晨.基于CNN的程序编译错误信息特征提取[J].计算机技术与发展,2021,31(5):204-208. 被引量：1

1周同.浅谈《山河故人》中的艺术意蕴[J].艺术评鉴,2017,0(22):147-149.
2邹晓辉.LDA主题模型在文本聚类中的应用[J].数字技术与应用,2017,35(12):76-77. 被引量：2
3曲靖野,陈震,胡轶楠.共词分析与LDA模型分析在文本主题挖掘中的比较研究[J].情报科学,2018,36(2):18-23. 被引量：22
4党燕,许志伟,刘利民,王宇,赵思远.基于Single-Pass算法的网络舆情文本增量聚类算法研究[J].内蒙古工业大学学报（自然科学版）,2017,36(5):364-372. 被引量：1
5刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
6施维,王兴华,万巍,薛均,潘璀然,程显毅,董建成,王理.基于竞争学习的大规模微博文本聚类[J].江苏科技大学学报（自然科学版）,2017,31(6):768-773.
7本刊编辑部.关键词标引的规范化[J].中国微侵袭神经外科杂志,2017,22(11):495-495.
8朱雪彤,钱秀娟,孙薇薇,侯宪春,陈广生,王永利.面向普适健康监测的心脏病分析方法[J].计算机工程与应用,2018,54(1):159-165. 被引量：2
9张晓勇,杨国庆,李程,王珂.傅里叶红外便携式气体分析仪在应急监测中的应用[J].中国资源综合利用,2017,35(11):112-113. 被引量：5
10王静茹,陈震.基于隐含狄利克雷分布的文本主题提取对比研究[J].情报科学,2018,36(1):102-107. 被引量：21

图书情报工作

2018年第4期

浏览历史

内容加载中请稍等...

基于主题模型的科技报告文档聚类方法研究被引量：16

参考文献11

二级参考文献248

共引文献398

同被引文献285

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于主题模型的科技报告文档聚类方法研究 被引量：16

参考文献11

二级参考文献248

共引文献398

同被引文献285

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于主题模型的科技报告文档聚类方法研究被引量：16