专利文本主题建模中领域停用词自动选取研究被引量：4

Automatic Selection of Domain-Specific Stopwords in Topic Model of Patent Text

导出

摘要 [目的／意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题，提出一种新的领域停用词自动选取方法，用于专利文本主题模型分析，以提高专利主题模型的区分度与建模质量。[方法／过程]领域停用词本质上是信息比较少，在不同类别专利文本中区分度低的词。因此，引入辅助专利文本集，使用类别熵衡量词的分布情况，然后依据词的类别熵进行排序，选取类别熵最大的若干词作为领域停用词。[结果／结论]实验通过专利文本数据，验证了该方法的可行性与有效性，能够有效地提高专利主题模型的区分度。 [ Purpose/significance ] Because the research that automatic selection of domain-specific stopwords in topic model of patent text is insufficient, this paper proposes a new method of automatic selection of domain-specific stopwords, for patent text topic model analysis, in order to improve the differentiation and modeling quality of the patent topic model. [ Method/process] In essence, domain-specific stopwords are less important words which contain relatively less information, such words are poorly differentiated in different kinds of patent. Therefore, this paper introduced the auxiliary multi-category patent text dataset and measured the distributions of words through the category entropy. Then, according to the category entropy of words. It chose some words that have the maximum category entropy as the domain-specific stopwords. [ Result/conclusion ] Experimental results show the feasibility and validity of the method proposed in this paper, which can improve the differentiation and quality of topic model for patent text analysis.

作者俞琰赵乃瑄 Yu Yan;Zhao Nianxuan(Information Service Department, Nanjing Teeh University, Nanjing 211816;Computer Science department, Southeast University Chengxian College, Nanjing 211816)

机构地区南京工业大学信息服务部东南大学成贤学院电子与计算机学院

出处《图书情报工作》 CSSCI 北大核心 2018年第11期120-126,共7页 Library and Information Service

基金教育部人文社科规划项目项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073) 国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一

关键词专利文本主题建模领域停用词自动选取 patent text topic model domain-specific stopword automatic selection

分类号 G202 [文化科学—传播学]

引文网络
相关文献

参考文献12

1郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
2高利丹,肖国华,张娴,房俊民.共现分析在专利地图中的应用研究[J].现代情报,2009,29(7):36-39. 被引量：18
3张杰,刘美佳,翟东升.基于专利共词分析的RFID领域技术主题研究[J].科技管理研究,2013,33(10):129-132. 被引量：12
4范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用,2013,33(A01):87-89. 被引量：21
5王博,刘盛博,丁堃,刘则渊.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(3):111-117. 被引量：53
6吴菲菲,张亚茹,黄鲁成,李欣,栾静静.基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J].图书情报工作,2017,61(5):95-102. 被引量：20
7廖列法,勒孚刚.基于LDA模型和分类号的专利技术演化研究[J].现代情报,2017,37(5):13-18. 被引量：30
8陈亮,张静,张海超,杨冠灿,张健.层次主题模型在技术演化分析上的应用研究[J].图书情报工作,2017,61(5):103-108. 被引量：15
9官琴,邓三鸿,王昊.中文文本聚类常用停用词表对比研究[J].数据分析与知识发现,2017,1(3):72-80. 被引量：45
10顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：33

二级参考文献104

1周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
2孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,24(3):69-73. 被引量：79
5顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：33
6杨祖国,李文兰.中国专利被专利文献引用的主题分析[J].情报科学,2005,23(12):1845-1851. 被引量：14
7罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
8冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量：559
9王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：58
10熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16

共引文献219

1陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：4
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：6
4张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
5楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S01):47-55.
6熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
7化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：38
8刘玉琴,赖院根,雷孝平.基于IPC知识结构的专利自动分类模型[J].小型微型计算机系统,2007,28(12):2295-2298. 被引量：13
9刘玉琴,桂婕,朱东华.基于IPC知识结构的专利自动分类方法[J].计算机工程,2008,34(3):207-209. 被引量：15
10蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1

同被引文献90

1胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友.广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析[J].数据分析与知识发现,2020,4(2):101-109. 被引量：5
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
3赵长青.初论书法价值及实现[J].中国书法,2011(1):39-40. 被引量：1
4刘力生.中国高血压防治指南2010[J].中国医学前沿杂志（电子版）,2011,3(5):42-93. 被引量：1216
5张文秀,朱庆华.领域本体的构建方法研究[J].图书与情报,2011(1):16-19. 被引量：70
6吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.词形还原方法及实现工具比较分析[J].现代图书情报技术,2012(3):27-34. 被引量：12
7肖明,栗文超,夏秋菊.基于Prefuse和层次聚类的信息检索主题知识图谱研究[J].现代图书情报技术,2012(4):35-40. 被引量：10
8张志强,王嘉逸,魏明.环境中的书法价值探颐[J].中国书法,2014(3):166-169. 被引量：1
9俞琰,赵乃瑄.基于辅助集的专利主题分析领域停用词选取[J].数据分析与知识发现,2018,2(11):95-103. 被引量：6
10祝帅.关于当代书法评价体系建立方法的思考[J].美术观察,2015(8):26-27. 被引量：2

引证文献4

1刘忠宝,张志剑,赵文娟.大数据环境下高血压知识库构建与系统集成方法研究[J].医学信息学杂志,2020,41(10):37-42. 被引量：2
2张东鑫,张敏.图情领域LDA主题模型应用研究进展述评[J].图书情报知识,2022,39(6):143-157. 被引量：8
3潘小宇,倪渊,金春华,张健.基于超平面-BERT-Louvain优化LDA模型的书法作品价值要素提取及指标体系构建[J].数据分析与知识发现,2023,7(10):109-118.
4周长江,蔡榕,祝和明,王存超,郭晏.基于专利数据的电力标引信息挖掘技术研究[J].自动化技术与应用,2024,43(4):118-121.

二级引证文献10

1董文波,孙仕亮,殷敏智.医学知识推理研究现状与发展[J].计算机科学与探索,2022,16(6):1193-1213. 被引量：10
2富子元,朱学芳,李川.突发公共卫生事件下健康信息需求的主题与用户情感实证研究[J].晋图学刊,2023(2):1-12.
3周强,孙宏玉,孙玉梅,王蕊.知识图谱在我国慢性病管理中的应用进展[J].中华现代护理杂志,2023,29(19):2652-2657. 被引量：1
4马玥,唐承秀,王伟.高校书记/校长眼中的高校图书馆:基于LDA主题模型的分析[J].大学图书馆学报,2023,41(5):12-17.
5杜若鹏,张洁,寇远涛.基于共现词分析的专业科技信息平台用户画像主题标注方法改进[J].数字图书馆论坛,2023,19(9):58-63.
6杨益兴,吴刚,陈兰芳,郭茜.基于LDA主题模型的多阶段生鲜消费者需求研究——以京东为例[J].管理案例研究与评论,2024,17(1):105-122.
7郑德俊,程为.基于三维主题特征测度的新兴主题识别研究[J].情报学报,2024,43(2):167-180.
8逯万辉.科学文献主题建模方法及其效果评估研究[J].现代情报,2024,44(4):22-31.
9何西远,张岳,张秉文.基于分布式爬虫的微博舆情监督与情感分析系统设计[J].现代信息科技,2024,8(5):111-114.
10韩佳晖,白韦娟,艾金勇(指导).基于LDA模型的藏文文本主题发现方法研究[J].中国信息界,2024(2):176-179.

1王园园,赵亚娟.基于非负矩阵分解的技术主题演化分析[J].图书情报工作,2018,62(10):94-105. 被引量：6
2汤语桐,曲耀.近在咫尺的流浪猫[J].中学科技,2018,0(6):28-29.
3苏军德,李国霞,赵晓冏.矿山废弃地生态修复中绿化树种的选取研究[J].中国水土保持,2018(4):11-14. 被引量：11
4苏有菊,王玉华,张福泉.低功耗激光发生器最优概率跳变选取研究（英文）[J].机床与液压,2018,46(6):96-103. 被引量：1
5俞琰,赵乃瑄.加权专利文本主题模型研究[J].数据分析与知识发现,2018,2(4):81-89.
6欧阳柳,王少华,李冰,江周.摩擦摆支座滑动位移量选取研究[J].机械设计与制造,2018(5):89-92. 被引量：4
7Abhishek Gaurav,宋建平,江文全.综合运用地质、机器学习、模式识别和多元统计法计算二叠盆地页岩水平井EUR[J].石油地质科技动态,2018,0(2):20-37.
8李广玉.《大唐荣耀》:历史与当下语境重合下的众生喧嚣[J].参花（下）,2018,0(6):130-130.
9白杨.大数据环境下的文本挖掘教学内容探讨[J].无线互联科技,2018,15(9):86-87. 被引量：3

图书情报工作

2018年第11期

浏览历史

内容加载中请稍等...

专利文本主题建模中领域停用词自动选取研究被引量：4

参考文献12

二级参考文献104

共引文献219

同被引文献90

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

专利文本主题建模中领域停用词自动选取研究 被引量：4

参考文献12

二级参考文献104

共引文献219

同被引文献90

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

专利文本主题建模中领域停用词自动选取研究被引量：4