期刊文献+

加权专利文本主题模型研究

Weighted Topic Model for Patent Text Analysis
原文传递
导出
摘要 【目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法,形成加权专利文本主题模型,给不同的词分配不同的权重,改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型,本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证,并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。 [Objective] This study aims to address the issues facing the topic model of patent text analysis such as the inclining to high frequency words and low discrimination rates. [Methods] First, we proposed a word weighting method for the traditional topic model. Then, the modified model assigned different weights to the words, and changed the probability of generating new words. [Results] Compared with traditional methods, the weighted patent topic model could identify the subjects more effectively. [Limitations] The weighting algorithm needs to be validated and optimized with more datasets. [Conclusions] The proposed model could effectively analyze the patent texts.
作者 俞琰 赵乃瑄 Yu Yan;Zhao Naixuan(Information Service Department, Nanjing Tech University, Nanjing 210009, China;Computer Science Department, Southeast University Chengxian College, Nanjing 211816, China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第4期81-89,共9页 Data Analysis and Knowledge Discovery
基金 国家社会科学基金项目"大数据时代支持创新设计的多维度多层次专利文本挖掘研究"(项目编号:17BTQ059) 教育部人文社会科学基金项目"大数据时代技能知识图谱构建研究"(项目编号:16YJAZH073)的研究成果之一
关键词 文本分析 专利 加权主题模型 Text Analysis Patent Weighted Topic Model
  • 相关文献

参考文献14

二级参考文献150

共引文献279

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部