融入术语知识的专利主题发现方法被引量：3

Patent Topic Discovery Method Integrated with Term Knowledge

导出

摘要 [目的 /意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法 /过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果 /结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。 [ Purpose/significance ] Aiming at the problem of analysis patent topic in terms of word which causes topics are difficult to explain in the patent topic analysis, this paper proposes a patent topic discovery model integrated with term knowledge. [ Method/process] The proposed model firstly introduces the class entropy and effectively recogni- zes the terms in the patent literature. Then, the Generalized P61ya Urn model is used to increase the probability of the se- mantic similarity terms assigned to the same topic, in order to alleviate the data sparsity problem brought by the term as the basic topic model analysis unit. [ Result/conclusion] The experimental results show that the proposed model contains the term information to improve the quality of the topic generation, making the topic representation more readable and topic discriminative.

作者俞琰赵乃瑄 Yu Yan;Zhao Naixuan(Information Service Department,Nanjing Tech University,Nanjing 210009;Computer Science Department,Southeast University Chengxian College,Nanjing 211816)

机构地区南京工业大学信息服务部东南大学成贤学院电子与计算机学院

出处《图书情报工作》 CSSCI 北大核心 2018年第21期118-126,共9页 Library and Information Service

基金教育部人文社会科学规划项目"大数据时代技能知识图谱构建研究"(项目编号:16YJAZH073) 国家社会科学基金一般规划项目"大数据时代支持创新设计的多维度多层次专利文本挖掘研究"(项目编号:17BTQ059)研究成果之一

关键词专利分析主题发现术语 patent analysis topic discovery term

分类号 G202 [文化科学—传播学]

引文网络
相关文献

参考文献13

1范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用,2013,33(A01):87-89. 被引量：22
2王博,刘盛博,丁堃,刘则渊.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(3):111-117. 被引量：53
3吴菲菲,张亚茹,黄鲁成,李欣,栾静静.基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J].图书情报工作,2017,61(5):95-102. 被引量：23
4廖列法,勒孚刚.基于LDA模型和分类号的专利技术演化研究[J].现代情报,2017,37(5):13-18. 被引量：30
5陈亮,张静,张海超,杨冠灿,张健.层次主题模型在技术演化分析上的应用研究[J].图书情报工作,2017,61(5):103-108. 被引量：15
6张琴,张智雄.基于PhraseLDA模型的主题短语挖掘方法研究[J].图书情报工作,2017,61(8):120-125. 被引量：8
7韩红旗,朱东华,汪雪锋.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285. 被引量：24
8徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10
9李超,王会珍,朱慕华,张俐,朱靖波.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-98. 被引量：7
10刘里,刘小明.基于分隔符和上下文术语的领域现象术语抽取[J].华南理工大学学报（自然科学版）,2011,39(7):146-149. 被引量：6

二级参考文献135

1张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
2冯志伟.科技术语古今谈[J].术语标准化与信息技术,2005(2):4-8. 被引量：12
3朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
4杨祖国,李文兰.中国专利被专利文献引用的主题分析[J].情报科学,2005,23(12):1845-1851. 被引量：14
5何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
6方曙,张娴,肖国华.专利情报分析方法及应用研究[J].图书情报知识,2007,24(4):64-69. 被引量：111
7Sophia Ananiadou. Towards a Methodology for Automatic Term Recognition[D]. University of Manchester Institute of Science and Technology, 1988.
8Sophia Ananiadou. A methodology for automatic term recognition[C]//Proceedings of the 15th International Conference on Computational Linguistics. Morristown, NJ, USA: Association for Computational Linguistics, 1994 : 1034-1038.
9Didier Bourigault. Surface grammatical analysis for the extraction of terminological noun phrases[C]//Proceedings of the 14th International Conference on Computational Lingustics. Morristown, NJ, USA: Association for Computational Linguistics, 1902 : 977-081.
10Ido Dagan, Ken Church. Termight: Identifying and translating technical terminology [ C]//Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics. Morristown, NJ, USA: Association for Computational Linguistics, 1994, 34-40.

共引文献181

1吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
2张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
3李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
4蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
5祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
6屈鹏,王惠临.面向信息分析的专利术语抽取研究[J].图书情报工作,2013,57(1):130-135. 被引量：14
7胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
8徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10
9化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
10韩红旗,徐硕,桂婕,乔晓东,朱礼军,安小米.基于词形规则模板的术语层次关系抽取方法[J].情报学报,2013,32(7):708-715. 被引量：11

同被引文献52

1任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
2岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37
3周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
4章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19
5韩红旗,朱东华,汪雪锋.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285. 被引量：24
6段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
7邱均平,王菲菲.基于共现与耦合的馆藏文献资源深度聚合研究探析[J].中国图书馆学报,2013,39(3):25-33. 被引量：67
8熊李艳,谭龙,钟茂生.基于有效词频的改进C-value自动术语抽取方法[J].现代图书情报技术,2013(9):54-59. 被引量：11
9马佩勋,高琰.基于TF* PDF的热点关键短语提取[J].计算机应用研究,2013,30(12):3610-3613. 被引量：3
10汤青,吕学强,李卓,施水才.领域本体术语抽取研究[J].现代图书情报技术,2014(1):43-50. 被引量：10

引证文献3

1邱科达,马建玲.机器学习在术语抽取研究中的文献计量分析[J].图书情报工作,2020,64(14):94-103. 被引量：6
2唐晓波,谭明亮,李诗轩,顾娜.基于风险短语挖掘的知识聚合模型研究[J].情报理论与实践,2020,43(8):152-158. 被引量：9
3菊花,那顺乌日图.基于数据库的专业术语知识图谱自动识别设计[J].现代电子技术,2021,44(14):129-132.

二级引证文献15

1翟通,陈天凯,李文兰.基于文献计量的科研机构学术成长性评价研究[J].图书情报导刊,2021,6(5):54-61. 被引量：2
2杨波,杨美芳.风险事件驱动的企业知识服务模型及应用研究[J].情报理论与实践,2021,44(10):100-109. 被引量：7
3苏瑞竹,陈雪芬,张颖.“文旅融合”背景下东盟文化旅游信息资源开发与传播研究[J].图书馆工作与研究,2021(10):3-11. 被引量：5
4郭宁生,蒙涛.航空领域重大关键技术项目发现影响因素研究[J].航空工程进展,2022,13(1):160-167. 被引量：2
5谭明亮,游强华,杨达森,周禾深,唐晓波.基于句子语义挖掘的上市公司风险事件知识聚合模型[J].武汉理工大学学报（信息与管理工程版）,2022,44(1):158-165. 被引量：2
6谭明亮.医药制造上市公司的风险管理情报需求分析[J].竞争情报,2022,18(2):17-24.
7胡雅敏,吴晓燕,陈方.基于机器学习的技术术语识别研究综述[J].数据分析与知识发现,2022,6(2):7-17. 被引量：13
8周志浩,李建波.基于语言特征和复合测量的农业术语自动抽取研究[J].科学技术与工程,2022,22(24):10625-10630. 被引量：2
9范昊,李珊珊,热孜亚·艾海提.机器学习算法在我国情报学研究中的应用与影响——基于CSSCI期刊论文的视角[J].图书情报知识,2022,39(5):96-108. 被引量：8
10董坤.基于依存关系与主题差异的非遗知识元抽取方法研究[J].图书情报导刊,2023,8(1):72-79.

1王曰芬,王一山.传播阶段中不同传播者的舆情主题发现与对比分析[J].现代情报,2018,38(9):28-35. 被引量：12
2王国栋,孙洪亮,韩立爽.生物物证检材的发现和提取技术探索[J].产业与科技论坛,2018,17(17):71-72. 被引量：2
3左丽娟.访谈类短视频标题自动生成方案的研究[J].计算机产品与流通,2017,0(11):158-158.
4蔡莉,潘俊,魏宝乐,周怡帆,李英姿.签到数据的热点区域时空模式与情感变化的可视化分析[J].小型微型计算机系统,2018,39(9):1889-1894. 被引量：5
5岳雪峰,王运圣.我国信息管理研究述评与趋势展望——基于八种图书情报期刊文献的分析(1992-2016)[J].图书馆理论与实践,2018,0(10):37-41. 被引量：1
6谢斌红,马非,潘理虎,张英俊.煤矿安全隐患信息自动分类方法[J].工矿自动化,2018,44(10):10-14. 被引量：9
7王凯祥.面向查询的自动文本摘要技术研究综述[J].计算机科学,2018,45(B11):12-16. 被引量：5
8徐凌.大班科学活动:寻找“蟹”味[J].山西教育（幼教）,2018,0(9):50-52.
9汤颖,孙康高,秦绪佳,周建美.基于局部模型加权融合的Top-N电影推荐算法[J].计算机科学,2018,45(B11):439-444. 被引量：4
10应毅,刘定一,任凯.社交网络的舆情热点发现模型研究[J].图书情报导刊,2018,3(9):68-71. 被引量：4

图书情报工作

2018年第21期

浏览历史

内容加载中请稍等...

融入术语知识的专利主题发现方法被引量：3

参考文献13

二级参考文献135

共引文献181

同被引文献52

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

融入术语知识的专利主题发现方法 被引量：3

参考文献13

二级参考文献135

共引文献181

同被引文献52

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

融入术语知识的专利主题发现方法被引量：3