运用图示法自动提取中文专利文本的语义信息被引量：9

Applying Graph Representations to Automatic Extraction of Semantic Information from Chinese Patent text

导出

摘要 [目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程]设计两种运用图结构的模型:1基于关键词的文本图模型;2基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘,并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。 [ Purpose/significance ] This paper proposes a graph representation based approach to extract automatical- ly semantic information from Chinese patent texts; such information can be used to provide semantic support for text-con- tent based patent intelligent analysis. [ Method/process ] The author devised two graph models using graph representa- tions： ①a keyword based text graph model, ②a dependency tree based text graph model. The first graph model was con- structed by computing the similarities between any two keywords; the second graph model was constructed by extracting syntactic relations from text sentences. In the case study, the author utilized a frequent subgraph mining algorithm to dis- cover frequent subgraph patterns, and such patterns were further used as features to build text classifiers for the purpose of testing the expressivity and effectiveness of the graph models built before. [ Result/conclusion ] The constructed text clas- sifiers were tested on datasets consisting of patents from four different technology domains, in comparison with using a clas- sic text classifier. The experimental results show that the performance of two text classifiers using graph models has a gain of 2.1% - 10.5 % than a classic text classifier by using a smaller number of features. Thus, it can be inferred that emplo- ying graph representations and graph mining techniques to extract semantic information from patent texts is effective and fa- cilitates a further patent text analysis.

作者姜春涛

机构地区南京大学计算机科学与技术系江苏省专利信息服务中心

出处《图书情报工作》 CSSCI 北大核心 2015年第21期115-122,共8页 Library and Information Service

关键词图示法专利信息提取频繁子图挖掘专利分类 graph representations patent information extraction frequent subgraph mining patent classification

分类号 G306 [文化科学] G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献3

1姜彩红,乔晓东,朱礼军.基于本体的专利摘要知识抽取[J].现代图书情报技术,2009(2):23-28. 被引量：15
2王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
3Amy J.C. TRAPPEY,Charles V. TRAPPEY,Chun-Yi WU.AUTOMATIC PATENT DOCUMFNT SUMMARIZATION FOR COLLABORATIVE KNOWLEDGE SYSTEMS AND SERVICES[J].Journal of Systems Science and Systems Engineering,2009,18(1):71-94. 被引量：9

二级参考文献26

1王卫平,郭长旺.文本挖掘在科技情报中的应用[J].中国科技产业,2004(12):35-37. 被引量：8
2夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
3Vintar S,Buitelaar P,Ripplinger B. et al. An Efficient and Flexible Format for Linguistic and Semantic Annotation: Proceedings of LREC [ J ]. Online Review, 2003,13 ( 6 ) :466 - 469.
4ArtEquAkt from The University of Southampton [ EB/OL]. [ 2008 - 08-30]. http ://www. aktors, org/technologies/artequakt/.
5Advanced Knowledge Technologies [ EB/OL]. [ 2008 - 08 - 30 ]. http ://www. aktors, org/akt/.
6Semantic Knowledge Technologies [ EB/OL]. [ 2008 - 08 - 30 ]. http ://www. sekt - project, com/.
7Intelligent Search Agent for Information Extraction and Synthesis on the Web [ EB/OL ]. [ 2008 -08 -30 ]. http ://www. ntu. edu. sg,/ sci/research/knowledge, html.
8What is Protege[ EB/OL]. [ 2008 -06 -10 ]. http://protege. stanford, edu/overview/index, html.
9GATE : An Application Developer' s Guide [ EB/OL ]. [ 2008 - 06 - 30 ]. http ://www. dcs. shef. ac. uk/- valyt, diana, kalian, Hamish.
10张嘉君,吴志新,乔维高.混合动力汽车整车控制策略研究[J].客车技术与研究,2007,29(4):8-11. 被引量：15

共引文献28

1Charles V. TRAPPEY,Amy J.C. TRAPPEY,Chun-Yi WU.CLUSTERING PATENTS USING NON-EXHAUSTIVE OVERLAPS[J].Journal of Systems Science and Systems Engineering,2010,19(2):162-181. 被引量：2
2邱清盈,张惠,冯培恩.专利知识辅助产品创新的方法[J].浙江大学学报（工学版）,2011,45(2):228-233. 被引量：1
3方曙,胡正银,庞弘燊,张娴.基于专利文献的技术演化分析方法研究[J].图书情报工作,2011,55(22):42-46. 被引量：47
4陈颖,张晓林.专利技术功效矩阵构建研究进展[J].现代图书情报技术,2011(11):1-8. 被引量：21
5赵蕴华,张静.基于数据挖掘的专利数据预处理系统的设计与实现[J].情报科学,2011,29(12):1851-1855. 被引量：2
6梁田,胡正银,程欣,刘春江,方曙,杨志萍.基于知识分类体系的专利检索系统[J].情报理论与实践,2012,35(4):99-102. 被引量：2
7胡阿沛,张静,张晓宇.基于专利文献的技术演化分析方法评述[J].现代情报,2013,33(10):172-176. 被引量：16
8刘江南,于德介,彭丽,洪义海,卢伟健,杨小娟.基于裁剪法的机构综合专利利用再创新模型[J].湖南大学学报（自然科学版）,2013,40(10):43-51. 被引量：6
9翟东升,张欣琦,张杰.Derwent专利本体设计与构建[J].情报科学,2013,31(12):95-100. 被引量：2
10胡阿沛,张静,雷孝平,张晓宇.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志,2013,32(12):88-92. 被引量：42

同被引文献79

1包昌火.方法论的建设对情报研究工作的重要意义[J].情报理论与实践,1988,11(2):3-6. 被引量：9
2李万立.旅游产业链与中国旅游业竞争力[J].经济师,2005(3):123-124. 被引量：55
3钱军.企业竞争情报分析方法的层次框架[J].图书情报工作,2006,50(11):43-45. 被引量：10
4王沙骋,赵澄谋,姬鹏宏.基于WSR的军事情报分析[J].情报杂志,2007,26(4):22-23. 被引量：15
5刘康,王玉明,杨彬.本体论在机械产品功能建模中的应用[J].中国工程机械学报,2007,5(4):476-480. 被引量：5
6李运景,侯汉清,薛春香,任银铃.可视化同被引分析技术综述[J].图书情报工作,2008,52(11):22-25. 被引量：7
7冷伏海,冯璐.情报研究方法发展现状与趋势[J].图书情报工作,2009,53(2):29-33. 被引量：30
8徐芳.情报分析方法研究进展[J].情报理论与实践,2009,32(8):121-124. 被引量：15
9徐荣华,唐敦兵,朱仁淼,陈旭玲,臧铁钢.基于功能本体的再创新设计策略研究[J].工程设计学报,2009,16(6):395-400. 被引量：12
10黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221

引证文献9

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
2王成新.卵蛋白与鸡蛋质量[J].中国禽业导刊,2000,17(6):12-13.
3王秀红,周曼,金玉成.综合位置和语义权重的专利文本向量表示方法[J].情报理论与实践,2017,40(4):123-127. 被引量：2
4李超,周瑛,周焕,潘玮.大数据环境下情报分析方法与情报分析软件探讨[J].现代情报,2017,37(7):151-158. 被引量：27
5陈晓菁,成思源,杨雪荣,张湘伟.基于功能本体的专利知识功能模型建立[J].广东工业大学学报,2019,36(2):26-30. 被引量：6
6李剑飞,吴红,崔哲,韩盟.产品/技术纵向延伸视域下的高校专利转移对象识别研究——以气凝胶领域为例[J].图书情报工作,2021,65(3):67-74. 被引量：3
7吴红,李剑飞,崔哲,韩盟,张彪,高道斌.基于专利文献的高校专利可转移性特征研究[J].情报杂志,2021,40(9):187-194. 被引量：18
8沙鹤,余军合,邓慧君,施培妤,胡国建.基于图卷积神经网络的专利语义模型构建研究[J].机械制造,2021,59(9):1-8.
9严俊,余军合,徐斌,吴宇.产业集群成员间技术相关性研究——基于专利数据的分析[J].生产力研究,2019,0(8):21-27. 被引量：1

二级引证文献76

1魏太琛,刘敏榕,陈振标.高校专利可转化性与转化金额影响因素对比研究及其对高校专利分级管理的启示[J].知识管理论坛,2023(2):92-103. 被引量：1
2罗翔.基于大数据的网络安全与情报分析研究[J].网络安全技术与应用,2020,0(2):66-67. 被引量：3
3赵相宾,年培新.谈我国变频调速技术的发展及应用[J].电气传动,2000,30(2):3-6. 被引量：73
4柳兆峰,杨奇,霍永华,谢志敏.基于CURE聚类算法的科技情报异常数据检测[J].无线电通信技术,2018,44(6):605-609. 被引量：3
5夏冰,李宝安,吕学强.综合词位置和语义信息的专利文本相似度计算[J].计算机工程与设计,2018,39(10):3087-3091. 被引量：8
6孙敏.2017年我国情报学研究进展[J].山东图书馆学刊,2018(6):13-19. 被引量：2
7陈宇.大数据分析与情报分析关系辨析[J].教育教学论坛,2019(11):48-49.
8袁敬芸,刘春茂.基于可视化的情报学理论发展趋势研究[J].图书馆工作与研究,2019(5):5-13. 被引量：10
9崔竹.全覆盖视角下企业审计大数据应用研究[J].经济研究参考,2019(9):90-96. 被引量：9
10唐晓波,郑杜,谭明亮.融合情报方法论与人工智能技术的企业竞争情报系统模型构建[J].情报科学,2019,37(7):118-124. 被引量：24

1何黎霞.图示法在C语言指针教学方法的应用[J].现代计算机,2010,16(6):83-86.
2陈雨婕.用图示法解析最短路径算法[J].电脑知识与技术（过刊）,2007(24):54-56. 被引量：3
3折楠,徐晓光,陈晓磊,邢亮.基于位图示法的NSFS文件系统设计[J].现代电子技术,2013,36(14):89-92. 被引量：1
4叶玫.利用动态图示法改善《数据结构》的理论教学[J].现代计算机,2010,16(1):75-78. 被引量：2
5李艳红.“图示法”在VB参数传递过程中的应用[J].福建电脑,2013,29(6):196-198.
6刘凤云.Power Macs与Pentium的比较[J].管理观察,1996,0(9):43-44.
7丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
8祝晓鲁,白振兴,贾海燕.自动文本分类技术研究[J].现代电子技术,2007,30(3):121-124. 被引量：6
9张宗郁,张亚平,张静远,张晓君.改进关联规则算法在高校教学管理中的应用[J].计算机工程,2012,38(2):75-77. 被引量：9
10郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13

图书情报工作

2015年第21期

浏览历史

内容加载中请稍等...

运用图示法自动提取中文专利文本的语义信息被引量：9

参考文献3

二级参考文献26

共引文献28

同被引文献79

引证文献9

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

运用图示法自动提取中文专利文本的语义信息 被引量：9

参考文献3

二级参考文献26

共引文献28

同被引文献79

引证文献9

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

运用图示法自动提取中文专利文本的语义信息被引量：9