融合表示学习与机器学习的专利科学引文标题自动抽取研究被引量：1

Extracting Titles from Scientific References in Patents with Fusion of Representation Learning and Machine Learning

导出

摘要【目的】针对专利引文类别繁多的问题,研究自动识别其中专利科学引文这一特定类别的方法,进而准确抽取专利科学引文的标题特征项,支撑后续专利科学引文深度分析与挖掘。【方法】引入表示学习方法 Doc2Vec实现专利科学引文整体的语义向量表示,结合机器学习分类方法实现专利科学引文这一特定类别的识别;在此基础上,利用表示学习方法实现专利科学引文标题等内容元数据的语义向量表示,结合机器学习分类方法抽取专利科学引文标题。【结果】在基因领域专利的实验中,专利科学引文的识别精确率达到99.27%,专利科学引文标题抽取精确率达到92.59%,抽取精确率较单纯的机器学习方法提高5.96%。【局限】人工标注训练集较为耗时;对实验数据格式有一定要求。【结论】本文方法在专利科学引文识别和标题抽取上具有良好效果。 [Objective] This paper aims to automatically identify scientific references in patent(SRP), and then extract titles from SRP to support in-depth data mining.[Methods] Firstly, we used the Doc2Vec method to generate vectors for the patent citations. Then, we identified the SRPs with support vector machine(SVM). Third, we created vectors for the metadata(such as titles) of SRP, and extracted titles with SVM.[Results] We examined the proposed method with patent citations from the genetic field. The accuracy of SRP recognition and titles extraction reached 99.27% and 92.59% respectively. The latter was 5.96% higher than those of the traditional methods.[Limitations] Manually tagging the training set was very time consuming, and there are format requirements for the experimental data.[Conclusions] The proposed method could effectively identify and extract patent citations and titles.

作者张金柱胡一鸣 Zhang Jinzhu;Hu Yiming(School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China)

机构地区南京理工大学经济管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第5期68-76,共9页 Data Analysis and Knowledge Discovery

基金国家自然科学基金青年项目“基于被引科学知识突变的突破性创新动态识别及其形成机理研究”(项目编号:71503125) 国家重点研发计划子课题“知识产权大数据挖掘技术、智能推送技术及应用示范”(项目编号:2017YFB1401903) 江苏省社会科学基金青年项目“基于社团结构动态演化的主题突变监测与形成机制研究”(项目编号:17TQC003) 中央高校基本科研业务费专项资金“基于表示学习的专利科学引文元数据抽取研究”(项目编号:30918013108)的研究成果之一

关键词专利科学引文元数据抽取机器学习表示学习 Scientific References in Patent Metadata Extraction Machine Learning Representation Learning

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献6

1姜霖,王东波.引文元数据的自动发现和标注方法研究——以外文引文为例[J].数据分析与知识发现,2017,1(1):47-54. 被引量：3
2高霞,官建成.非专利引文衍生的科学期刊共被引网络分析[J].科学学研究,2010,28(5):675-680. 被引量：10
3钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8):129-132. 被引量：9
4杨宇,张铭,周宝曜.基于多种规则的课程元数据自动抽取[J].计算机科学,2008,35(3):94-96. 被引量：7
5张铭,银平,邓志鸿,杨冬青.SVM+BiHMM:基于统计方法的元数据抽取混合模型[J].软件学报,2008,19(2):358-368. 被引量：27
6蒋新.英美学术文献的几种主要引文方式[J].图书与情报,2003(3):26-30. 被引量：8

二级参考文献61

1屠彤辉.期刊论文的元数据描述探析[J].上海高校图书情报工作研究,2006,16(4):30-34. 被引量：3
2李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5
3Rip A. Science and technology as dancing partners [ A]. Kroes P, Bakker M. Technology Development and Science in the Industrial Age [ C ]. Kluwer Academic Publishers, 1992. 231 -270.
4路甬祥.全面认识科学技术的价值及时代特征.新华文摘,2005,22:118-120.
5Bhattacharya S, Meyer M. Large firms and the science -technology interface patents, patent citations, and scientific output of multinational corporations in thin films [J]. Scientometrics, 2003, 58(2): 265-279.
6Meyer M. Measuring science - technology interaction in the knowledge - driven economy: the case of a small economy [ J]. Scientometrics, 2006, 66 (2): 425- 439.
7Godin B. The Relationship between Science and Technology: a Bibliometric Analysis of Papers and Patents in Innovative Firms [D]. unpublished D. Phil. thesis. University of Sussex, 1993.
8Godin B. Research and the practice of publication in industries [ J]. Research Policy, 1995, 25 : 587 - 606.
9Van Looy B, Debackere K, Callaert J, et al. Scientific capabilities and technological performance of national innovation systems: an exploration of emerging industrial relevant[ J]. Scientometrics, 2006, 66 (2): 295- 310.
10Glanzel W, Meyer M. Patents cited in the scientific literature: an exploratory study of 'reverse' citation relations [J]. Scientometrics, 2003, 58 (2) : 415 -428.

共引文献56

1郑继明,李瑞仙,蒲兴成.基于单状态HMM的音频分类方法研究[J].计算机应用,2009,29(2):392-394.
2李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
3张靖安.中外注释与参考文献标引规范实证分析[J].图书馆工作与研究,2006(2):73-75. 被引量：9
4李书明,陈云红.基于元数据的数字教育资源共享研究[J].中国电化教育,2009(2):106-108. 被引量：9
5陈磊,韩新阳,温超,董力通.电力需求侧管理信息数据采集系统的开发与设计[J].电力信息化,2009,7(5):82-85. 被引量：1
6周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
7陈淑平,梁东魁.基于特征分析的数字化期刊元数据自动抽取算法[J].情报杂志,2010,29(3):143-146. 被引量：1
8党德鹏,孟真.基于支持向量机的信息安全风险评估[J].华中科技大学学报（自然科学版）,2010,38(3):46-49. 被引量：36
9欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69. 被引量：3
10欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6

同被引文献21

1化柏林.国内外知识抽取研究进展综述[J].情报杂志,2008,27(2):60-62. 被引量：13
2丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14. 被引量：30
3高继平,丁堃,潘云涛,袁军鹏.知识元研究述评[J].情报理论与实践,2015,38(7):134-138. 被引量：20
4翟劼,裘江南.基于规则的知识元属性抽取方法研究[J].情报科学,2016,34(4):43-47. 被引量：13
5贺惠新,刘丽娟.主动学习的科技文献研究对象标引体系研究[J].现代图书情报技术,2016(3):67-73. 被引量：1
6朱玲,朱彦,杨峰.基于中医疾病相关语义关系的正则表达式及知识抽取研究[J].世界科学技术-中医药现代化,2016,18(8):1241-1250. 被引量：12
7冯青文.知识抽取国内研究现状分析[J].常州信息职业技术学院学报,2017,16(2):32-36. 被引量：2
8仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：13
9王斌,郭剑毅,线岩团,王红斌,余正涛.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32(2):133-143. 被引量：11
10张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报（自然科学版）,2019,21(3):69-72. 被引量：8

引证文献1

1柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11

二级引证文献11

1徐绪堪,薛梦瑶,钱进.基于知识元语义描述模型的红色文化数字资源知识抽取研究[J].科技情报研究,2022,4(1):23-33. 被引量：9
2熊回香,叶佳鑫.面向科技文献检索的关键词层次结构构建[J].情报理论与实践,2022,45(9):157-163. 被引量：3
3任亮,杜薇薇,刘伟利.面向科技文献知识元的知识图谱构建研究[J].情报科学,2022,40(9):26-31. 被引量：7
4沈雪莹,欧石燕.科学文献知识单元抽取及应用研究:梳理与展望[J].情报理论与实践,2022,45(12):195-207. 被引量：8
5邹洋杰,李秀霞,王晓璎.基于知识元抽取的不同学科领域研究方法交流态势分析——以情报学与计算机科学学为例[J].情报杂志,2023,42(7):154-160. 被引量：3
6唐晓波,吴海婷,吴佳琳.基于特征知识元的专利语义引用识别方法研究——以量子计算领域为例[J].情报理论与实践,2023,46(10):86-95. 被引量：3
7赵冠壹,韩松花.科技文献的多粒度知识组织研究[J].情报科学,2023,41(8):134-138. 被引量：3
8徐雷,张亚菲,叶均玲.科技文献创新内容的识别、组织与应用进展[J].情报学报,2024,43(2):237-250.
9唐晓波,陈俭静,周禾深,杜鑫.基于知识元的科学-技术知识关联指标与测度方法研究[J].数字图书馆论坛,2024,20(2):58-69.
10王金凤,阎竞博,冯立杰,李康,林国义.知识元视域的技术元抽取及技术机会识别[J].情报杂志,2024,43(4):96-105.

1何军莉.视频元数据抽取应用于个性化IPTV的研究[J].电脑知识与技术（过刊）,2017,23(6X):190-191.
2徐丽芳,曹羽凤.Kadaxis:图书内容元数据自动生成技术的领跑者[J].出版参考,2018(6):17-20. 被引量：3
3任登国.乌鲁木齐国产一、二次雷达数据格式[J].科技创新与应用,2019,0(24):61-63. 被引量：1
4杨鹏.国家标准《统一内容标签格式规范》介绍[J].中国传媒科技,2018(2):14-15.
5郭浩,许伟,卢凯,唐球.基于CNN和BiLSTM的短文本相似度计算方法[J].信息技术与网络安全,2019,38(6):61-64. 被引量：15
6李辰.通过深度相关性查询实现新闻事件挖掘[J].信息技术,2019,43(5):93-96.
7刘云丰,廖盈庭,刘书博.基于Python的Asterix Cat 021数据格式解析分析与实现[J].科技与创新,2019,0(14):46-47. 被引量：4
8夏培淞,杜兆宏.多维属性数据的循环检索模式仿真[J].计算机仿真,2019,36(7):441-444.
9李立成,金翠霞,徐明一,李逸.基于XBRL的财务业务一体化模式构建[J].会计之友,2019,0(15):34-38. 被引量：12
10陈瑛,陈昂轩,董玉博,赵筱钰,侯文俊.基于LSTM的食品安全自动问答系统方法研究[J].农业机械学报,2019,50(B07):380-384. 被引量：11

数据分析与知识发现

2019年第5期

浏览历史

内容加载中请稍等...

融合表示学习与机器学习的专利科学引文标题自动抽取研究被引量：1

参考文献6

二级参考文献61

共引文献56

同被引文献21

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

融合表示学习与机器学习的专利科学引文标题自动抽取研究 被引量：1

参考文献6

二级参考文献61

共引文献56

同被引文献21

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

融合表示学习与机器学习的专利科学引文标题自动抽取研究被引量：1