期刊文献+

德温特专利信息清洗与标注模型研究 被引量:7

The Research of ETL and Annotation Model Construction of Derwent Patent Information
下载PDF
导出
摘要 专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。 The quality and processing efficiency of patent datasets is the basis of patent analysis and knowledge discovery. At the aim of constructing a processing model for the generation of patent datasets with high equality, our research is based on the platform of SQL Server BI, we develop the information cleaning ( ETL ) and annotating model for Derwent patent information ( DII). We use patent information with text form as the data source, after extracting the content of every field, construct different information cleaning strategy based on func- tion expressions, regular expressions and cycle roles to deal with the unique problems of different fields annotate the data which has been cleaned with SQL for the transformation of the rational data to the semantic data. The experiment shows that our model can give a good re- sult for cleaning, annotating and normally storing of the patent information.
出处 《情报杂志》 CSSCI 北大核心 2013年第8期150-154,203,共6页 Journal of Intelligence
基金 国家科技支撑计划项目"面向企业创新应用链的知识管理体系建设与集成应用示范"(编号:2012BAH34F00) 国家社会科学基金重大项目"新兴技术未来分析理论方法与产业创新研究"(编号:11&ZD140) 北京市自然科学基础资助项目"中文专利侵权检测与分析理论方法及关键技术研究"(编号:9132005)的研究成果之一
关键词 德温特专利数据库(DII) 专利信息 数据清洗 抽取策略 DII patent information data cleaning{ ETL} extracting strategy
  • 相关文献

参考文献4

二级参考文献9

共引文献8

同被引文献82

引证文献7

二级引证文献35

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部