专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容...专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。展开更多
DWPI(Derwent World Patent Index)数据库是汤姆森科技(Thomson Scientific)公司生产的世界上首屈一指的专利信息资源,主要用于技术预警与分析,竞争性情报、现有技术和可专利性的检索,以及专利侵权和无效检索。截止到2007年6月...DWPI(Derwent World Patent Index)数据库是汤姆森科技(Thomson Scientific)公司生产的世界上首屈一指的专利信息资源,主要用于技术预警与分析,竞争性情报、现有技术和可专利性的检索,以及专利侵权和无效检索。截止到2007年6月,数据库共包括约1550万条记录,涵盖约3307万件专利文件。DWPI数据库的一条记录究竟是怎样制作的呢?本文旨在概括地介绍汤姆森科技的专利分析师在生产DWPI过程中所做的工作,展开更多
文摘专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。
文摘DWPI(Derwent World Patent Index)数据库是汤姆森科技(Thomson Scientific)公司生产的世界上首屈一指的专利信息资源,主要用于技术预警与分析,竞争性情报、现有技术和可专利性的检索,以及专利侵权和无效检索。截止到2007年6月,数据库共包括约1550万条记录,涵盖约3307万件专利文件。DWPI数据库的一条记录究竟是怎样制作的呢?本文旨在概括地介绍汤姆森科技的专利分析师在生产DWPI过程中所做的工作,