期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
德温特专利信息清洗与标注模型研究 被引量:7
1
作者 翟东升 李倩 +2 位作者 张杰 黄鲁成 赵京 《情报杂志》 CSSCI 北大核心 2013年第8期150-154,203,共6页
专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容... 专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。 展开更多
关键词 德温特专利数据库(dii) 专利信息 数据清洗 抽取策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部