摘要
本文针对当前专利数据预处理中存在的处理效率低、耗费资源量大、处理准确度不高的问题,结合数据挖掘中预处理技术,以欧洲专利局文献管理数据库(DOCDB)专利数据为例,设计并实现了DOCDB专利数据的预处理系统。该系统能够对DOCDB专利数据文件的结构进行解析,提取相关的专利信息,并将处理后的数据存入数据库中。实验结果表明,该系统能够高效处理专利数据,有力的提高了专利预处理的自动化水平。
In order to improve efficiency and accuracy of patent information preprocessing,according to data preprocessing methods of data mining theory,we designed and develop Patent Information Preprocessing System to preprocessing DOCDB information(Patent bibliographic information in XML format from European Patents Organization).It can parse DOCDB information,extract and reorganize important patent attributes,and load processed patent information into database system.The experimental results show that our Patent Information Preprocessing System is efficient.
出处
《情报科学》
CSSCI
北大核心
2011年第12期1851-1855,共5页
Information Science
基金
科技部重大专项基金项目(2009FY240100)