摘要
专利摘要是重要的情报分析数据来源,但其自然语言文本的特征,使得专利摘要的自动内容抽取具有较大难度。文章利用亚洲语言信息检索测评会议(NACSIS Test Collections for IR, NTCIR,)提供的英文专利文摘测试语料,采用文本信息抽取统计方法中的条件随机场模型,通过提取并添加有效的特征,有针对性地抽取专利摘要中表示技术和功效内容的信息,为专利的技术功效矩阵分析提供可机器自动抽取的强大支持。
Patent summary is an important data source of inteUigence analysis. However, the characteristics of natural language text make automatic content extraction more difficult. In this paper, we use the testing data provided by NTCIR-8 and the conditional random fields model which is one of the information extraction statistical methods, by extracting and adding effective features, we extract the technology and efficacy information, to provide the machine automatical extraction for technical and efficiency matrix analysis of patent.
出处
《数字图书馆论坛》
2010年第9期7-12,共6页
Digital Library Forum
基金
本文得到国家科技部“十一五”科技支撑计划(项目编号:2006BAH03B05)、中国科学技术信息研究所重点工作项目(项目编号:2009KP01-7-1)、中国科学技术信息研究所2009年度预研基金项目(项目编号:YY-200906)等项目的资助.