摘要
术语是通过语言或文字来表达所限定专业概念的约定性语言符号,其集中体现和负载了一个学科领域的核心知识。中文专利辅助阅读是基于术语自动抽取(AutomaticTermExtraction:ATE)的一项应用型项目。也是自然语言处理的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域有着广泛的应用。本文研究用基于CRF工具包自动抽取术语问题,通过对抽取出的术语文档进行处理,获得一个标注好的术语文档,及其实现过程中涉及到基于中文分词处理的一系列算法以及数据结构等问题进行剖析,有效提高了中文专利阅读的效率及准确性。
出处
《科技风》
2012年第21期198-198,共1页