摘要
术语归类研究对领域本体构建与特定领域词表扩展有十分重要的意义。该文针对中国知网概念知识元库中存在的术语归类错误问题,研究如何提高术语归类正确率。经分析发现术语具有释义文本短、所包含的能够区分术语类别的特征词较少的特点。该文提出一种基于释义扩展的术语归类方法,该方法引入了释义扩展思想,以搜索引擎为工具,获取术语相关的互联网知识,抽取查询结果的锚文本和摘要文本等内容扩展术语释义文本;采用向量距离算法计算术语释义文本特征向量与类中心向量之间的距离,实现对术语的归类。实验得到的术语归类总体正确率为73.32%,与未经释义扩展得到的术语归类正确率相比,提高了近10%。实验结果表明,该方法对提高术语归类正确率是有效的。
Term categorization plays an important role in domain ontology construction and domain vocabulary collection.To deal with the misclassified terms in the conceptual knowledge element library of CNKI,this paper proposes aparaphrase-expanded method to categorize terms.This approach introduces the idea of paraphrase expansion as well as the term-related knowledge obtained via web search to reconstruct the term vectors.The final cauterization is decided by the vector distance between a term vector and the class central vectors.The overall precision reaches73.32%,indicating nearly 10% relative improvement compared with the original method without expansion.
出处
《中文信息学报》
CSCD
北大核心
2016年第1期204-209,共6页
Journal of Chinese Information Processing
基金
国家自然科学基金(61171159
61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
国家科技支撑计划课题(2011BAH11B03)
关键词
术语归类
释义扩展
向量距离
类中心向量
term categorization
paraphrase expansion
vector distance
class central vector