-
题名一种适用于复合术语的本体概念学习方法
被引量:10
- 1
-
-
作者
李江华
时鹏
胡长军
-
机构
北京科技大学国家材料服役安全科学中心
江西理工大学信息工程学院
北京科技大学计算机与通信工程学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第5期168-172,共5页
-
基金
国家"十二五"科技支撑计划项目(2011BAK08B04)
中央高校基本科研业务费专项资金资助项目(FRF-TP-12-162A)
江西省教育厅科技项目(GJJ12345)资助
-
文摘
术语的提取显然在本体概念学习中起着重要作用,由于汉语文本中词与词之间没有明显的界限,使得领域术语特别是复合术语的提取尤为困难。针对传统提取方法缺乏语义支持、计算量大、准确率低等不足,提出了一种适用于复合术语提取的本体概念学习方法。首先利用自然语言处理技术过滤掉与术语无关的成分,对语句进行自然切割,为领域术语提取提供完整的候选数据集,以保证候选领域复合术语不被误分。在此基础上,根据术语的领域统计和分布特征,利用术语频率和信息熵进行多策略的领域术语筛选,经同义术语识别与合并,获得领域概念集。经实验验证,提出的方法能够以较高的准确率从领域文本中提取出领域单词术语和复合术语。
-
关键词
术语提取
术语筛选
复合术语
本体概念学习
-
Keywords
Term extraction
Term filtering
Compound terms
Ontology concept learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-