摘要
针对目前领域概念抽取手工完成的现况,提出了一种基于知网的领域概念抽取和关系分析系统模型.本模型利用知网语义相关性从文本中生成领域语义词典,结合TFIDF算法建立"词-文本文档矩阵",用以代替传统的词形频率统计;通过产生领域语义本体,利用语义相似度对概念进行聚类.讨论了这3个步骤所涉及的算法,包括基于统计模式从文本中抽词,基于奇异值分解从词-文档矩阵中提取概念,基于语义相似度对概念进行聚类等.实验表明,本文提出的抽取方法相对与词频算法具有较高的准确度.
Conceptual option from HowNet is marked by three periods, that is, preparatory dealing of text; conceptual option, and gaining of conceptual relation. This thesis looks into the three periods and relevant calculation, including choosing words from text through a certain statistic model, etc.
出处
《湘潭大学自然科学学报》
CAS
CSCD
北大核心
2009年第1期135-140,共6页
Natural Science Journal of Xiangtan University