-
题名基于义原同现频率的汉语词义排歧方法
被引量:26
- 1
-
-
作者
杨尔弘
张国清
张永奎
-
机构
山西大学计算机科学系
上海师范大学计算中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第7期833-838,共6页
-
基金
山西省青年基金项目 (2 0 0 0 10 17)
山西省自然科学基金项目 (9910 35 )资助
-
文摘
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。
-
关键词
自然语言处理
知网
义原同现频率
汉语词义排歧
语料库
-
Keywords
natural language processing, word sense disambiguation, Hownet, primitive co occurrence data
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-