期刊文献+

基于大规模语料库的汉语词义相似度计算方法 被引量:25

Chinese Lexical Semantic Similarity Computing Based on Large-scale Corpus
下载PDF
导出
摘要 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 Automatic acquisition of similar words is one of the most crucial problems in natural language processing tasks, e.g. the query extension in information retrieval, pattern identification in machine translation, parser analysis and WSD. This paper focuses on Chinese semantic similarity computing based on large corpus, investigating the computation of context feature weight, the vector similarity measures, the window context vs. the dependency con text, and the newspaper corpus vs. web corpus. Our experiments show that, in the web corpus, using windowbased context combined with PMI weights function, the cosine measures gets the best semantic similarity results.
出处 《中文信息学报》 CSCD 北大核心 2013年第1期1-6,80,共7页 Journal of Chinese Information Processing
基金 国家863项目(No.2012AA011101) 国家自然科学基金(61103089) 网络文化与数字传播北京市重点实验定开放课题(ICDD301202)
关键词 词义相似度 上下文特征 权值选择 依存关系 semantic similarity context weight function dependency relation
  • 相关文献

参考文献13

  • 1刘群;李素建.基于《知网》的词汇语义相似度的计算[A]台湾台北,2002.
  • 2张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量:36
  • 3刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量:34
  • 4Agirre E,Alfonseca E,Hall K. A study on similarity and relatedness using distributional and WordNet-based approaches[A].2009.19-27.
  • 5Harris Z. Mathematical structures of language[D].Wiley,New Jersey,1968.
  • 6Lin D. Automatic Retrieval and Clustering of Similar Words[A].
  • 7Curran J. Ensemble methods for automatic thesaurus extraction[A].
  • 8Weeds J,Weir D,McCarthy D. Characterizing measures of lexical distributional similarity[A].
  • 9Hagiwara M,Ogawa Y,Toyama K. Selection of effective contextual information for automatic synonym acquisition[A].2006.353-360.
  • 10Geffet M,Dagan I. Bootstrapping distributional feature vector quality[J].Computational Linguistics,2009,(03):435-461.

二级参考文献17

共引文献61

同被引文献253

引证文献25

二级引证文献176

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部