期刊文献+

计算大规模语料中四字词串互信息的算法设计

The Algorithm Design and Realization to Calculate The Mutual Information of Four-Word-String in Large Scale Corpus
下载PDF
导出
摘要 中文信息处理中 ,判断哪些词串该入选《分词词表》一直是一个难题。互信息作为一种衡量手段 ,在一定程度上体现了词串的各组成部分之间结合的紧密程度 ,以北京大学 1998年 1月《人民日报》标注语料为试验料 ,通过互信息的计算分析四字词串成词的可能性 。 During Chinese information processing,judging which word strings should be in participle list is always a difficult problem.Mutual information is a judgement measure and it reflects the compactness of different parts of strings.This paper analyses the possibility of making four-word-string into words based on the corpus of China Daily in Jan.1998 of Beijing University and provides foundation for determining whether the strings can be in list.
作者 方莹 杨尔弘
机构地区 山西大学
出处 《电脑开发与应用》 2005年第1期2-3,6,共3页 Computer Development & Applications
基金 国家 973项目 (G19980 30 5 0 1A- 0 4 )资助
关键词 互信息 大规模 算法设计 中文信息处理 词表 语料 分词 《人民日报》 北京大学 难题 mutual information,corpus,algorithm design,word list,word frequency,participle,four-word string,centering structure
  • 相关文献

参考文献4

  • 1孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报 信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量:24
  • 2刘开瑛.中文文本的自动分词和标注[M].北京,商务印书馆,1998..
  • 3国家技术监督局.中华人民共和国标准GB/T13715—92信息处理用现代汉语分词规范[M].北京:中国标准出版社,1993..
  • 4郭志力.使用互信息辅助在篇章范围内识别命名实体[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003.79-84.

二级参考文献3

共引文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部