期刊文献+

中文词聚类研究 被引量:9

Research on Chinese Word Clustering
下载PDF
导出
摘要 词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仅依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化。实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好。 Word clustering is an important fundamental work of automatic language process. Point to dearth of training data and low quality of training data, which is the main obstacle of Chinese word clustering, a Chinese oriented algorithm is presented in this paper. First, the context similar degree of a word is used as the distance measure of the word; second, the limitation of taking the distance measure only into account is analyzed; then, the concept of Word-Near-Space is put for- ward, which can make word clustering work without allocating the total class number. Finally, according to the class which is the result of clustering,we calculate the context similar degree, and repeat the above steps until the whole algorithm con- verges, so that it is consistent with the EM criteriom Experiments show that the algorithm effectively conquers the two main obstacles of Chinese word clustering, and brings about good clustering results.
出处 《计算机工程与科学》 CSCD 2006年第1期122-124,142,共4页 Computer Engineering & Science
关键词 中文词 聚类 词的临近空间 EM算法 Chinese word clustering Word-Near-Space EM algorithm
  • 相关文献

参考文献7

  • 1Takuya Matsuzaki, Yusuke Miyao, Jun'ichi Tsujii. An Efficient Clustering Algorithm for Class-Based Language Models [A]. Proc of the 7th Conf on Natural Language Learning at HLT-NAACL[C]. 2003. 119-126.
  • 2Li Li, Feng Liu, Wu Chou. An Information Theoretic Approach for Using Word Cluster Information in Natural Language Call Routing[A]. EUROSPEECH 2003 [C]. 2003.2829-2832.
  • 3Peter F Brow, Vincent J Della Pietra, Peter V deSouza, et al.Class-Based n-Gram Models of Natural Language[J]. Computational Linguistics, 1992,18(4) : 467-469.
  • 4Hang Li. Word Clustering and Disambiguation Based on Cooccurrence Data [J]. Natural Language Engineering, 2002,8(1) : 25-42.
  • 5陈浪舟,黄泰翼.一种新颖的词聚类算法和可变长统计语言模型[J].计算机学报,1999,22(9):942-948. 被引量:17
  • 6闻扬,苑春法,黄昌宁.基于搭配对的汉语形容词-名词聚类[J].中文信息学报,2000,14(6):45-50. 被引量:11
  • 7孙茂松,左正平,邹嘉彦.基于k-近似的汉语词类自动判定[J].计算机学报,2000,23(2):166-170. 被引量:9

二级参考文献14

  • 1许伟.句法-语义一体化的汉语句法分析研究[硕士学位论文].北京:清华大学,1997..
  • 2边肇祺.模式识别[M].北京:清华大学出版社,1997..
  • 3白硕,语言学知识的计算机辅助发现,1995年
  • 4陈群秀,计算语言学研究与应用,1994年
  • 5朱德熙,语法讲义,1982年
  • 6陈家鼎,数理统计学讲义,1993年
  • 7边肇祺,模式识别,1988年
  • 8朱德熙,语法答问,1985年
  • 9Li Hang,Clustering Words with the MDL Principle ,cmplg/ 960 50 14,1996年
  • 10姬东鸿,汉语形容词和名词的语义组合模型,1996年

共引文献30

同被引文献52

引证文献9

二级引证文献36

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部