中文词聚类研究被引量：9

Research on Chinese Word Clustering

下载PDF

导出

摘要词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仅依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化。实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好。 Word clustering is an important fundamental work of automatic language process. Point to dearth of training data and low quality of training data, which is the main obstacle of Chinese word clustering, a Chinese oriented algorithm is presented in this paper. First, the context similar degree of a word is used as the distance measure of the word; second, the limitation of taking the distance measure only into account is analyzed; then, the concept of Word-Near-Space is put for- ward, which can make word clustering work without allocating the total class number. Finally, according to the class which is the result of clustering,we calculate the context similar degree, and repeat the above steps until the whole algorithm con- verges, so that it is consistent with the EM criteriom Experiments show that the algorithm effectively conquers the two main obstacles of Chinese word clustering, and brings about good clustering results.

作者胡和平曾庆锐路松峰

机构地区华中科技大学计算机科学与技术学院

出处《计算机工程与科学》 CSCD 2006年第1期122-124,142,共4页 Computer Engineering & Science

关键词中文词词聚类词的临近空间 EM算法 Chinese word clustering Word-Near-Space EM algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Takuya Matsuzaki, Yusuke Miyao, Jun'ichi Tsujii. An Efficient Clustering Algorithm for Class-Based Language Models [A]. Proc of the 7th Conf on Natural Language Learning at HLT-NAACL[C]. 2003. 119-126.
2Li Li, Feng Liu, Wu Chou. An Information Theoretic Approach for Using Word Cluster Information in Natural Language Call Routing[A]. EUROSPEECH 2003 [C]. 2003.2829-2832.
3Peter F Brow, Vincent J Della Pietra, Peter V deSouza, et al.Class-Based n-Gram Models of Natural Language[J]. Computational Linguistics, 1992,18(4) : 467-469.
4Hang Li. Word Clustering and Disambiguation Based on Cooccurrence Data [J]. Natural Language Engineering, 2002,8(1) : 25-42.
5陈浪舟,黄泰翼.一种新颖的词聚类算法和可变长统计语言模型[J].计算机学报,1999,22(9):942-948. 被引量：17
6闻扬,苑春法,黄昌宁.基于搭配对的汉语形容词-名词聚类[J].中文信息学报,2000,14(6):45-50. 被引量：11
7孙茂松,左正平,邹嘉彦.基于k-近似的汉语词类自动判定[J].计算机学报,2000,23(2):166-170. 被引量：9

二级参考文献14

1许伟.句法-语义一体化的汉语句法分析研究[硕士学位论文].北京:清华大学,1997..
2边肇祺.模式识别[M].北京:清华大学出版社,1997..
3白硕，语言学知识的计算机辅助发现，1995年
4陈群秀，计算语言学研究与应用，1994年
5朱德熙，语法讲义，1982年
6陈家鼎，数理统计学讲义，1993年
7边肇祺，模式识别，1988年
8朱德熙，语法答问，1985年
9Li Hang，Clustering Words with the MDL Principle ,cmplg/ 960 50 14，1996年
10姬东鸿，汉语形容词和名词的语义组合模型，1996年

共引文献30

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2陈史政,章权兵.关于词聚类中二元词聚类的一些探讨[J].福建广播电视大学学报,2007(6):76-78.
3郑小慎,何丕廉,陈治纲,任大同,吴克敏.基于凝聚点的文本动态聚类分析[J].微型机与应用,2004,23(8):58-60.
4张辉,薛贵荣.基于文本挖掘的搭配词典自动架构探讨[J].上海工程技术大学学报,2004,18(4):323-326. 被引量：2
5姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
6党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
7王锦,陈群秀.汉语述语形容词机器词典机器学习词聚类研究[J].中文信息学报,2007,21(3):40-46. 被引量：3
8焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
9刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6
10赵军,胡栓柱,樊兴华.一种新的词语相似度计算方法[J].重庆邮电大学学报（自然科学版）,2009,21(4):528-532. 被引量：10

同被引文献52

1杨帆,米红.一种基于网格的空间聚类方法在区域划分中的应用[J].测绘科学,2007,32(z1):66-69. 被引量：11
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
4孙晓山,王强,关毅,王晓龙.一种改进的Wu-Manber多模式匹配算法及应用[J].中文信息学报,2006,20(2):47-52. 被引量：10
5吕晓华,贾宇波,孙麒.一种基于多层模糊模式的频繁项集剪枝算法的优化[J].浙江理工大学学报（自然科学版）,2006,23(1):50-55. 被引量：3
6周霆,张伟,张泽洪.基于关联规则的映射聚类算法[J].微电子学与计算机,2006,23(3):26-29. 被引量：9
7刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
8董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
9梅翔,孟祥武,陈俊亮,徐萌.一种基于语义关联的查询优化方法[J].北京邮电大学学报,2006,29(6):107-110. 被引量：10
10何燕,穗志方,段慧明,李素建.基于专业术语词典的自动领域本体构造[J].情报学报,2007,26(1):65-70. 被引量：13

引证文献9

1潘伟,郑刚.基于聚类模式的多数据源匹配的实现[J].计算机技术与发展,2007,17(1):76-78.
2冯扬,罗森林,潘丽敏,刘莉莉,陈开江.基于概念簇的文本向量构建方法[J].通信学报,2010,31(S1):44-47. 被引量：2
3赵军,胡栓柱,樊兴华.一种新的词语相似度计算方法[J].重庆邮电大学学报（自然科学版）,2009,21(4):528-532. 被引量：10
4沈筱彦,陈俊亮,孟祥武,张玉洁,张磊.可并行中文同主题词聚类新算法[J].北京邮电大学学报,2009,32(4):122-127. 被引量：2
5杨化斌,孙俊.基于聚类分析的跳频序列选取[J].计算机工程与应用,2009,45(27):113-114. 被引量：2
6彭学仕,孙春华.面向倾向性分析的基于词聚类的基准词选择方法[J].计算机应用研究,2011,28(1):114-116. 被引量：7
7顾思远,尹廷辉,岳振军.基于软聚类的模糊类语言模型[J].军事通信技术,2015,36(1):5-11. 被引量：1
8YUAN Lichi.A New Word Clustering Algorithm Based on Word Similarity[J].Chinese Journal of Electronics,2017,26(6):1221-1226. 被引量：2
9朱东华,万冬,汪雪锋,黄颖,张娇,廖青云,乔亚丽.科学基金资助主题的演化路径分析与预测——以科技管理与政策学科为例[J].北京理工大学学报（社会科学版）,2018,20(2):51-57. 被引量：10

二级引证文献36

1薛志远,张清华.复合粒计算模型研究进展[J].重庆邮电大学学报（自然科学版）,2010,22(5):631-640. 被引量：3
2冉婕,孙瑜.语义检索中的词语相似度计算研究[J].计算机技术与发展,2011,21(4):94-97. 被引量：8
3谢刚,刘静.粒计算研究现状及展望[J].软件,2011,32(3):5-10. 被引量：4
4王娟,孙爱莉,王海雄,蒋永新.图情学主题词表分类体系评价[J].情报资料工作,2011,32(4):54-57.
5张清亮,徐健.网络情感词自动识别方法研究[J].现代图书情报技术,2011(10):24-28. 被引量：12
6杨迎辉,李建华,王刚,张磊.异步组网跳频序列选择问题建模与优化[J].空军工程大学学报（自然科学版）,2011,12(6):65-68. 被引量：1
7孟海东,刘小荣.基于聚类分析的图模型文档分类[J].计算机应用与软件,2012,29(1):171-174. 被引量：1
8吴旭东,成卫青,黄卫东.改进的主客观结合的词语语义相似度算法[J].计算机技术与发展,2012,22(9):45-49. 被引量：1
9王颖,都云程,卢献华,吕学强.基于专利搜索日志的同义词挖掘[J].计算机工程与设计,2013,34(3):1029-1033. 被引量：1
10高毫林,徐旭,李弼程.近似最近邻搜索算法——位置敏感哈希[J].信息工程大学学报,2013,14(3):332-340. 被引量：8

1史金成,程转流.基于混合聚类的中文词聚类[J].微计算机信息,2010,26(15):222-223. 被引量：4
2周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
3王永成,苏海菊,莫燕.中文词的自动办理[J].中文信息学报,1990,4(4):1-11. 被引量：13
4胡莉.中文“词”的语言模型识别研究方法综述[J].北方文学（下）,2011(3):90-90.
5黄婕.基于Hadoop平台的HITS算法[J].计算机系统应用,2014,23(3):142-148. 被引量：1
6沈筱彦,陈俊亮,孟祥武,张玉洁,张磊.可并行中文同主题词聚类新算法[J].北京邮电大学学报,2009,32(4):122-127. 被引量：2
7焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
8冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：50
9探秘Word XP翻译功能[J].电脑采购,2002,0(6):23-23.
10马震安.吃金币记单词游戏课件巧制作[J].电脑爱好者,2016,0(9):54-55.

计算机工程与科学

2006年第1期

浏览历史

内容加载中请稍等...

中文词聚类研究被引量：9

参考文献7

二级参考文献14

共引文献30

同被引文献52

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

中文词聚类研究 被引量：9

参考文献7

二级参考文献14

共引文献30

同被引文献52

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

中文词聚类研究被引量：9