摘要
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。
English-Chinese bilingual doucment clustering is a valuale research. Based on monolingual al- gorithm, the paper makes an comparative study about monolingual-based clustering and mixed lan- guage-based method clustering by using the corpus of English-Chinese bilingual news document,. Ac cording to the experimental result, it shows that mixed language-based method can make a better perfor- mance.
出处
《情报科学》
CSSCI
北大核心
2013年第1期118-122,共5页
Information Science
基金
教育部人文社会科学重点研究基地重大项目(08JJD870225)
2011年南京大学研究生科研创新基金资助项目(2011CW12)
关键词
双语聚类
多语聚类
混合策略方法
bilingual clustering
muhilingual clustering
mixed strategy