摘要
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。
This paper uses a new algorithm of segmentating Chinese document, which doesn't rely on a lexicon, grammar, word-formation heuristics or pre-segmented data. Then it applies FCA (Fuzzy Clustering Algorithm) to Chinese document clustering. FCA is superior to other ordinary clustering algorithm and the result can embody the wide diversity and large amount of Chinese document.
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第4期15-16,33,共3页
Computer Engineering
基金
国家自然科学基金项目(69975024)
国家自然科学基金重点项目(69931040)
关键词
汉语文本聚类
模糊聚类算法
汉字信息处理
计算机
模糊C-原型算法
Document cluster
Word segmentation
Fuzzy c-archetype algorithm
Non-Euclidean relational data
CompetitiveaggIomeration aIgorithm