-
题名WWW中文信息自动分类方法研究
被引量:9
- 1
-
-
作者
郑家恒
宋文中
-
机构
山西大学计算机科学系
-
出处
《情报学报》
CSSCI
北大核心
2002年第5期532-536,共5页
-
文摘
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
-
关键词
类别权值
可信度
WWW
中文信息
自动分类
文本自动分类
类别词
-
Keywords
WWW,Chinese information automatic categorization,text automatic categorization,category-word.
-
分类号
G254.1
[文化科学—图书馆学]
-