-
题名基于字频向量的中文文本自动分类系统
被引量:17
- 1
-
-
作者
王梦云
曹素青
-
机构
山西大学成人教育学院
-
出处
《情报学报》
CSSCI
北大核心
2000年第6期644-649,共6页
-
文摘
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。
-
关键词
文本分类
中文
自动分类
字频向量
映射函数
语料库
汉字
-
分类号
G254
[文化科学—图书馆学]
-
-
题名基于字频相似度的《红楼梦》作者辨析
- 2
-
-
作者
王宇琦
王晓刚
-
机构
上海大学文学院
扬州职业大学
-
出处
《扬州职业大学学报》
2022年第3期27-31,43,共6页
-
文摘
基于《红楼梦》文本,统计120回每一章回的单字字频数据形成字频向量作为每一回的特征向量,并推算它们之间的余弦相似系数,进而推算前80回之间、后40回之间、以及前80回与后40回交叉的相似系数平均水平,并分别用t检验与Wilcoxon秩和检验两种假设检验方法,考察三者之间差异的显著性水平,结果表明,如果认可前80回为曹雪芹一人所著,那么更有理由认为后40回也出自一人之手;前80回与后40回来自两位不同的著者,同时不排除前80回有后人增补的痕迹,后40回有曹雪芹遗留的残稿,差异均具有极其显著性水平。
-
关键词
《红楼梦》作者
字频向量
余弦相似系数
T检验
Wilcoxon秩和检验
-
Keywords
the author(s)of A Dream of Red Mansions
character frequency vector
cosine similarity coefficient
T-test
Wilcoxon rank sum test
-
分类号
I207.411
[文学—中国文学]
-
-
题名一个中文文本自动分类数学模型
被引量:18
- 3
-
-
作者
曹素青
曾伏虎
曹焕光
-
机构
山西大学
-
出处
《情报学报》
CSSCI
北大核心
1999年第1期27-32,共6页
-
文摘
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
-
关键词
中文文本
自动分类
字频向量
映射函数
-
Keywords
automatic Chinese text categorization,Chinese character frequency vector,example based mapping method.
-
分类号
G254.1
[文化科学—图书馆学]
-
-
题名电子邮件过滤新方法的研究与实现
被引量:1
- 4
-
-
作者
谭汉松
杨盛
-
机构
中南大学信息科学与工程学院
-
出处
《微机发展》
2005年第5期152-154,共3页
-
文摘
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害。传统的邮件过滤方法的过滤精度较低,不能很好满足需要。文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的。
-
关键词
邮件过滤
文本分类
向量空间模型
字频向量
-
Keywords
E-mail filter
text classify
vector space model
word frequency vector
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
-