基于字频向量的中文文本自动分类系统被引量：17

下载PDF

导出

摘要本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。

作者王梦云曹素青

机构地区山西大学成人教育学院

出处《情报学报》 CSSCI 北大核心 2000年第6期644-649,共6页 Journal of the China Society for Scientific and Technical Information

关键词文本分类中文自动分类字频向量映射函数语料库汉字

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献2

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18

二级参考文献15

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
3叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
4吴军，第三届全国人机语音通信学术会议，1994年
5刘开瑛，第二届全国计算语言学联合学术会议论文集，1993年
6王永成，第二届全国计算语言学联合学术会议论文集，1993年
7苑春法，第二届全国计算语言学联合学术会议论文集，1993年
8施水才，1993年
9郭进，第一届全国计算语言学联系学术会议，1991年
10廉庆荣（译），矩阵计算，1983年

共引文献39

1成奋华,吴家强.数字图书馆中基于向量空间模型的文档分类系统[J].情报杂志,2004,23(7):9-11.
2高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
3丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.
4许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
5刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
6刘伟权,钟义信.自然语言处理与全文情报检索[J].情报理论与实践,1997,20(1):43-46. 被引量：15
7赵恺捷,李振华.基于汉语多类文本分类的机关公文智能办理系统[J].齐齐哈尔大学学报（自然科学版）,2008,24(5):54-57.
8黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
9廉清.数学模型方法在图书馆学情报学中的应用研究[J].情报探索,2009(12):8-11. 被引量：3
10鞠小林,陈继红,邵浩然.基于向量空间模型的分层网页分类方法[J].南通大学学报（自然科学版）,2010,9(1):24-29.

同被引文献140

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
5廉洁.词汇短语对第二语言习得的作用[J].外语界,2001(4):29-34. 被引量：127
6李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
7胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
8郭崇慧,孙建涛,陆玉昌.广义支持向量机优化问题的极大熵方法[J].系统工程理论与实践,2005,25(6):27-32. 被引量：11
9王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10
10代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13

引证文献17

1施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
2胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
3刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
4刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
5刘新,刘任任.一种基于逆向匹配算法的中文文本分类技术[J].计算机应用,2008,28(4):945-947. 被引量：3
6刘新,刘任任.一种基于主题词表的快速中文文本分类技术[J].情报学报,2008,27(3):323-327. 被引量：1
7李玉鑑,周兰珍,操卫平.基于DF和CHI的联合特征提取方法及其应用[J].北京工业大学学报,2008,34(9):995-1000. 被引量：9
8田东风,欧飞,申维.矩阵奇异值分解理论在中文文本分类中的应用[J].数学的实践与认识,2008,38(24):132-140. 被引量：1
9崔彩霞.基于字特征的短信分类方法研究[J].太原师范学院学报（自然科学版）,2011,10(1):103-105. 被引量：2
10杨贺,杨奕虹,李宁.关键词-分类号关联词表构建[J].现代图书情报技术,2013(7):107-113. 被引量：6

二级引证文献271

1谷雷,杨青,王大志.概率神经网络在化工过程故障检测中的应用[J].控制工程,2008,15(S1):128-130. 被引量：8
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
8常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
9翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
10张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7

1曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18
2吴波.网络环境下文本自动分类方法研究综述[J].鸡西大学学报（综合版）,2009,9(5):151-152.
3霍敏,韩锋,杨懿菲,李碧清,薛涛,程志臻.基于实例的网络环境下信息资源建设方法初探[J].图书情报工作,2013,57(S1):55-57. 被引量：1
4王兴兰,宋文.基于知识组织体系的自动分类研究[J].图书馆论坛,2013,33(6):8-13. 被引量：3
5苏东海.博物馆，博物馆学：警惕技术主义[J].中国博物馆,2008(3):3-4. 被引量：9
6贺玢,李晨英.基于实例的特色库建设比较研究[J].农业图书情报学刊,2008,20(2):26-28. 被引量：3
7刘凤娟.Folksonomy的主要特性及其利用研究[J].情报探索,2011(9):12-13.
8王方,阮梅花,朱海刚,熊燕,缪有刚.基于向量空间模型的科技文献自动分类研究[J].情报探索,2013(12):1-3. 被引量：5
9姜丽红,徐博艺.信息筛选中群体用户偏好聚合模型[J].上海交通大学学报,2000,34(6):818-820. 被引量：5
10田旭.知识地图及其建构:基于实例的分析[J].人力资源管理,2011(11):185-186.

情报学报

2000年第6期

浏览历史

内容加载中请稍等...

基于字频向量的中文文本自动分类系统被引量：17

参考文献2

二级参考文献15

共引文献39

同被引文献140

引证文献17

二级引证文献271

相关作者

相关机构

相关主题

浏览历史

基于字频向量的中文文本自动分类系统 被引量：17

参考文献2

二级参考文献15

共引文献39

同被引文献140

引证文献17

二级引证文献271

相关作者

相关机构

相关主题

浏览历史

基于字频向量的中文文本自动分类系统被引量：17