一个中文文本自动分类数学模型被引量：18

A Mathematical Model for Automatic Chinese Text Categorization

下载PDF

导出

摘要本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｔ，ＬＬＳＦ）技术建立文本分类器模型，通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习，实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数，并用该函数对测试文本进行分类。 This paper proposes an example based mapping method,which uses Chinese properties of CCs for Chinese text categorization.The most distinguishable characteristics of this method is introducing the LLSF(Linear Least Square Fit) technique to build the categorization model.By learning the relevance information from manually categorized training corpus,this model ultimately generates a mapping function from CC space to category space based on global least mapping error and uses this mapping function to predict the categories of arbitrary texts.

作者曹素青曾伏虎曹焕光

机构地区山西大学

出处《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页 Journal of the China Society for Scientific and Technical Information

关键词中文文本自动分类字频向量映射函数 automatic Chinese text categorization,Chinese character frequency vector,example based mapping method.

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献9

1苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
2叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：10
3吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
4Yang Y，Mayo Clin ACM Trans，1994年，12卷，3期
5刘开瑛，第二届计算语言学联合学术会议论文集，1993年
6Belkin N J，Communication ACM，1992年，35卷，12期
7Chang Y Q，Pattern Recognition，1992年，35卷，1期
8张金槐，线性模型参数估计及改进，1992年
9廉庆荣（译），矩阵计算，1983年

二级参考文献8

1诸青,郁亦明.文献自动分类的分析与研究[J].现代图书情报技术,1985(4):40-46. 被引量：8
2吴军，第三届全国人机语音通信学术会议，1994年
3刘开瑛，第二届全国计算语言学联合学术会议论文集，1993年
4王永成，第二届全国计算语言学联合学术会议论文集，1993年
5苑春法，第二届全国计算语言学联合学术会议论文集，1993年
6施水才，1993年
7郭进，第一届全国计算语言学联系学术会议，1991年
8叶新明,徐进鸿.中文文献自动分类研究[J].情报科学,1992,13(5):31-34. 被引量：17

共引文献37

1成奋华,吴家强.数字图书馆中基于向量空间模型的文档分类系统[J].情报杂志,2004,23(7):9-11.
2丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.
3白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
4刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
5朱丽.我国分类检索语言计算机化的回顾与前瞻[J].图书馆,1997(1):28-31. 被引量：6
6苏新宁.计算机辅助赋予档案案卷题名研究[J].情报学报,1997,16(1):36-42. 被引量：1
7刘伟权,钟义信.自然语言处理与全文情报检索[J].情报理论与实践,1997,20(1):43-46. 被引量：15
8黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
9成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：36
10李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：17

同被引文献190

1鲁川,缑瑞隆,董丽萍.现代汉语基本句模[J].世界汉语教学,2000,14(4):11-24. 被引量：28
2诸青,郁亦明.文献自动分类的分析与研究[J].现代图书情报技术,1985(4):40-46. 被引量：8
3莫少强.计算机辅助图书分类系统的设计与试验[J].现代图书情报技术,1984(1):29-35. 被引量：5
4侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：9
5白国应.论20世纪的中国文献分类学[J].晋图学刊,1999(1):1-8. 被引量：8
6曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
7雷西川.文献资料分类专家系统研究[J].情报理论与实践,1993,16(6):40-41. 被引量：5
8陈雪天,李荣陆.使用最大熵模型进行文本分类[J].计算机工程与应用,2004,40(35):78-79. 被引量：4
9李华.中国科技期刊的发展模型研究[J].情报业务研究,1993,10(1):23-25. 被引量：1
10李华.情报研究与模型方法[J].情报业务研究,1993,10(3):141-143. 被引量：3

引证文献18

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
3赵恺捷,李振华.基于汉语多类文本分类的机关公文智能办理系统[J].齐齐哈尔大学学报（自然科学版）,2008,24(5):54-57.
4廉清.数学模型方法在图书馆学情报学中的应用研究[J].情报探索,2009(12):8-11. 被引量：3
5鞠小林,陈继红,邵浩然.基于向量空间模型的分层网页分类方法[J].南通大学学报（自然科学版）,2010,9(1):24-29.
6曹素丽,曾伏虎,曹焕光.基于汉字字频向量的中文文本自动分类系统[J].山西大学学报（自然科学版）,1999,22(2):144-149. 被引量：5
7司莉,俞君立,贺定安.我国文献分类计算机化的发展与近期目标研究(上)——20年来的成就与存在问题[J].图书情报知识,2000,17(2):12-16. 被引量：8
8许玲.计算机模糊检索在图书自动标引中的应用[J].情报理论与实践,2000,23(4):294-295.
9康迎曦.基于DFSSM的WEB文本挖掘过程的研究和应用[J].湖南工程学院学报（自然科学版）,2013,23(3):44-46.
10王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17

二级引证文献97

1张海峰,张晓,王庆国,张传良,孙密林,佘晓琼,吴娜娜,臧雪静.大变局下基于模型的战略科技情报分析方法工具及典型业务实践[J].情报学进展,2022(1):206-241. 被引量：2
2王新福.基于数据分析技术的人才成长规律研究[J].产业科技创新,2019(1):80-81.
3方允璋.从编制方法和技术特色看《中图法》第四版的“用户观”[J].情报探索,2004(2):40-43. 被引量：1
4常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
5施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
6顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
7莫跃英.《中国图书馆分类法》第四版“社会生活与社会问题”类目设置之我见[J].图书馆论坛,2004,24(4):145-147. 被引量：1
8胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
9李传美.2000-2004年我国文献分类研究论文的统计与分析[J].高校图书情报论坛,2006,5(1):40-42. 被引量：1
10李传美.2000-2004年我国文献分类研究论文的统计与分析[J].图书馆学刊,2006,28(4):18-19. 被引量：3

1王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17
2张野,杨建林.基于KNN和SVM的中文文本自动分类研究[J].情报科学,2011,29(9):1313-1317. 被引量：9
3马芳.基于SUMO本体的中文文本自动分类研究[J].情报科学,2015,33(6):43-47. 被引量：3
4姜丽红,徐博艺.信息筛选中群体用户偏好聚合模型[J].上海交通大学学报,2000,34(6):818-820. 被引量：5
5尹桂秀.一种中文文本自动分类方法的研究[J].情报理论与实践,2002,25(2):115-116.
6刘畅,张学明,莫铌.我国商业银行中小企业贷款内部评级模型构建及实证研究[J].投资研究,2013,32(5):3-16. 被引量：3

情报学报

1999年第1期

浏览历史

内容加载中请稍等...

一个中文文本自动分类数学模型被引量：18

参考文献9

二级参考文献8

共引文献37

同被引文献190

引证文献18

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

一个中文文本自动分类数学模型 被引量：18

参考文献9

二级参考文献8

共引文献37

同被引文献190

引证文献18

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

一个中文文本自动分类数学模型被引量：18