一种模仿人类的自动文本分类算法被引量：5

An Automatic Algorithm of Text Categorization Imitating Human's

下载PDF

导出

摘要 An algorithm of text classification is given that imitates human's in this paper. On one hand, the algorithmenhances weight of theme when feature vector is processed, because of the assumption that the title of a document canproject its content. On the other hand,a weight parameter o vector is designed to simulate human's skimming andskipping behavior for calculating method of a document cluster center, and a weight of the feature that there are morepositive examples than negative ones is enhanced . The experiment shows that the algorithm greatly improves the per-formance of a text classification system. An algorithm of text classification is given that imitates human's in this paper. On one hand, the algorithm enhances weight of theme when feature vector is processed, because of the assumption that the title of a document can project its content. On the other hand, a weight parameter to vector is designed to simulate human's skimming and skipping behavior for calculating method of a document cluster center, and a weight of the feature that there are more positive examples than negative ones is enhanced . The experiment shows that the algorithm greatly improves the performance of a text classification system.

作者王树梅戴保存黄河燕陈肇雄

机构地区南京理工大学计算机系中国科学院计算机语言信息工程研究中心

出处《计算机科学》 CSCD 北大核心 2003年第3期44-45,53,共3页 Computer Science

关键词自动文本分类算法文本信息处理文档分类自然语言处理 INTERNET Text categorization, Corpus, Cluster center,Machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1叶新明,徐进鸿.中文文献自动分类研究[J].情报科学,1992,13(5):31-34. 被引量：18
2成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
3曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18

二级参考文献41

1苏新宁.汉语文献自动标引综析[J].情报学报,1993,12(4):309-318. 被引量：18
2李欣,陈星.基于中文科技图书的图书分类专家系统设计[J].现代图书情报技术,1994(4):24-28. 被引量：6
3张炳恒,刘金芝,陈煦,江瑞兰.微机图书分类编目自动化系统[J].图书馆工作与研究,1989(4):13-19. 被引量：5
4吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
5周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
6苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
7叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
8王挺,陈火旺,史晓东.语料库和机器翻译[J].计算机科学,1996,23(2):52-55. 被引量：8
9邓要武,王连俊.图书自动分类专家系统可行性研究[J].图书情报工作,1996,40(5):23-24. 被引量：4
10廉庆荣（译），矩阵计算，1983年

共引文献61

1朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
2高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
3张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
4侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
5徐进鸿.文献自动分类的一种算法[J].现代图书情报技术,1993(3):25-28. 被引量：1
6李欣,陈星.基于中文科技图书的图书分类专家系统设计[J].现代图书情报技术,1994(4):24-28. 被引量：6
7王理达.电子政务中中文文本分类技术的应用[J].大众科技,2005,7(1):23-25.
8薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].中国索引,2005,3(1):37-43. 被引量：2
9苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
10李树青.基于面向主题和面向分类相结合的搜索引擎[J].情报杂志,2005,24(10):69-71. 被引量：3

同被引文献32

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2Kobayashi M,Malassis L,Samukawa H.Retrieval and ranking of documents from a database[M].U S Patent,2000-06
3Andrea Rodriguez M,Max Egenhofer J.Determing Semantic Similarityamong Entity Classes from Different Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003; (2):442～456
4Yuhua Li,Zuhair Bandar A,David McLean.An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources.Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003;(4 ):871～881
5Lin D.An Information-Theoretic Definition of Similarity[C].In:Proc Int'l Conf Machine Learning(CIKM'98),1998
6SimonHaykin 叶世伟史忠植译.神经网络原理[M].北京:机械工业出版社,2004..
7Jiawei Han，Micheline Kamber，范明，孟小峰，等．数据挖掘概念与技术[M]．2005．157．
8Ian H．Witten，Eibe Frank．数据挖掘实用机器学习技术[M]．北京：机械工业出版社，2006
9John Atkinson Abutridy, Chris Mellish, Stuart Aitken.Combining information extraction with genetic algorithms for text mining[J]. Iggg Computer Society, 2004, 19(3):22
10Wang Chenchih, Chen Kuanchou, Hua Huimin.Associational approach of text data mining and its implications [J]. IEEE International Conference onNetworking, Sensing & Control, 2004,1:243

引证文献5

1顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
2李荣艳,金鑫,王春辉,郑宁,别荣芳.一种新的中文文本分类算法[J].北京师范大学学报（自然科学版）,2006,42(5):501-505. 被引量：6
3韩利凯,马国俊.基于SPI的个人网页过滤系统的研究与实现[J].航空计算技术,2006,36(5):118-120.
4卢雪燕.基于关键词的文献分类[J].梧州学院学报,2004,15(4):69-74.
5韩利凯,马国俊.基于SPI的个人网页过滤系统的研究与实现[J].西安文理学院学报（自然科学版）,2007,10(1):114-117.

二级引证文献14

1邓灵丽,覃聪.改进型答疑系统的设计与实现[J].现代制造工程,2005(11):130-132.
2孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
3李莉,高庆狮.一种基于语义单元的查询扩展方法[J].计算机科学,2008,35(2):201-204. 被引量：4
4杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5
5李卫疆,Zhao,Tiejun,Wang,Xian＇gang.A new approach to query expansion in information retrieval[J].High Technology Letters,2008,14(1):77-80. 被引量：2
6杨海南.基于语义概念树和局部上下文分析的查询扩展[J].武汉理工大学学报（信息与管理工程版）,2011,33(1):79-82. 被引量：3
7冯凯,王小华,谌志群.基于动态规划的汉语句子相似度算法[J].计算机工程,2013,39(2):220-224. 被引量：8
8王晶晶,孙涛,郭秀花.基于医学图像建立预测模型的应用现况[J].北京生物医学工程,2013,32(4):432-435. 被引量：5
9何跃,赵书朋,何黎.基于情感知识和机器学习算法的组合微文情感倾向分类研究[J].情报杂志,2018,37(5):189-194. 被引量：14
10刘月,翟东海,任庆宁.基于注意力CNLSTM模型的新闻文本分类[J].计算机工程,2019,45(7):303-308. 被引量：20

1赵博,丁华福.一种基于关键向量的文本分类模型[J].信息技术,2007,31(12):122-124. 被引量：1
2李卫东,黄河笑,郭俊文.IRT在自适应考试中的应用[J].计算机工程,2001,27(7):179-181. 被引量：14
3从分裂到统一Android Design上的Hoio Theme[J].商业故事（数字通讯）,2013(22):102-106.
4飞狼.用Theme美化Windows[J].电脑爱好者,2001(3):32-32.
5Shilin Zhang Mei Gu.Using Improved Text Classification Technique to Acquire Job Opportunities for Disabled Persons[J].通讯和计算机（中英文版）,2010,7(3):44-49.
6谷歌的“规矩”[J].商业故事（数字通讯）,2013(14):110-113.
7黄晓春,晏蒲柳,夏德麟,陈健.基于差异—相似矩阵的文本降维方法[J].计算机应用,2005,25(8):1821-1823. 被引量：1
8Jhilik Bhattacharya Somajyoti Majumder.Visual Odometric Navigation： The Generalized Feature Vector （GFV） Way[J].通讯和计算机（中英文版）,2011,8(3):163-172.
9王强,张晔,李硕,沈毅.Quantitative and comparative analysis of hyperspectral data fusion performance[J].Journal of Harbin Institute of Technology(New Series),2002,9(3):234-238. 被引量：1
10李锁花,孙志挥,周晓云.基于特征向量的分布式聚类算法[J].计算机应用,2006,26(2):379-382. 被引量：6

计算机科学

2003年第3期

浏览历史

内容加载中请稍等...

一种模仿人类的自动文本分类算法被引量：5

参考文献3

二级参考文献41

共引文献61

同被引文献32

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种模仿人类的自动文本分类算法 被引量：5

参考文献3

二级参考文献41

共引文献61

同被引文献32

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种模仿人类的自动文本分类算法被引量：5