文本分类中词语权重计算的改进被引量：2

Improvement to Weighting Terms in Text Classification

下载PDF

导出

摘要文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型（Vector Space Model）中的TF．1DF文本表示是该领域中得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的类别分布比例量上的差异是决定词语表达文本内容的重要因素之一。但现在的TEIDF方法无法把握这一因素，针对这一缺点，将信息增益公式引入文本集合中并提出TEIDFIG文本表示方法，并比较分析了其相较于传统TF．IDF公式的优点，用实验验证了其可行性和有效性。 The formalization of text is always a fundamental issue in the area of information retrieval, such as text retrieval, automatic abstract, search engine etc. The TF.IDF text representation in Vector Space Model is an efficiency and widespread used method in this area. The difference in categorical distribution proportion in text aggregate of words is one of the key factors which determine the content of words. But the present TF.IDF method cannot handle this factor. For this shortcoming, this article introduces the text information gain for- mula to text aggregate and proposes the TEIDEIG text representation method, compares and analysis its advantages to the traditional TF. IDF formula, verifies the feasibility and validity with experiments.

作者张青熊前兴 ZHANG Qing, XIONG Qian xing （Department of Computer Science and Technology,Wuhan University of Technology, Wuhan 430063, China）

机构地区武汉理工大学计算机科学与技术学院

出处《电脑知识与技术》 2011年第1期204-206,共3页 Computer Knowledge and Technology

关键词文本表示向量空间模型词语权重信息增益 text representation vector space model weight of words information gain

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
3Auen J.Natural language understanding[M].The Benjamin/Cummings Publishing Company,1991.
4张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33

二级参考文献14

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
3James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05.
4Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251.
5Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523.
6Larkey L S.A Patent Search and Classification System[C].In:proceedings of DL-99,4th ACM Conference on Digital Libraries Berkeley,CA,1999:179-187.
7Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Association for Computing Machinery, 1968 ; 15 ( 1 ) : 8-36.
8Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
9张月杰,姚天顺.基于特征相关性的汉语文本自动分类模型的研究[J].小型微型计算机系统,1998,19(8):49-55. 被引量：21
10李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57

共引文献201

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
3胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
4王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
5徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
6吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
7王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
8朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
9谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
10丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.

同被引文献19

1XU Junling,XU Baowen,ZHANG Weifeng,CUI Zifeng,ZHANG Wei.A New Feature Selection Method for Text Clustering[J].Wuhan University Journal of Natural Sciences,2007,12(5):912-916. 被引量：3
2搜狗实验室.文本分类语料库[EB/OL].[2008-07-20].http://www.sogou.com/labs/dl/c.html.
3胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报（自然科学版）,2007,30(10):1261-1264. 被引量：15
4Ni Xingliang, Quan Xiaojun, Lu Zhi, et al. Short Text Clustering by Finding Core Terms [ J ]. Knowledge and Information Systems ,2011,27 ( 3 ) :345-365.
5Kalogeratos A, Likas A. Text Document Clustering Using Global Term Context Vectors[ J]. Knowledge and Information Systems ,2012,31 ( 3 ) :455-474.
6Cheng Xin, Miao Duoqian, Wang Can, et al. Coupled Term- term Relation Analysis for Document Clustering [ C ]//Proceedings of Neural Networks International Joint Conference on Artificial Intelligence. Washington D. C., USA :IEEE Press ,2013 : 1-8.
7Liu Wenyin, Quan Xiaojun, Min Feng, et al. A Short Text Modeling Method Combining Semantic and Statisti- cal Information [J]. Information Sciences ,2010,180 ( 20 ) : 4031-4041.
8Bouras C,Tsogkas V. A Clustering Technique for News Articles Using WordNet[ J]. Knowledge-based Systems, 2012,10(2) :115-128.
9Hu Jian, Fang Lujun, Cao Yang, et al. Enhancing Text Clustering by Leveraging Wikipedia Semantics [ C ]// Proceedings of the 31st Annual International Special Interest Group on Information Retrieva Conference on Research and Development in Information Retrieval. New York, USA : ACM Press, 2008 : 179-186.
10Bollegala D, Matsuo Y, Measuring Semantic Similarity Between Words Using Web Search Engines [ C ]// Proceedings of Workshop on Social and Collaborative Construction of Structured Knowledge at the 16th International World Wide Web Conference. New York, USA ACM Press, 2007 : 757-786.

引证文献2

1段园磊,张太红.基于向量空间模型中文农业网页分类技术研究[J].新疆农业大学学报,2012,35(2):164-167. 被引量：1
2马慧芳,曾宪桃,李晓红,朱志强.改进的频繁词集短文本特征扩展方法[J].计算机工程,2016,42(10):213-218. 被引量：6

二级引证文献7

1马慧芳,朱志强,成玉丹,贾俊杰.基于核心词项平均划分相似度的短文本聚类算法[J].计算机工程与科学,2017,39(8):1562-1569.
2张迪,马慧芳,贾俊杰,余丽.一种基于标签概率相关性的微博推荐方法[J].计算机工程与科学,2017,39(9):1742-1748. 被引量：3
3陈果,肖璐.网络社区中的知识元链接体系构建研究[J].数据分析与知识发现,2017,1(11):75-83. 被引量：9
4陈果,朱茜凌,肖璐.面向网络社区的知识聚合:发展、研究基础与展望[J].情报杂志,2017,36(12):193-197. 被引量：10
5张文,李自强,杜宇航,杨叶.方法级别的细粒度软件缺陷定位方法[J].软件学报,2019,30(2):195-210. 被引量：10
6李湘东,孙倩茹,石健.结合短文本扩展和BERT的商品评论文本自动分类[J].信息资源管理学报,2023,13(1):129-139. 被引量：4
7魏芳芳,段青玲,肖晓琰,张磊.基于支持向量机的中文农业文本分类技术研究[J].农业机械学报,2015,46(S1):174-179. 被引量：28

1熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
2赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：9
3鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
4王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
5杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
6段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.
7高蕾娜,史延枫,李艳丹.基于特定领域的加权语义相似度算法研究[J].成都大学学报（自然科学版）,2015,34(3):259-261. 被引量：1
8张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
9初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
10鲁松,孙红梅,白硕.基于类别词语权重的MBL改进方法[J].模式识别与人工智能,2001,14(1):27-32.

电脑知识与技术

2011年第1期

浏览历史

内容加载中请稍等...

文本分类中词语权重计算的改进被引量：2

参考文献4

二级参考文献14

共引文献201

同被引文献19

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

文本分类中词语权重计算的改进 被引量：2

参考文献4

二级参考文献14

共引文献201

同被引文献19

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

文本分类中词语权重计算的改进被引量：2