基于词条数学期望的词条权重计算方法被引量：1

A TERM WEIGHT CALCULATION METHOD BASED ON THE TERM MATHEMATICAL EXPECTION

下载PDF

导出

摘要文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法。在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同。提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题。实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性。 Text formal representation is always the fundamental issue in text mining.TFIDF（Term Frequency,Inverse Document Frequency） calculation method in eigenspace model is a classical term weight calculation approach in text representation with better effect.based on analysing the problems in traditional TFIDF method of calculation,in light to that in TFIDF method it does not consider the distribution situation of various categories including the document contains the terms and to that there is different document number in each category,this paper proposes that to adopt mathematical expectations of the term（TFIDF-E） as a text factor for improving the above.Experimental results show that the text categorisation effect represented by TFIDF-E algorithm is better than the old TFIDF,the effectiveness and feasibility of TFIDF-E algorithm has been validated.

作者秦锋赵彦军程泽凯陈奇明

机构地区安徽工业大学计算机学院

出处《计算机应用与软件》 CSCD 2011年第4期177-179,共3页 Computer Applications and Software

基金安徽省教育厅自然科学重点项目(KJ2007A051)

关键词文本分类词条权重区分度数学期望 Text categorisation Term weight Differentiation Mathematical expectation

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
3陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
4Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[ J]. Information Processing & Managemen, 1988,24 ( 5 ) : 513-523.
5代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
6寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
8李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
9柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
10Yiming Y. An Evaluation of Statistic Approaches to Text Categorization [J]. Information Retrieval, 1991 , 1 ( 1/2 ) :69 - 90.

二级参考文献47

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
3王聃,贾云伟,林福严.人脸识别系统中的特征提取[J].微计算机信息,2005,21(07X):53-55. 被引量：18
4黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
5Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年
6Apte C, Damerau F J, and Weiss S M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 1994, 12:233- 251.
7Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization. In- Proceedings of the 14^th International Conference on Machine Learning (ICML-97), 1997. 412 - 420.
8Hwee Tou Ng, Wei Boon Goh, and Kok Leong Low. Feature selection, perceptron learning, and a usability case study for text categorization. In: Proceedings of the 20^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-97), 1997. 67 - 73.
9Schutze H, Hull D A, and Pedersen J O. A comparison of classifiers and document representations for the routing problem. In: Proceedings of the 18^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-95). 1995. 229 - 237.
10Li Y H, and Jain A K. Classification of text document. The Computer Journal, 1998, 41(8) :537 - 546.

共引文献883

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5罗毅辉,熊曙初,王四春,范强.无监督环境下基于聚类集成的特征选择[J].微计算机信息,2008,24(9):265-267. 被引量：2
6夏克俭,张涛.基于贝叶斯算法的垃圾邮件过滤的研究[J].微计算机信息,2008,24(9):179-180. 被引量：5
7张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
8陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
9张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
10张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1

同被引文献9

1金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
2DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the AmericanSociety for Information Science,1990,41(6):391-407.
3LANDAUER T K,DUMAIS S T.A solution to plato's problem:the latentsemantic analysis theory of the acquisition,induction,and represen-tation of knowledge[J].Psychological Review,1997,104(2):211-240.
4Hori Carla E, Permana Haryani, Simon K Y, et al. Thermal stability of oxygen storage properties in a mixed CeO2-ZrO2 system [J]. Applied Catalysis B: Environ, 1999, 16: 105.
5闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-50. 被引量：13
6裴婧,包宏.汉语句子相似度计算在FAQ中的应用[J].计算机工程,2009,35(17):46-48. 被引量：24
7刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
8柳永念,钟诚,焦小焦.基于单元识别的网页信息抽取方法[J].广西大学学报（自然科学版）,2011,36(5):787-791. 被引量：1
9盖杰,王怡,武港山.潜在语义分析理论及其应用[J].计算机应用研究,2004,21(3):9-12. 被引量：35

引证文献1

1叶昭晖,杨高峰,杨岳湘.一种基于潜语义分析的中文网页自动摘要方法[J].广西大学学报（自然科学版）,2012,37(2):341-345. 被引量：1

二级引证文献1

1蔡嘉诚.基于RANSAC潜在语义分析的专家库检索[J].电脑知识与技术（过刊）,2014,20(2X):1141-1143.

1龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108. 被引量：5
2张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37
3魏晓宁,朱巧明,梁惺彦.结合中文分词的贝叶斯文本分类[J].苏州市职业大学学报,2008,19(1):104-107. 被引量：2
4潘敏,王明文,王晓庆,揭安全.基于簇特征的文本增量聚类研究[J].江西师范大学学报（自然科学版）,2014,38(1):95-101. 被引量：2
5李贵林,杨禹琪,高星,廖明宏.企业搜索引擎个性化表示与结果排序算法研究[J].计算机研究与发展,2014,51(1):206-214. 被引量：7
6甄志龙,韩立新,陆佃龙.基于模糊关系的文本分类特征选择方法[J].情报学报,2008,27(6):851-856. 被引量：1
7张映海.基于概念语义同义扩展的文本检索研究[J].计算机与数字工程,2008,36(4):68-71.
8杨倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探[J].电脑知识与技术（过刊）,2012,18(6X):4127-4128. 被引量：1
9费洪晓,穆珺,刘正.基于文本聚类和权重调整的用户兴趣建模算法[J].计算机技术与发展,2007,17(2):128-130. 被引量：3
10应水金,陈福洋.提高森林资源续档数据精度问题的研究[J].林业勘察设计,2008,28(2):204-205.

计算机应用与软件

2011年第4期

浏览历史

内容加载中请稍等...

基于词条数学期望的词条权重计算方法被引量：1

参考文献10

二级参考文献47

共引文献883

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词条数学期望的词条权重计算方法 被引量：1

参考文献10

二级参考文献47

共引文献883

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词条数学期望的词条权重计算方法被引量：1