基于知网语义相似度计算的特征降维方法研究被引量：16

The Research on Reduced Feature Dimension Based on Hownet Similarity Computing

下载PDF

导出

摘要针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法。通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小。将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数。实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能。（1. College of Computer ＆ Comm, Hunan University , changsha 410082 ; 2.Changsha Aeronautical Vocational ＆ TeChnical College, Changsha 410007 ;3. Longgang Technology ＆ Information Bureau , Shenzhen 518000;4.Chuangzhi Information Technology Co, Ltd, Shenzhen 518057）

作者唐歆瑜乐文忠李志成李军义

机构地区湖南大学计算机与通信学院长沙航空职业技术学院深圳市龙岗科技与信息管理局创智信息技术有限公司

出处《科学技术与工程》 2006年第21期3442-3446,共5页 Science Technology and Engineering

基金湖南省科技计划项目(05JT1035) 广东省关键领域重点突破项目(2005A10207003) 湖南大学05年校基金资助

关键词特征降维文本分类知网 reduced feature dimension ,Text classification, Hownetz

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
2陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
3[4]Calvo R A.,Partridge M.A comparative study of principal component analysis techniques.In:Proc Ninth Australian Conf On Neural Networks,Brisbane,QLD,1998
4[5]Deerwester S,Dumais S T,Furnas G W,et al.Indexing by latent semantic analysis.Journal of the american Society for Information Science,1990 ;41 (6):391-407
5[7]Yang Y,Liu X.Are-examination of text categorization methods.Proc of theACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99),Berkeley,1999:42-49

二级参考文献33

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
5鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
6卜东波，博士学位论文，2000年
7Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
8Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页
9Apte C, Damerau F J, and Weiss S M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 1994, 12:233- 251.
10Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization. In- Proceedings of the 14^th International Conference on Machine Learning (ICML-97), 1997. 412 - 420.

共引文献367

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
7杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
8刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
9李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2

同被引文献151

1马开俊.数字化建设中文献信息主题标引方式管见[J].情报资料工作,2004,25(S1):355-356. 被引量：1
2周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
3曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
4高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6袁亦宁.国外计算机翻译的发展和近况[J].上海科技翻译,2002(2):58-59. 被引量：26
7张威,周昌乐.汉语隐喻理解的逻辑描述初探[J].中文信息学报,2004,18(5):23-28. 被引量：18
8刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10司徒俊峰.Internet的小世界网络研究[J].情报杂志,2004,23(12):86-88. 被引量：24

引证文献16

1南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报（自然科学版）,2007,33(3):191-194. 被引量：14
2李杰,曹谢东,余飞.基于语义相似度计算的词汇语义自动分类系统[J].计算机仿真,2008,25(8):295-299. 被引量：7
3赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
4李学宁,陆汝占,胡熠,刘慧.基于《现代汉语规范词典》的语义特征库建设[J].韶关学院学报,2007,28(12):30-34.
5张超,高雪霞,梁俊峰.基于HowNet获取数据库系统知识库的研究[J].喀什师范学院学报,2008,29(6):62-64.
6赵善祥,刘万军.翻译记忆中数据筛选方法的研究[J].计算机系统应用,2009,18(4):109-113. 被引量：3
7刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18
8丁为民,邹海,唐瑞华.大学计算机基础课程上机考试系统设计[J].巢湖学院学报,2011,13(3):41-44. 被引量：2
9邢美凤.科技文献关键词冗余解决方案研究[J].现代图书情报技术,2012(1):34-39. 被引量：2
10吴旭东,成卫青,黄卫东.改进的主客观结合的词语语义相似度算法[J].计算机技术与发展,2012,22(9):45-49. 被引量：1

二级引证文献95

1赵善祥,刘万军.翻译记忆中数据筛选方法的研究[J].计算机系统应用,2009,18(4):109-113. 被引量：3
2董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：10
3裴亚辉,张兵利.一种基于贝叶斯方法的多分类器组合优化算法[J].河南科技大学学报（自然科学版）,2010,31(1):34-37. 被引量：2
4李玉红,柴林燕,张琪.结合分词技术与语句相似度的主观题自动判分算法[J].计算机工程与设计,2010,31(11):2663-2666. 被引量：9
5肖明,王兴兰.主观题自动阅卷研究进展[J].中国考试,2010(7):28-31. 被引量：2
6乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
7方莹.多角度的特征提取方法[J].郑州轻工业学院学报（自然科学版）,2010,25(3):74-77. 被引量：1
8田甜,张振国.主观题自动阅卷技术研究[J].计算机工程与设计,2010,31(16):3697-3699. 被引量：13
9张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19
10熊忠阳,付玲玲,张玉芳,蒋健.结合语义的特征选择方法[J].计算机应用,2010,30(10):2621-2623. 被引量：3

1何怡璇,熊棠.基于Web的Word文档管理系统设计[J].电脑知识与技术（过刊）,2016,22(4X):53-55. 被引量：2
2蒋才智,王浩,姚宏亮.基于知网的贝叶斯中文人名识别[J].南京大学学报（自然科学版）,2012,48(2):147-153. 被引量：4
3王广正,王喜凤.基于知网语义相关度计算的词义消歧方法[J].安徽工业大学学报（自然科学版）,2008,25(1):71-75. 被引量：10
4陈远翔,张月国,李生红,董莉莉.基于知网语义相似度计算的文本特征提取[J].信息安全与通信保密,2009,31(5):89-91. 被引量：4
5刘清南,全渝娟.文本比较算法研究[J].现代计算机,1998(10):89-90.
6徐猛,刘宗田,周文.一种基于知网语义相似度计算的应用研究[J].微计算机信息,2010,26(3):200-201. 被引量：4
7Word技巧一点通系列(续)[J].电脑爱好者（普及版）,2007,0(10):32-33.
8田园.浅谈计算机网络安全的有效维护[J].黑龙江科技信息,2015(31). 被引量：1
9钱海忠,蔡莉莉.基于词典的服务语义标注和匹配算法[J].金陵科技学院学报,2014,30(4):11-15. 被引量：1
10金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80

科学技术与工程

2006年第21期

浏览历史

内容加载中请稍等...

基于知网语义相似度计算的特征降维方法研究被引量：16

参考文献5

二级参考文献33

共引文献367

同被引文献151

引证文献16

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于知网语义相似度计算的特征降维方法研究 被引量：16

参考文献5

二级参考文献33

共引文献367

同被引文献151

引证文献16

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于知网语义相似度计算的特征降维方法研究被引量：16