一种新的词语权重计算方法被引量：1

A Novel Term Global Weighting Method

下载PDF

导出

摘要词语权重计算是自然语言处理中的重要问题,是文档语义表示的重要实现手段.词语的权重主要由两部分决定,一部分是词语在文档中的重要性度量,另一部分是基于统计方法所得的词语在区分不同文档能力上的度量即词语全局权重.本文就针对有相对稳定性的词语全局权重计算方法分析比较了现有的几种词语全局权重计算方法,并在此基础上提出了一种新的组合词语全局权重计算方法,实验证明本文提出的新方法能够有效地提高了系统的性能. 词语权重计算是自然语言处理中的重要问题,是文档语义表示的重要实现手段.词语的权重主要由两部分决定,一部分是词语在文档中的重要性度量,另一部分是基于统计方法所得的词语在区分不同文档能力上的度量即词语全局权重.本文就针对有相对稳定性的词语全局权重计算方法分析比较了现有的几种词语全局权重计算方法,并在此基础上提出了一种新的组合词语全局权重计算方法,实验证明本文提出的新方法能够有效地提高了系统的性能.

作者姜澜李秀坤单丽莉

机构地区哈尔滨工业大学计算机科学与技术学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第S1期315-318,共4页 Journal of Harbin Institute of Technology

基金哈尔滨工业大学科研创新基金(HIT.NSRIF.2010045)

关键词信息检索语义相似度计算词语权重计算 Information Retrieval Semantic similarity computation Term global weighting

分类号 T-55 [一般工业技术]

引文网络
相关文献

参考文献9

1陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
2刁倩,王永成,张惠惠,何骥.VSM中词权重的信息熵算法[J].情报学报,2000,19(4):354-358. 被引量：8
3A.Singhal.Term Weighting Revisited. . 1996
4G.Salton,C.Buckley.Term Weighting Approachesin Automatic Text Retrieval. Information Process-ing and Management . 1989
5T.Mori.A Term Weighting Method Based on Informa-tion Gain Ratio for Summarizing Documents Retrievedby IR Systems. Journal of Natural Language Pro-cessing . 2000
6Y.Guan,X.L.Wang,Y.Zhao,J.Zhao.TheResearch on Professional Website Oriented ChineseQuestion Answering System. 20th InternationalConference on Computer Processing of Oriental Lan-guages . 2003
7Xu JX,Croft WB.Query expansion using local and global document analysis. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 1996
8Robertson, S. E,Walker, S,Hancock-Beaulieu, M,Gatford, M.Okapi in TREC3. Proceedings of Text REtrieval Conference . 1994
9Hassan S,Mihalcea R,Banea C.Random-Walk Term Weighting for Improved Text Classification. Proc of the IEEE International Conference on Semantic Computing . 2007

二级参考文献4

1[1]Warren R.Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis.www.cs.umass. Edu/～greiff/
2[2]S.Kaski,K.Lagus,T.Honkela and T.Kohonen. Statistical Aspects of the WEBSOM System in Organizing Document Collections.Computer Science and Statistics, 1998,29,281～290
3[3]Robert Trappl. Cybernetics Theory and Applications. Hemisphere Publication Corporation, 1983,9～20
4李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献132

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
5施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
6李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
7鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
8王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
9刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
10杨广翔,俞宁,谌莉.搜索引擎结果的重排序方法[J].计算机应用,2005,25(2):305-308. 被引量：13

同被引文献4

1刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
2肖升,何炎祥.改进的潜在语义分析中文摘录方法[J].计算机应用研究,2012,29(12):4507-4511. 被引量：8
3宗中.中文信息检索中词典机制分词算法的研究[J].计算机技术与发展,2014,24(4):118-121. 被引量：6
4秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].图书情报工作,2014,58(22):130-137. 被引量：31

引证文献1

1段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.

1潘城.伺服系统的计算机辅助分析与设计[J].云南工业大学学报,1990(4):9-19.
2胡千红,褚恒之,梁德芳,吕鹃.复杂产品研制项目标准化效益评估模型[J].北京航空航天大学学报,2010,36(10):1234-1238. 被引量：2

哈尔滨工业大学学报

2011年第S1期

浏览历史

内容加载中请稍等...

一种新的词语权重计算方法被引量：1

参考文献9

二级参考文献4

共引文献132

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种新的词语权重计算方法 被引量：1

参考文献9

二级参考文献4

共引文献132

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种新的词语权重计算方法被引量：1