基于图的特征词权重算法及其在文档排序中的应用被引量：2

Graph-Based Term Weighting for Document Ranking

下载PDF

导出

摘要信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。 The core work of information retrieval including document classification and ranking operations, how to effectively compute the term weight of every document is one of a key technology. Use of the word relationship to create a text graph for each document, based on the idea of the importance of interaction between adjacent words, combining the characteristics of the word document word frequency characteristics, we iteratively compute weighting of each word. Further combining the global properties of text graph, such as density, we could rank the results of information retrieval. Experiments confirmed that the algorithm in standard data sets with good results.

作者黄云洪佳明颜一鸣

机构地区吉首大学软件学院中山大学信息科学与技术学院

出处《计算机系统应用》 2012年第6期216-218,194,共4页 Computer Systems & Applications

基金湖南省教育厅自然科学基金(06C658)

关键词文本图共现关系文档排序特征词权重 text graph co-occurrence relation document ranking term weight

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Agosti M, Crestani F, Pasi G. Lectures on Information Retrieval. Springer Berlin / Heidelberg. 2003.
2Wang H, Rajman M, Guo Y, et al. NewPR-Combining TFIDF with Pagerank. ICANN 2006, Part II, LNCS 4132, 2006, 932-942.
3张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
4陈翀,彭波,闫宏飞,王继民.一种词汇共现算法及共现词对检索系统排序的影响[J].清华大学学报（自然科学版）,2005,45(S1):1857-1860. 被引量：8
5周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
6Blanco R, Lioma C. Random walk term weighting for information retrieval. Proc. of the 30th SIGIR. Amsterdam, The Netherlands:ACM 2007,829-830.
7李慧,李存华,王霞.基于特征选择的网页排名算法[J].计算机工程,2010,36(13):37-39. 被引量：5

二级参考文献24

1贺宏朝,何丕廉,高剑峰,黄昌宁.Query Expansion for Chinese Information Retrieval by Using a Decaying Co-occurrence Model[J].Transactions of Tianjin University,2002,8(3):183-186. 被引量：3
2郭锋,李绍滋,周昌乐,林颖,李胜睿.基于词汇吸引与排斥模型的共现词提取[J].中文信息学报,2004,18(6):16-22. 被引量：8
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
7秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
8张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
9刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
10马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7

共引文献33

1李村合,李晗.基于词共现模型与DOM的石油主题采集策略[J].微计算机应用,2008,29(2):28-31.
2钟敏娟,万常选,刘爱红.基于词共现模型的常问问题集的自动问答系统研究[J].情报学报,2009,28(2):242-247. 被引量：7
3郑羽洁,章杰鑫.改进的关联规则在文献个性化检索中的应用研究[J].计算机与现代化,2011(6):199-202. 被引量：1
4许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
5陈剑,张冬梅,陈钊.林产品贸易信息推送梯级过滤技术[J].计算机工程与应用,2012,48(14):134-138. 被引量：1
6阮宏玮,刘铁钢,李华,王小雨.主成分分析法的网页篡改检测[J].中国科技论文,2012,7(7):544-547. 被引量：2
7路永和,何新宇.锐化高斯模板在文本特征项权重调整方法中的应用[J].现代图书情报技术,2012(12):39-44. 被引量：1
8路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
9李梅,王晶,樊刘娟.基于改进MGR融合算法的视频信息融合框架[J].太原理工大学学报,2013,44(1):9-13.
10李倩茹,姚伟.基于均衡有偏支持向量机的软件缺陷预测[J].计算机工程,2013,39(8):87-91. 被引量：1

同被引文献28

1罗天正,关皓.政治关联、营商环境与企业创新投入——基于模糊集定性比较分析[J].云南财经大学学报,2020,36(1):67-77. 被引量：11
2侯德君.对计算机数据挖掘技术的探讨[J].信息周刊,2020,0(2):0104-0104. 被引量：1
3毕鹏.Web信息检索结果个性化排序模型[J].计算机科学,2004,31(B09):35-37. 被引量：1
4米切尔 T M.机器学习[M].北京:机械工业出版社,2003:68-96.
5Li Xian,Meng Wei-yi,Yu C.T-verifier:Verifying truthfulness of fact statements[C]//27th International Conference on Data Engineering(ICDE) IEEE.IEEE,2011.
6Li Zhi-xu,et al.WebPut:efficient Web-based data imputation[C]//Web Information Systems Engineering-WISE 2012.Berlin Heidelberg:Springer,2012:243-256.
7Kahng,Minsuk,Lee S,et al.Ranking objects by following paths in entity-relationship graphs[C]//Proceedings of the 4th workshop on Workshop for Ph.D.students in information & knowledge management.ACM,2011.
8Lovász,László.Random walks on graphs:A survey[M].//Comhinatorics,Paul erdos is eighty(volume 2).Janor Bolyai Mathematical Society,1993:1-46.
9Sergey B,Page L.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks and ISDN Systems,1998,30(1):107-117.
10Kleinberg Jon M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM(JACM),1999,46(5):604-632.

引证文献2

1徐曜,赵政文,陈群,刘海龙,杜晶,胡嘉琪,李战怀.一种基于图结构的Web实体排序方法[J].计算机科学,2014,41(5):219-222.
2李凌君.基于数据挖掘算法的犯罪相同特征向量集仿真[J].兵工自动化,2024,43(12):70-73.

1余艳.搜索引擎原理剖析及其技术发展[J].图书馆学刊,2004,26(1):58-60. 被引量：16
2姚兰,林鸿飞,林原,马云龙.基于句法特征的冗长查询处理技术[J].北京大学学报（自然科学版）,2013,49(2):213-218.
3曹瑛,王明文,陶红亮.基于Markov网络的检索模型[J].山东大学学报（理学版）,2006,41(3):101-105. 被引量：5
4王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
5励子闰,余青松,陈胜东.基于全文检索引擎的信息检索技术的应用研究[J].计算机与数字工程,2008,36(9):81-85. 被引量：8
6李慧宗,胡学钢.基于MapReduce的社会化标签共现关系抽取方法[J].小型微型计算机系统,2013,34(11):2456-2460. 被引量：1
7蒋招龙,赵泽茂.无链接文档排序算法研究[J].杭州电子科技大学学报（自然科学版）,2015,35(1):84-87.
8马宇峰,阮彤.基于LDA及标签传播的实体集合扩展[J].山东大学学报（理学版）,2015,50(3):20-27. 被引量：1
9罗海霞,冯剑琳.一种基于排列融合的归纳式半监督排序方法[J].计算机研究与发展,2011,48(S3):189-196.
10王细薇,沈云琴.中文短文本分类方法研究[J].现代计算机,2010,16(7):28-31. 被引量：5

计算机系统应用

2012年第6期

浏览历史

内容加载中请稍等...

基于图的特征词权重算法及其在文档排序中的应用被引量：2

参考文献7

二级参考文献24

共引文献33

同被引文献28

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于图的特征词权重算法及其在文档排序中的应用 被引量：2

参考文献7

二级参考文献24

共引文献33

同被引文献28

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于图的特征词权重算法及其在文档排序中的应用被引量：2