VSM信息检索中的数据稀疏问题分析与规避策略被引量：3

Data Sparseness Analysis and its Avoidance Strategies in the VSM Information Retrieval

导出

摘要以矩阵理论作为研究的切入点,将经典向量空间模型中常用的向量和集合以矩阵的形式加以重构,并认为基于向量内积法的相似性计算与相应矩阵的乘法运算等价。结合稀疏矩阵和数据稀疏的定义,分析VSM信息检索背景下数据稀疏产生的原因;同时,讨论三种情形下数据稀疏对相似性计算的共同影响———部分毫无意义的时间复杂度。最后,给出规避数据稀疏问题的三层策略:文本级策略、文本集级策略和矩阵级策略。 With matrix theory as a research starting point, this paper reconstructs the vector and the set involved in the vector space model in the form of matrix, and indicates that the similarity calculation based on the method of inner product of vectors is equivalent to the corresponding matrix multiplication. Combined with the definitions of sparse matrix and data sparseness, it analyzes the causes of data sparseness under the background of VSM information retrieval. At the same time, it discusses that the data sparseness brings common consequences - part of the meaningless time complexity to similarity calculation under three circumstances. Finally, this paper gives three layers strategies： text level strategy, text set level strategy and matrix level strategy which can avoid the data sparseness.

作者梁士金

机构地区东莞理工学院城市学院图书信息中心

出处《图书情报工作》 CSSCI 北大核心 2013年第1期142-146,共5页 Library and Information Service

关键词向量空间模型信息检索数据稀疏规避策略 vector space model information retrieval data sparseness avoidance strategy

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献26

1Salton G, Yang C S. On the specification of tel'In values in automatic indexing[J]. Journal of Documentation,1973,29(4) :351 - 372.
2Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18 ( 11 ) : 613 - 620.
3邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
4Tai Xiaoying, Sasaki M, Tanaka Y, et al. Improvement of vector space information retrieval model based on supervised lemaaing [ C ]//Proceedings of the 5th International Workshop Information Retrieval with Asian Languages. New York : ACM,2000:69 - 74.
5Isbell C L, Viola P. Restructuring sparse high dimensional data for effective retrieval[ C ]//Advances in Neural Information Processing Systems 11. San Mateo : Kaufmann, 1999:480 - 486.
6Frakes W B, Baeza-Yates R. Information retrieval:Data structures and algorithms [ M ]. Englewood : Prentice-Hall, 1992 : 420 - 441.
7刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
8刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
9Sun Yueheng, lie Pilian, Chen Zhigang. An improved team weighting scheme for vector space model [ C ]//Proceedings of the Third International Conference on Machine Learning and Cybernetics. Piscataway : IEEE ,2004 : 1692 - 1695.
10Kang B Y,Lee S J. Document indexing: A concept-based approachto term weight estimation [ J ]. Information Processing and Management,2005,41 (5) : 1065 - 1080.

二级参考文献126

1费爱蓉,穆斌,蒋建国.基于本体的XML数据集成及映射关系的研究[J].合肥工业大学学报（自然科学版）,2004,27(7):804-914. 被引量：5
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3王慧莉,刘文宇.潜在语义分析:原理与应用[J].华中科技大学学报（社会科学版）,2004,18(4):91-94. 被引量：2
4钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：10
5彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10
6陈康,许婷,戴文俊,武港山.基于Web的全文搜索引擎的设计与实现[J].计算机工程,2005,31(20):51-53. 被引量：7
7陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：381
10徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34

共引文献107

1李荪,曹峰,刘姿杉.面向算法模型的语音数据集质量评估方法研究[J].计算机科学,2022,49(S02):519-524. 被引量：2
2宁卓,邹阳,傅光轩.基于内容的智能EMAIL安全拦截系统模型[J].计算机工程,2000,26(S1):227-231. 被引量：1
3杨震,邓贵仕.个性化信息获取中特征提取的遗传算法[J].系统工程理论与实践,2004,24(8):86-90. 被引量：4
4冯伟.基于内容的智能E-mail安全拦截系统模型[J].三峡大学学报（自然科学版）,2004,26(5):453-455.
5高文杰,刘素兰.一种基于WWW的INTERNET信息开采系统[J].电脑与信息技术,2000,8(3):21-23. 被引量：1
6李孝明,曹万华.舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J].舰船电子工程,2005,25(3):34-38. 被引量：2
7梁昌勇,张申恒.基于本体的企业文本检索模型研究[J].计算机应用研究,2005,22(12):27-29. 被引量：4
8黄春毅,邓红军.一种自适应搜索引擎的构建研究[J].情报杂志,2006,25(2):118-120. 被引量：4
9李立耀.基于页面链接结构Page Rank算法的改进——有向访问模型[J].福建师大福清分校学报,2006,24(2):4-10. 被引量：1
10彭喜化,黄睿.基于向量空间模型的多关键字检索技术[J].重庆职业技术学院学报,2006,15(3):151-153. 被引量：1

同被引文献83

1刘红霞,白万豪.大数据背景下的应用情报学研究[J].图书情报工作,2013,57(S2):185-187. 被引量：4
2徐迪.基于群体性突发事件的网络舆情预警研究文献计量分析[J].图书情报工作,2013,57(S2):224-227. 被引量：2
3Pawan Goyal,Laxmidhar Behera,T. M. McGinnity.A novel neighborhood based document smoothing model for information retrieval[J].Information Retrieval.2013(3)
4Chengxiang Zhai,John Lafferty.A study of smoothing methods for language models applied to information retrieval[J].ACM Transactions on Information Systems (TOIS).2004(2)
5李文波,孙乐,诺明花,吴健.基于核方法的敏感信息过滤的研究[J].通信学报,2008,29(4):57-62. 被引量：8
6李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32
7王芳.专业文献信息检索课实践探索——以石家庄学院图书馆为例[J].石家庄学院学报,2013,15(1):120-122. 被引量：2
8辛阳,文益民,曾德森,彭文乐,申孟杰,刘文华.一种专利智能推荐算法设计与软件实现[J].计算机系统应用,2013,22(1):70-73. 被引量：3
9王知津,韩正彪,周鹏.当代情报学理论思潮:实在论与反实在论[J].情报科学,2013,31(1):3-8. 被引量：6
10周佳骏.基于动作和情感变化的儿童信息检索经验模型[J].图书情报工作,2013,57(2):47-51. 被引量：10

引证文献3

1李扬.基于向量空间模型的信息检索技术的探讨[J].商情,2013(18):168-168.
2迟玉琢.2013年我国情报学研究进展[J].山东图书馆学刊,2014(6):8-13. 被引量：3
3苏赢彬,杜学绘,夏春涛,李海华.基于文档平滑和查询扩展的文档敏感信息检测方法[J].计算机应用,2014,34(9):2639-2644. 被引量：8

二级引证文献11

1嵇旋,徐雅斌.面向裁判文书的隐私内容检测方法[J].重庆邮电大学学报（自然科学版）,2015,27(5):639-646. 被引量：1
2陈少涌.2014年我国情报学研究进展[J].山东图书馆学刊,2015(5):21-28. 被引量：4
3苏赢彬,杜学绘,夏春涛,曹利峰,陈华成.基于半监督聚类的文档敏感信息推导方法[J].计算机科学,2015,42(10):132-137. 被引量：4
4张亮,徐建忠,罗准辰.一种基于聚类的敏感信息检测结果优化方法[J].信息安全与通信保密,2016,14(1):128-130.
5苏赢彬,杜学绘,曹利峰,夏春涛,范毅凯.文档敏感信息控制模型DSI-CON研究与分析[J].计算机应用研究,2016,33(3):876-881. 被引量：1
6王姣,孙林.基于知识图谱的2005-2015年我国情报分析研究现状[J].现代情报,2016,36(5):144-148. 被引量：6
7杨晓晖,谭江平.云计算环境下企业网站泄露信息高效检测仿真[J].计算机仿真,2017,34(4):460-463. 被引量：3
8李艳琦.企业机密信息网络传输泄露优化检测仿真研究[J].计算机仿真,2017,34(5):385-388.
9郑兆顺,王文彬.分布式网络数据信息泄露检测仿真研究[J].计算机仿真,2017,34(9):435-438. 被引量：5
10陈桂英,汪金龙.大数据中目标信息准确查询仿真研究[J].计算机仿真,2018,35(2):291-294.

1周霜,林远锦.民生新闻泛滥化媚俗化的规避策略[J].新闻传播,2010(7):88-88. 被引量：1
2哈梅芳,孙方礼.数字化资源建设中隐性知识主体风险分析[J].图书馆理论与实践,2005(2):31-32.
3陈丽莎,刘汀.新媒体背景下“新闻反转剧”现象的成因与规避策略[J].新闻世界,2017(1):73-75.
4倪超,倪科.试议体育新闻报道的社会责任[J].中国报业,2012,0(05X):149-150. 被引量：1
5胡丹丹.大众传媒对大学生的负面影响及规避策略[J].中国报业,2016,0(2):85-86.
6高菲.政务微博辟谣的负效应及规避策略[J].青年记者,2013,0(03Z):10-11. 被引量：1
7李飞.以期刊为例论编辑过程中的侵权风险及其规避策略[J].传媒,2015(7):61-63.
8韩晓晔.新闻反转报道的形成与规避[J].传媒,2016,0(14):83-85. 被引量：1
9常书香.反腐新闻低俗化倾向及其规避策略[J].新闻天地（下半月刊）,2007(4):12-14. 被引量：2
10阙影.自媒体在突发事件报道中的风险及规避策略[J].新闻研究导刊,2016,7(6):186-186. 被引量：2

图书情报工作

2013年第1期

浏览历史

内容加载中请稍等...

VSM信息检索中的数据稀疏问题分析与规避策略被引量：3

参考文献26

二级参考文献126

共引文献107

同被引文献83

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

VSM信息检索中的数据稀疏问题分析与规避策略 被引量：3

参考文献26

二级参考文献126

共引文献107

同被引文献83

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

VSM信息检索中的数据稀疏问题分析与规避策略被引量：3