基于DOM的信息检索研究被引量：1

Research of Information Retrieval based on DOM

下载PDF

导出

摘要向量空间模型是信息检索中的重要模型,传统的向量空间模型考虑了特征项在目标文档中的出现频率和文档频率,但并未考虑特征项出现在文本中的位置这一重要信息。针对这一问题,文章在将文档以文档对象模型表示的基础上,根据特征项出现的位置不同,对特征项的权重额外附加一个不同的系数,以反映不同位置上的特征项在表达文档主旨上的能力差异,以期改善返回文档的排序质量,改进用户的检索工作。通过模拟实验,验证了该方法相比于传统VSM在改进检索效果上的优势。 Vector Space Model is a important model in information retrieval, traditional Vector Space Model take feature term frequence and document frequence into account, regardless of the location feature term appears, which is a significant information. Considering the problem above, after turn document into Document Object Model, this paper add a ratio to weight of feature term based on different location it appears to inflect different ability of feature term that appears in different location in expressing main idea of the document, thus improve ranking result of documents returned and users＇ retrieving work. Simulation experiment manifests the advantage of the solution above over traditional VSM.

作者陈涛薛丽敏宋庆帅

机构地区海军指挥学院信息系

出处《信息网络安全》 2014年第5期82-86,共5页 Netinfo Security

关键词信息检索位置信息 DOM LVSM information retrieval location information DOM LVSM

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1COOPER W S. Getting Beyond Boole[J]. Information Processing and Management, 1988, 24(03):225-243.
2SALTON G, WONG A, YANG C S. A Vector Model for Automatic Indexing[J]. Communication of the ACM, 1975, 18(11):613-620.
3MAR.ON M E, KUHNS J L. On relevance, probabilistic indexing and information retrieval[J]. Journal of the ACM, 1960, 7(03): 216-244.
4SALTON G, WONG A, YANG C S. On the Specification of Tern1 Values in Automatic Indexing[J]. Journal of Documentation, 1973, 29(04):351 372.
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
7Google[EB/OL]. http://www.google.com,2013-05-09.
8NortherLight[EB/OL]. http://www.northernlight.com,2013-05- 09.
9Infoseek[EB/OL]. http://www.infoseek.com, 2013-05-09.
10SELBERG E, ETAION O. Muti-service search and comparison using the MetaCraw- ler[C]. 4th int.WVq-W Conference, 1995:195-208.

二级参考文献19

1刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
2LUHN HP.The automatic creation of literature abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
3RUSH JE,SALVADOR R,ZAMORA A.Automatic abstracting and indexing production of indicative abstracts by application of contextual inference and syntactic coherence criteria[J].Journal of American Society for Information Society,1971,22(4):260-274.
4SALTON G,SINGHAL A,MITRA M.Automatic Text Structuring and Summarization[J].Information Processing and Management,1997,33(2):193-207.
5RAU LF.Concpetual information extraction and retrieval from natural language input[A].Proceedings of RIAO 88 Conference[C],1988.424-437.
6DELORT JY,BOUCHON-MEUNIER B,RIFQI M.Enhanced Web Document Summarization Using Hyperlinks[A].Proceedings of the fourteenth ACM conference on Hypertext and hypermedia[C].United Kingdom,2003.208-215.
7HU M,LIU B.Mining and Summarizing Customer Reviews[A].KDD04[C],2004.22-25.
8GUPTA S,KAISER G,NSISTADT D,et al.DOM-based Content Extraction of HTML Documents[A].Proceedings International WWW Conference[C].New York:ACM Press,2003.207-214.
9YI L,LIU B,LI X.Eliminating Noisy Information in Web Pages for Data Mining[A].SIGKDD'03[C],2003.24-27.
10KIERAS DE.Thematic processes in the comprehesion of technical prose[A].BRITTON BK,BLACK JB,ed.Understanding Expository Text[C].Hillsdale,NJ:Lawrence Erlbaum,1985.89-107.

共引文献61

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：14
2杜光芹,张化祥.基于超链接结构和向量空间模型的网页排序算法研究[J].信息技术与信息化,2006(4):106-108.
3LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
4刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
5贾美娟,李娟.基于分级匹配的信息过滤研究[J].大庆师范学院学报,2007,27(5):14-17. 被引量：1
6周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
7李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12
8李艳玲,戴冠中,覃森.快速的文本倾向性分类方法(英文)[J].电子科技大学学报,2007,36(6):1232-1236. 被引量：2
9蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
10李村合,李晗.基于词共现模型与DOM的石油主题采集策略[J].微计算机应用,2008,29(2):28-31.

同被引文献4

1熊亚洲.网络广告投放效果影响因素的实证分析[J].黄石理工学院学报（人文社科版）,2012,29(2):18-21. 被引量：4
2李引,袁峰.基于领域驱动设计的应用系统模型[J].计算机工程与应用,2013,49(16):1-8. 被引量：18
3陈震,刘洪健.基于倒排列表的网流索引检索与压缩方法[J].信息网络安全,2014(4):25-30. 被引量：2
4解忠乾,常笑,姬东鸿.融合广告主行为的拍卖词实时触发[J].计算机应用,2014,34(9):2566-2570. 被引量：5

引证文献1

1张建,孙铭,段娟.基于大数据平台的精准广告系统研究与设计[J].电脑与信息技术,2015,23(4):47-50. 被引量：7

二级引证文献7

1汪雅琪,吴祖赟,苏杨.试论兴趣导向推送模式对广告受众阅读效果影响[J].北方传媒研究,2019(5):51-56.
2王可伟.基于大数据的品牌VIS设计分析与提升解决方案探讨[J].科技创新与应用,2017,7(1):57-58. 被引量：4
3张科星.网络大数据平台中的特征数据分类系统设计与实现[J].现代电子技术,2017,40(8):25-28. 被引量：11
4尹美林,陈嘉欣.大数据时代移动互联网下的广告精准营销研究[J].电脑与信息技术,2018,26(4):5-7. 被引量：7
5郑雅羽,陈杰华,贾婷婷.基于受众兴趣识别的智能广告展示系统设计[J].浙江工业大学学报,2018,46(5):496-501. 被引量：7
6种艳伟,高跃明.公共信息精准发布平台关键技术研究[J].软件,2016,37(11):101-104. 被引量：2
7冯婷.浅谈大数据时代下微博广告传播策略[J].新闻研究导刊,2016,7(1). 被引量：1

1田甜,倪林,钱功伟.一种结合社区发现的网页排序算法[J].计算机工程与应用,2007,43(12):116-118. 被引量：2
2张芳,郭常盈.一种新的小说搜索排序算法[J].南阳理工学院学报,2011,3(4):28-31.
3王润平,陈旺虎,段菊.一种科学工作流的云数据布局与任务调度策略[J].计算机仿真,2015,32(3):421-425. 被引量：7
4刘春晓,马君,孟祥福.基于隶属度的数据库模糊结果排序方法[J].辽宁工业大学学报（自然科学版）,2011,31(5):295-297. 被引量：1
5潘大胜.面向校园网搜索引擎的PageRank改进算法[J].湖南文理学院学报（自然科学版）,2009,21(1):81-83.
6“我是主宰”——盛大World Zero 平台让网络游戏玩家更有价值[J].大众软件,2009(17):85-85.
7张大陆,徐平.基于虚节点的非结构化P2P节点的负载平衡改进[J].计算机应用,2007,27(11):2652-2655. 被引量：1
8王冬,雷景生.一种基于PageRank的页面排序改进算法[J].微电子学与计算机,2009,26(4):210-213. 被引量：18
9徐忞.计算机公共课分层教学MOODLE平台的构建[J].电脑与电信,2014(11):52-55.
10孟星,丁振国.个性化元搜索引擎模型研究[J].计算机工程与应用,2008,44(36):150-152. 被引量：7

信息网络安全

2014年第5期

浏览历史

内容加载中请稍等...

基于DOM的信息检索研究被引量：1

参考文献11

二级参考文献19

共引文献61

同被引文献4

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于DOM的信息检索研究 被引量：1

参考文献11

二级参考文献19

共引文献61

同被引文献4

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于DOM的信息检索研究被引量：1