基于HTML文档结构的向量空间模型的改进被引量：10

Vector Space Model Based on HTML Document Structure

下载PDF

导出

摘要根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. According to the text term distribution and content representing ability of different fields of HTML document we propose an improved Vector Space Model （PFTF Model） and compare the retrieval performance of the classical Vector Space Model with that of the PFTF Model by the experiments of a single field and multiple document representations combination using the queries of tree12. The results of these experiments show that the performance of PFIT Model is better than that of traditional model.

作者胡健陆一鸣马范援

机构地区上海交通大学计算机科学与工程系

出处《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金

关键词 HTML文档结构信息检索向量空间模型链接文本TREC 向量空间模型 HTML文档文档结构向量模型分布特征检索性能标签 html document structure, information retrieval, vector space model, anchor text, TREC.

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
2Nick Craswell and David Hawking.Overview of the TREC-2002 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2002
3Nick Craswell and David Hawking.Overview of the TREC-2003 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2003
4Min Zhang,etc.THU TREC 2002: Web track experiments.In: Proceedings of Text Retrieval Conference,2002.586
5Shuang Liu,Clement Yu,Wensheng Wu.UIC at TREC 2002: Web Track.In: Proceedings of Text Retrieval Conference,2002.658
6Vo Ngoc Anh,Alistair Moffat.Homepage finding and topic distillation using a common retrieval strategy.In: Proceedings of Text Retrieval Conference,2002.733
7Einat Amitay,David Carmel,Adam Darlow.Topic distillation with knowledge agents.In: Proceedings of Text Retrieval Conference,2002.263
8Abdur Chowdhury,Mohammed Aljlayl,Eric Jensen,Steve Beitzel,David Grossman,Ophir Frieder.IIT at TREC-2002 linear combinations based on document structure and varied stemming for Arabic retrieval.In: Proceedings of Text Retrieval Conference,2002.299
9Ricardo,Berthier.Modern Information Retrieval.China Machine Press,27～30
10Joon ho Lee.Analyses of multiple evidence combination.In: SIGIR Proceeding,1997

二级参考文献1

1上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年

共引文献22

1钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
2刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
3胡敏,杨红,戴玉刚.基于XML的向量空间模型在数字图书馆检索中的应用研究[J].福建电脑,2005,21(11):1-1.
4刘斌,陈桦.向量空间模型信息检索技术讨论[J].情报杂志,2006,25(7):92-93. 被引量：21
5钟敏娟,凌传繁,白耀辉,郭攀.CDSE:一个面向领域的智能搜索引擎[J].计算机工程,2006,32(24):206-208.
6赵正文,康耀红.Web信息检索结构化排序函数与标引词加权技术[J].计算机工程与应用,2007,43(11):181-184. 被引量：1
7刘斌,徐谦,陈桦.一种关系型数据库并行概念学习系统的探讨[J].微型电脑应用,2007,23(3):53-54.
8周竹荣,黄果,周亭.一种混合的文本信息检索模型研究[J].计算机工程与设计,2007,28(11):2671-2673. 被引量：2
9黄宏涛,徐谦,刘斌.一种关系型数据库并行概念学习系统的探讨[J].陕西科技大学学报（自然科学版）,2007,25(4):135-137.
10张纯青,陈超,邵正荣,俞能海.基于加权词频的信息检索相似度评价模型[J].计算机仿真,2008,25(1):134-137. 被引量：2

同被引文献76

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2邢玲,史杏荣.基于UCL的网页自动标引技术[J].计算机工程与应用,2004,40(17):148-151. 被引量：6
3马建国,邢玲,李幼平,李在铭.数据广播中的UCL标引与传输机制[J].电子学报,2004,32(10):1621-1624. 被引量：24
4赵国涛,何钦铭.基于本体的异构文本分类系统[J].计算机工程,2004,30(21):123-125. 被引量：4
5吴志峰,田学东.人名、机构名在基于概念的文本分类中的应用研究[J].河北大学学报（自然科学版）,2004,24(6):657-661. 被引量：2
6陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
7马建国,邢玲,李幼平,文丽.广播型网格的用户兴趣图谱[J].电子学报,2005,33(1):142-146. 被引量：5
8侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
9张玉峰,艾丹祥,金燕.基于Semantic Web的个性化网络导航机制[J].情报学报,2005,24(4):438-444. 被引量：12
10秦春秀,赵捧未,窦永香.基于用户兴趣的个性化检索[J].情报学报,2005,24(4):449-452. 被引量：7

引证文献10

1张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3邢玲,马建国,李幼平,刘志文.一种基于UCL的中文网页信息过滤方法[J].电子学报,2006,34(10):1752-1757. 被引量：9
4谭金波.基于本体实现网页规则分类的方法[J].现代图书情报技术,2007(3):39-42.
5刘海峰,王倩,王元元.基于Web的文本检索位置加权模型研究[J].情报科学,2007,25(3):451-455. 被引量：5
6谭金波,杨晓江,李艺.网页自动分类中特征权重计算方法的改进[J].情报学报,2008,27(1):56-61. 被引量：2
7郑国忠.主题相似性计算模型研究与设计[J].科技信息,2008(30):73-74. 被引量：1
8陈桂鸿.普通文件和HTML文件及XML文件信息检索过程探析[J].科技情报开发与经济,2009,19(11):90-92.
9陈笑筑,王东,陈笑蓉.基于页面标签的网页分类研究[J].商场现代化,2009(19):100-101. 被引量：2
10李中原,杨守文.基于向量空间模型的网页特征权重计算改进[J].计算机与现代化,2010(6):137-139. 被引量：4

二级引证文献31

1刘海峰,王元元,张学仁,刘守生.文本分类中一种基于正交变换的特征降维方法[J].计算机科学,2008,35(5):125-126. 被引量：3
2邢玲,马建国,刘志文,李幼平.移动通信中的信息共享结构[J].北京理工大学学报,2008,28(8):737-740. 被引量：3
3刘海峰,王元元,张学仁,姚泽清.文本分类中基于位置和类别信息的一种特征降维方法[J].计算机应用研究,2008,25(8):2292-2294. 被引量：9
4邢超,王珂.互补网络中多级混合过滤系统的研究[J].电脑知识与技术,2008,3(9):1423-1425.
5金春霞.Web文本挖掘相关技术研究及应用[J].现代计算机,2009,15(3):109-111. 被引量：1
6金春霞.Web文本挖掘相关技术研究及应用[J].微型电脑应用,2009(7):54-56. 被引量：2
7陈新元.近年来我国分类检索语言研究热点综述[J].科技情报开发与经济,2009,19(20):133-136. 被引量：1
8邢玲,马建国,李幼平,刘志文.Research and Application of Broad-Storage Architecture in Digital Television System[J].Journal of Beijing Institute of Technology,2009,18(2):215-219.
9李中原,杨守文.基于向量空间模型的网页特征权重计算改进[J].计算机与现代化,2010(6):137-139. 被引量：4
10刘海峰,刘守生,汪泽焱.一种基于类别信息的改进文本特征选择[J].计算机应用与软件,2010,27(6):8-10. 被引量：1

1周必水,郦泓.用Java实现基于向量空间的搜索引擎优化[J].计算机应用研究,2003,20(2):150-153.
2张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
3柏彬,牛红利.基于二叉树模型的HTML转换为XML的方法[J].才智,2010,0(3):35-35.
4彭喜化,黄睿.基于向量空间模型的多关键字检索技术[J].重庆职业技术学院学报,2006,15(3):151-153. 被引量：1
5黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009,15(8):26-30.
6丁德红,方逵,王娟,朱幸辉.基于内容过滤推荐的农业信息推荐模型研究[J].湖南农业大学学报（自然科学版）,2013,39(6):683-687. 被引量：1
7许明英,尉永清,赵静.一种结合反馈信息的贝叶斯分类增量学习方法[J].计算机应用,2011,31(9):2530-2533. 被引量：5
8王成,涂庆华,徐国祥.基于IATF安全模型的一卡通安全体系设计[J].中国教育信息化,2016,22(21):85-89. 被引量：2
9张琼,石教英.声学仿真中的人工神经网络方法[J].软件学报,1998,9(1):7-13. 被引量：3
10米传民,彭鹏,单晓菲,马静.考虑显式评分的基于二部图的推荐算法[J].中国管理科学,2015,23(S1):224-228.

情报学报

2005年第4期

浏览历史

内容加载中请稍等...

基于HTML文档结构的向量空间模型的改进被引量：10

参考文献14

二级参考文献1

共引文献22

同被引文献76

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于HTML文档结构的向量空间模型的改进 被引量：10

参考文献14

二级参考文献1

共引文献22

同被引文献76

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于HTML文档结构的向量空间模型的改进被引量：10