基于摘要的web内容挖掘研究被引量：1

Using Summarization Techniques For Web Content Mining

下载PDF

导出

摘要 Internet是一个巨大的,分步广泛的,动态性强的全球信息服务中心,人们想在它上面找到想要的相关信息是很困难的,一般用户通过给搜索引擎提供简短的关键词来检索信息,但是通过搜索引擎返回的相关结果太多,这使得处理相关结果太耗时,本文提出了一种语义虚拟文档(SVD)来表示web文档,在此基础上实现了凝聚层次聚类算法,以自动聚类内容相似的web文档。结果:一方面使网络用户增强了相关结果的判断处理,同时使用户快速、高效的从Internet上发现想要的信息,另一方面返回的结果在知识表示上增强了web内容挖掘。 Internet is a global service center, which is very large, widespread, dynamic. It is very difficult for people to find relevant information on the Internet. Most users typically search their information by short keywords to search engines, but search engines usually return too many relevant results, which make the process of relevant results time-consuming. In this paper, we put forward a Semantic Virtual Document to represent web document. Based on this, we realize Hierarchical Agglomerative Clustering and achieve automatic content-based categorization of similar web document. As a result, on the one hand, document browsing enhance relevant judgement process for Internet users and find information-wanted swiftly and efficiently. On the other hand, returned results enhance web content mining on knowledge representation.

作者常浩陈莉

机构地区西北大学信息科学与技术学院

出处《微计算机信息》北大核心 2006年第08X期302-304,共3页 Control & Automation

基金陕西省自然科学基金(98X11) 陕西省教育厅重点科研计划项目(00JK015)

关键词语义虚拟文档锚文本摘要文本聚类单链接凝聚层次聚类算法 SVD, Anchortext, Summarization, Document clustering, HAC Single-Linkage

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1[英]汉德(Hand，D．)著，张银奎等译．数据挖掘原理．机械工业出版社,2003．4．292—294
2韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
3卜东波,白硕,李国杰.文本聚类中权重计算的对偶性策略[J].软件学报,2002,13(11):2083-2089. 被引量：20
4汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003,19(1):3-4. 被引量：87
5刘弘,刘希玉.一种Web信息的启发式检索方法[J].小型微型计算机系统,2003,24(3):427-429. 被引量：6
6Karypis G,Han E H,Kumar V,Chameleon: a hierarchical clustering algorithm using dynamic modeling. Computer. 1999
7许洪波.文本挖掘与机器学习.信息技术快报,2005,(2):1-14.

二级参考文献11

1Han J，Data Mining:Concepts and Techniques，2000年
2Wang K，Proc of VLDB'97，1999年，363页
3Zaiane O R，Proc Int Workshop Web Information and Data Management（WIDM'98），1998年，9页
4Mobasher B，Tech Rep:TR96 0 5 0，1996年
5Zaiane O R，Proc KDD'95，1995年，331页
6范明,孟小蜂译.数据挖掘:概念与技术--聚类分析[M].北京:机械工业出版社,2001.223-258.
7Salton, G. Automatic Text Processing. Addison-Wesley Publishing Company, 1988.
8Hartigan, J.A. Clustering Algorithms, Yale University, John Wiley&Sons, New York, London, 1975.
9Kleinberg, J. Authoritative sources in a hyperlinked environment, In: Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. 1998. http://www.cs.cornell.edu/home/kleinber/.
10Dumais, S.T. LSI meets TREC: a status report. In: Harman, D., ed. Proceedings of the 1st Text Retrieval Conference (TREC1). National Institute of Standards and Technology, 1993. 137～152.

共引文献474

1钱卓昊.数据驱动的属性值分类法及其在属性泛化中的应用[J].智能计算机与应用,2021,11(4):77-81.
2宁彬.基于数据挖掘的入侵检测系统研究[J].微计算机信息,2008,24(6):97-98. 被引量：10
3杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
4王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
5阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
6董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
7杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
8张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
9万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
10朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17

同被引文献14

1姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
2秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
3刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
4查志琴.基于行模式的网页信息提取算法[J].常州工学院学报,2007,20(4):1-4. 被引量：3
5严蔚敏,吴伟民.数据结构(C语言版)[M].北京:清华大学出版社,2003.
6杨尔红.突发事件信息提取研究[D].北京:北京语言大学,2005.
7姜思慧.面向Web的元数据和对象数据挖掘[D].北京:北京理工大学,2008.
8刘敬培.事件信息抽取[D].北京:北京理工大学,2009.
9田华,鄢喜爱.信息检索中模式匹配算法的分析[J].高校图书馆工作,2007,27(6):41-43. 被引量：1
10花海洋,赵怀慈.聚类算法在银行客户细分中的应用[J].计算机工程,2008,34(24):37-39. 被引量：5

引证文献1

1刘敬培,李江,季文平,潘鹏辉.面向文本的事件信息抽取方法的研究[J].计算机与现代化,2012(7):198-201. 被引量：2

二级引证文献2

1贾遂民,张玉,张腾飞.一种基于介词用法的灾难事件信息抽取方法[J].计算机与现代化,2015(7):116-119. 被引量：3
2陈瑛,张晓强,陈昂轩,赵筱钰,董玉博.基于信息抽取的食品安全事件自动问答系统方法研究[J].农业机械学报,2020,51(S02):442-448. 被引量：10

1陈亚平,吴陈.FCM聚类算法与改进层次聚类算法的结合[J].科学技术与工程,2009,9(17):5008-5011. 被引量：1
2薄文彦,付文兰,张凤英.聚类算法的改进的研究[J].网络安全技术与应用,2011(6):23-25.
3盛俊杰,谢丽聪.基于成对约束的半监督凝聚层次聚类算法[J].微型机与应用,2012,31(24):67-69.
4魏曰海.基于成对约束的半监督凝聚层次聚类算法[J].电脑编程技巧与维护,2013(24):97-97.
5高世健,王丽珍,肖清.一种基于U-AHC的不确定空间co-location模式挖掘算法[J].计算机研究与发展,2011,48(S3):60-66. 被引量：7
6罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
7王宁,张晰,纪永刚,鲁统臻,于波.凝聚层次聚类的MODIS海冰外缘线提取算法与应用[J].地球信息科学学报,2011,13(2):266-272. 被引量：6
8赵旭剑,冯健,李波,张晖,王耀彬.基于HAC的文本话题聚类研究[J].通讯世界,2015,21(6):312-313.
9甘勇,姜森,杨佳佳.微博话题检测SP&HC聚类算法分析[J].郑州轻工业学院学报（自然科学版）,2014,29(2):58-61.
10付双胜,张明军,刘棣华,鲁晓帆.一种增强的基于GCA的入侵检测方法[J].网络安全技术与应用,2010(10):73-75.

微计算机信息

2006年第08X期

浏览历史

内容加载中请稍等...

基于摘要的web内容挖掘研究被引量：1

参考文献7

二级参考文献11

共引文献474

同被引文献14

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于摘要的web内容挖掘研究 被引量：1

参考文献7

二级参考文献11

共引文献474

同被引文献14

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于摘要的web内容挖掘研究被引量：1