基于向量空间的网页内容相似度计算方法研究被引量：4

Research on Webpage Content' Similarity Calculation Method Based on Vector Space Model

下载PDF

导出

摘要针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。 Aiming to data mining in great mass of Web pages,this paper puts forward Web page content＇ similarity calculation method based on vector space model and software system framework.This system extracts massive Web pages from search engines and distinguishes the URL pages coded in Chinese,then extracts this page out Chinese characters and selects out Chinese notional words,establishes vector space model to calculate the similarity between Web pages＇ contents.The system reduces the Web document range,saves a lot of time and space,and lays a good foundation for the classification,search and intellectualization for network information.

作者何忠秀王霜安礼成

机构地区西华大学数学与计算机学院西华大学机械工程与自动化学院

出处《计算机与现代化》 2010年第9期53-55,58,共4页 Computer and Modernization

基金西华大学人才培养基金(R0820208)

关键词向量空间网页内容相似度 vector space model webpage content＇ similarity

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1KIM Jae-ho,CHOI Key-sun.Patent document categorization based on semantic structural information[J].Information Processing and Management,2007,43(5):1200-1215.
2郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
4庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
5陈芨熙,顾新建,陈国海,魏江.基于向量空间模型和专利文献特征的相似专利确定方法[J].浙江大学学报（工学版）,2009,43(10):1848-1852. 被引量：11
6毛雪云,曾国荪,王伟.基于向量空间模型的网页文本可信性分类方法[J].计算机工程与应用,2008,44(25):109-112. 被引量：1
7王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
8李雪蕾,张冬茉.一种基于向量空间模型的文本分类方法[J].计算机工程,2003,29(17):90-92. 被引量：31
9陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
10马辉民,李卫华,吴良元.VSM在中文文本聚类中的应用及实证分析[J].武汉理工大学学报（信息与管理工程版）,2006,28(4):56-59. 被引量：13

二级参考文献96

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4马辉民,李卫华,吴良元.VSM在中文文本聚类中的应用及实证分析[J].武汉理工大学学报（信息与管理工程版）,2006,28(4):56-59. 被引量：13
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
7黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
8鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
9卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
10冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.

共引文献660

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：3
2安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
3蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
6蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
7孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
8吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
9刘海峰,王元元,王倩.基于特征选择的文本分类方法评述[J].情报科学,2007,25(z1):193-196.
10杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.

同被引文献33

1中国互联网络中心(CNNIC).第33次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/t20140305-46240.htm,2014旬3_05.
2Fiol-Roig G, Mir6-Juli:t M, Herraiz E. Data mining tech- niques for Web page classification[ J]. Highlights in Prac- tical Applications of Agents and Multiagent Systems, 2011, 89:61-68.
3Baykan E, Henzinger M, Marian L, et al. A comprehensive study of features and algorithms for URL-based topic classifi- cation[J]. ACM Transactions on the Web (TWEB), 2011, 5(3) :No 15.
4Srittrai W, Meesad P, Haruechaiyasak C. Improving Web page classification by integrating neighboring pages via a topic model[ C]// Proceedings of IICS, 2010. 2010:238-246.
5Qi X, Davison B D. Classifiers without borders: Incorpora- ting fielded text from neighboring Web pages [ C ]// Pro- ceedings of the 31 st Annual International ACM SIGIR Con- ference on Research & Development on Information Re- trieval. 2008:643-650.
6Croft W B, Metzler D, Strohman T. Search engines: Infor- mation Retrieval in Practice [ M]. Addison-Wesley, 2010: 351-358.
7Issac B, Jap W J. Implementing spam detection using Bayesian and Porter Stemmer keyword stripping approaches [C]/! IEEE Region 10 Conference on TENCON 2009- 2009. 2009 : 1-5.
8AOL Inc: The Open Directory Project(ODP) [ EB/OL]. http :///www. dmoz. org/, 2013-03-01.
9ceedings of the 21st International Conference Companion on World Wide Web. 2012:535-536.
10Menon A K. Large-Scale Support Vector Machines: Algo- rithms and Theory [ R ]. Research Exam, University of Cal- ifomia, San Diego, 2009.

引证文献4

1蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
2赵涛,张太红,陈燕红.中文农业网页去重及相似度判断研究[J].计算机技术与发展,2015,25(1):191-194. 被引量：2
3李大辉,何清刚,王佰玲,邹新一.基于网页结构的网站检测研究[J].高技术通讯,2015,25(10):912-918.
4王忠义,谭旭,黄京.基于激活扩散理论的数字图书馆用户认知结构挖掘[J].图书情报工作,2017,61(13):117-124. 被引量：4

二级引证文献8

1杨旭.浅议地理信息在供水行业中的应用[J].科技致富向导,2014,0(35):107-107.
2钟旭东,黄章进,顾乃杰,张旭.Web文本分类中的标签权重自动优化研究[J].小型微型计算机系统,2016,37(5):890-894. 被引量：4
3刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
4于兴尚,王迎胜.面向用户认知需求的图书馆用户画像研究[J].图书馆,2021(2):57-62. 被引量：15
5信晓艺.基于大数据分析的影音推荐系统研究[J].渭南师范学院学报,2021,36(11):87-93.
6王忠义,刘继月,胡敏,王珂莹.数字图书馆用户跨学科认知结构挖掘研究[J].图书馆学研究,2022(5):35-44.
7徐文哲,郑建明,白云朴.基于认知层次动态演化视角的智慧公共文化服务实现策略研究[J].新世纪图书馆,2022(7):10-17. 被引量：3
8操玉杰,刘思岩,易明,贺满.基于“学科-关键词”二模网络的交叉领域认知结构分析——以新冠肺炎研究为例[J].情报科学,2023,41(4):62-71. 被引量：1

1杨仁广,孟祥增,原佳丽.一种基于网页内容和链接分析的主题搜索算法[J].情报杂志,2008,27(6):64-66. 被引量：6
2郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
3中原.熊猫看书[J].电子世界,2010(1):53-54.
4Delight.操作系统多内码支持[J].计算机应用文摘,2000(5):53-56.
5BETMAN.我来听E-Mail[J].电脑界（应用文萃）,2001(2):60-61.
6李江华,赵国辉.Java中文编码问题研究[J].软件导刊,2009,8(3):49-50. 被引量：1
7吴慧,庞超.浅谈数据库查询优化策略[J].硅谷,2011,4(5):177-177. 被引量：1
8乔予思,步国超,张辰.51环境下按键驱动程序的优化[J].电子技术与软件工程,2013(9):34-34.
9姚竟发,唐小强.jsp中文编码乱码的分析与解决[J].科技传播,2011,3(24):183-183.
10施磊磊,施化吉.海量数据存储模型的研究[J].无线通信技术,2014,23(4):32-35.

计算机与现代化

2010年第9期

浏览历史

内容加载中请稍等...

基于向量空间的网页内容相似度计算方法研究被引量：4

参考文献14

二级参考文献96

共引文献660

同被引文献33

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于向量空间的网页内容相似度计算方法研究 被引量：4

参考文献14

二级参考文献96

共引文献660

同被引文献33

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于向量空间的网页内容相似度计算方法研究被引量：4