-
题名利用链接分析发现中国大学网站的权威网页和中心网页
被引量:1
- 1
-
-
作者
张浩
富路
崔雷
-
机构
中国医科大学医学信息学系
-
出处
《中华医学图书情报杂志》
CAS
2007年第4期73-75,共3页
-
文摘
从中国大学排名前100位的大学中选取36所综合性大学,利用Alltheweb搜索引擎收集网站链接数据,单纯从大学间的网站链接关系出发,得到了权威网页和中心网页。
-
关键词
网站链接
链接数量
权威网页
中心网页
网络计量学
-
Keywords
Web linking
Linking number
Authoritative Web pages
Hub Web pages
Webmetrics
-
分类号
G350
[文化科学—情报学]
-
-
题名FPC:大规模网页的快速增量聚类
被引量:3
- 2
-
-
作者
余钧
郭岩
张凯
刘林
刘悦
俞晓明
程学旗
-
机构
中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
中国科学院大学
中国信息安全评测中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第2期182-188,共7页
-
基金
国家973计划(2012CB316303
2013CB329602)
+4 种基金
国家863计划(2014AA015204)
国家自然科学基金(61232010
61425016
61572473
61572467)
-
文摘
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
-
关键词
DOM树分层向量
网页簇中心
局部敏感哈希
快速增量聚类
-
Keywords
DOM tree layered vectors
web page cluster center
local sensitive hashing
fast incremental clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于文本内容的HITS改进算法
被引量:5
- 3
-
-
作者
郭鸿
-
机构
桂林电子科技大学计算机与控制学院
-
出处
《计算机系统应用》
2009年第9期38-40,131,共4页
-
基金
广西青年科学基金(桂科青0832101)
-
文摘
HITS算法是WEB结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提高了查询结果的相关度,减少了主题漂移的发生。
-
关键词
HITS算法
主题漂移
文本内容
权威网页
中心网页
-
分类号
TP393.01
[自动化与计算机技术—计算机应用技术]
-
-
题名Web结构挖掘中HITS算法的改进
被引量:3
- 4
-
-
作者
郭鸿
周娅
-
机构
桂林电子科技大学计算机与控制学院
-
出处
《信息化纵横》
2009年第16期70-72,75,共4页
-
基金
广西青年科学基金(桂科青0832101)
-
文摘
HITS算法是Web结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提高了查询结果的相关度,降低了主题漂移的可能性。
-
关键词
HITS算法
主题漂移
权威网页
中心网页
-
Keywords
HITS (Hyperlink-Induced Topic Search)
topic drift
text
authority web
hub web
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于链接分析的HITS算法研究
被引量:4
- 5
-
-
作者
李玥
刘发升
-
机构
江西理工大学信息工程学院
-
出处
《软件导刊》
2008年第11期70-72,共3页
-
基金
江西省科技厅工业攻关项目(赣财教[2005]132)
江西省教育厅科技计划项目(GJJ08283)
-
文摘
Kleinberg的HITS算法是通过分析链接结构,采用特征向量的办法来确定页面的权威性等级。详细阐述了HITS算法,该算法认为页面中的所有超链具有同等价值,从而引起了主题偏移。针对这些问题提出改进的ARC算法和SALSA算法,它充分考虑文本内容,区别对待不同的链接,从而达到减少主题漂移现象的目的。
-
关键词
HITS算法
权威网页
中心网页
-
Keywords
HITS algorithm
Authority page
Hub page
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名浅析基于VoIP技术的网络答疑系统
- 6
-
-
作者
王超
-
机构
沈阳奥林匹克置业投资有限公司
-
出处
《软件》
2013年第8期136-,138,共2页
-
文摘
由声音结束IP的字面意义,可以直译为透过IP网络传输的语音讯号或影像讯号,所以VoIP就是一种可以在IP网络上互传类比音讯或视讯的一种技术。
-
关键词
VOIP
协议
远程教育
网页呼叫中心
-
分类号
G4
[文化科学—教育技术学]
-