-
题名博客圈的特征及其演化机制初探
被引量:13
- 1
-
-
作者
王建冬
王继民
田飞佳
-
机构
北京大学信息管理系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第4期56-60,共5页
-
基金
国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一
-
文摘
以中文博客圈为考察对象,揭示博客圈的特征和演化机制。基于博客圈的共同用户关系构建博客圈间的复杂网络,并探讨其度分布情况。最后提出一个博客圈间复杂网络的演化模型,以此模型所模拟的结果与实证结果吻合效果较好。
-
关键词
博客圈
复杂网络
度分布
演化模型
-
Keywords
Blog group Complex network Degree distribution Evolving model
-
分类号
F49
[经济管理—产业经济]
-
-
题名一种基于内容规则的网页去噪算法
被引量:4
- 2
-
-
作者
王建冬
王继民
田飞佳
-
机构
北京大学信息管理系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第3期51-54,共4页
-
基金
国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一
-
文摘
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。
-
关键词
网页净化
编辑距离
-
Keywords
Noise reduction in Web pages Levenshtein distance
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-