-
题名基于引用启发式和URL语义相结合的会话识别方法
被引量:3
- 1
-
-
作者
张帅
陈兴蜀
童浩
崔晓靖
-
机构
四川大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第1期102-105,共4页
-
基金
国家自然科学基金面上资助项目(61272447)
-
文摘
会话识别是Web日志的用户行为分析的关键步骤,精准的会话识别是有效进行用户行为分析的基础。已有的会话识别方法不能有效地动态适应不同的用户(如多IP单用户、单IP多用户)行为,在Web日志分析的基础上,提出了一种基于引用启发式和URL语义相结合的会话识别方法。实验结果表明,改进后的会话识别方法能更有效地识别出用户的真实会话。
-
关键词
WEB日志挖掘
会话识别
数据预处理
引用启发式
url语义
-
Keywords
Web mining session identification data pre-processing referenced heuristic url-semantic
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于主题语义URL的信息搜索方法研究
被引量:2
- 2
-
-
作者
林晶
彭小宁
-
机构
怀化学院计算机工程系
-
出处
《计算机应用与软件》
CSCD
2015年第6期42-45,共4页
-
基金
湖南省教育厅科研项目(10C1064)
怀化学院科研项目(HHUY2010-18)
怀化学院重点学科建设项目
-
文摘
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。
-
关键词
主题树
url语义
搜索引擎
主题-url映射
-
Keywords
Topic tree url semantics Search engine Topic-url mapping
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-