期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
一个基于现实世界的大型Web参照数据集——UK2006 Datasets的初步研究
1
作者 曾刚 李宏 《企业技术开发》 2009年第5期16-17,31,共3页
文章介绍了WEBSPAM-UK2006数据集,一个大型的基于现实世界的,人工评判过一些垃圾行为的web数据集合,详细的对数据集的构成进行了分析,对数据集采用Python进行了初步的预处理,为以后在反垃圾网页行为方面的算法和判定研究提供了非常有意... 文章介绍了WEBSPAM-UK2006数据集,一个大型的基于现实世界的,人工评判过一些垃圾行为的web数据集合,详细的对数据集的构成进行了分析,对数据集采用Python进行了初步的预处理,为以后在反垃圾网页行为方面的算法和判定研究提供了非常有意的经验和参考。 展开更多
关键词 搜索引擎作弊 web数据集 链接分析 web
下载PDF
支持个性化推荐的Web页面关联规则挖掘算法 被引量:19
2
作者 闫莺 王大玲 于戈 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期79-81,共3页
分析了应用于个性化推荐的Web页面关联规则的特点,提出了“壹支持数下k关联规则”的思想,根据这一思想设计、实现了一种应用于个性化推荐的Web页面关联规则挖掘算法——PARM(Pageview Association Rule Mining)及频繁项集的Freq-Set-Tre... 分析了应用于个性化推荐的Web页面关联规则的特点,提出了“壹支持数下k关联规则”的思想,根据这一思想设计、实现了一种应用于个性化推荐的Web页面关联规则挖掘算法——PARM(Pageview Association Rule Mining)及频繁项集的Freq-Set-Tree存储结构,在产生频繁项的同时挖掘关联规则,因而能提高效率。实验证明在个性化推荐系统中PARM算法的效率明显高于FP-Growth算法。 展开更多
关键词 数据挖掘 web挖掘 个性化 关联规则 Freq-set—Tree
下载PDF
一种基于XML Web Service的分布式解决方案 被引量:10
3
作者 胡学骏 曾凡智 《计算机工程》 EI CAS CSCD 北大核心 2005年第13期204-205,222,共3页
介绍了XMLWebService的工作原理。提出了一种在开放的Internet网络环境下,用基于XMLWebService开发技术来实现的、适合于中小企业应用的分布式管理信息系统的解决方案,该方案既满足了企业的业务分散处理的需要,同时又具有成本低、实现... 介绍了XMLWebService的工作原理。提出了一种在开放的Internet网络环境下,用基于XMLWebService开发技术来实现的、适合于中小企业应用的分布式管理信息系统的解决方案,该方案既满足了企业的业务分散处理的需要,同时又具有成本低、实现方法简单的特点。提高了企业组建企业管理信息系统的效率和质量。 展开更多
关键词 XML web SERVICE 模式对象模型 数据集 模式定义语言
下载PDF
基于过滤器的Web访问模式挖掘 被引量:2
4
作者 佟强 周园春 +1 位作者 吴开超 阎保平 《计算机工程》 CAS CSCD 北大核心 2007年第6期59-61,共3页
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算... 针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。 展开更多
关键词 数据挖掘 web日志 访问模式 频集
下载PDF
基于树扩展朴素贝叶斯分类器的Web代理服务器缓存优化 被引量:9
5
作者 赵中全 刘丹 《计算机工程》 CAS CSCD 北大核心 2017年第1期115-119,共5页
Web代理服务器缓存能在一定程度上减少网络拥塞现象和用户的访问延迟,减轻服务器负载。然而Web代理缓存的缓存命中率和字节命中率较低,并不能很好地起到加速网络请求响应的效果。为此,研究监督学习方法,使用树扩展朴素贝叶斯分类器对We... Web代理服务器缓存能在一定程度上减少网络拥塞现象和用户的访问延迟,减轻服务器负载。然而Web代理缓存的缓存命中率和字节命中率较低,并不能很好地起到加速网络请求响应的效果。为此,研究监督学习方法,使用树扩展朴素贝叶斯分类器对Web日志数据进行分类,进而预测可能会再次访问到的Web对象,并结合最近最少使用(LRU)算法,提出一种新的缓存策略。实验结果表明,树扩展的贝叶斯分类器在精度和召回率指标上优于朴素贝叶斯和BP神经网络等分类器,通过树扩展的贝叶斯分类器优化后的缓存策略与普通LRU算法相比,不仅可以提高缓存的效率,而且可有效提高Web代理缓存的请求命中率和字节命中率。 展开更多
关键词 web代理缓存 贝叶斯分类器 贝叶斯网络 循环滑动窗口 数据集
下载PDF
基于Web数据挖掘的高效关联规则研究 被引量:9
6
作者 陈晓红 秦杨 《计算机工程与科学》 CSCD 2005年第11期48-51,共4页
随着网络资源越来越丰富,Web数据挖掘逐渐成为因特网上资源有效利用的研究热点。本文提出通过对因特网上非结构化数据的XML格式进行筛选等处理,然后转化为结构化数据存储在SQL Server数据库中。并在此基础之上利用关联规则发现以生成最... 随着网络资源越来越丰富,Web数据挖掘逐渐成为因特网上资源有效利用的研究热点。本文提出通过对因特网上非结构化数据的XML格式进行筛选等处理,然后转化为结构化数据存储在SQL Server数据库中。并在此基础之上利用关联规则发现以生成最小关联规则集来代替完全关联规则集,就可以有效地剪除弱关联规则,大幅度地减少候选频繁项目集,从而提高规则发现效率。最后,在传统经典算法Apriori基础上,利用弱关联规则的向上关闭特性设计了一个相应的高效算法。 展开更多
关键词 web数据挖掘 数据仓库 关联规则 最小关联规则集
下载PDF
一种基于粗糙集的Web用户访问规则获取方法 被引量:3
7
作者 张永 杨志勇 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期84-85,146,共3页
用户浏览模式获取是现阶段Web日志挖掘的主要目标之一。该文根据用户浏览的重要特征,提出了一种应用粗糙集理论获取规则的方法。选取重要特征作为条件属性并通过算法实现获取最终规则,实例分析效果良好。该方法的特点是只需要简单的数... 用户浏览模式获取是现阶段Web日志挖掘的主要目标之一。该文根据用户浏览的重要特征,提出了一种应用粗糙集理论获取规则的方法。选取重要特征作为条件属性并通过算法实现获取最终规则,实例分析效果良好。该方法的特点是只需要简单的数据预处理但可以获得简洁有效的访问模式。 展开更多
关键词 web访问模式 粗糙集 数据挖掘
下载PDF
一种基于Web用户不完备信息的规则获取方法研究 被引量:2
8
作者 张永 杨志勇 《计算机工程与设计》 CSCD 北大核心 2006年第20期3805-3807,共3页
Web日志是一个很不完全且存在多样性特点的数据集,在获取决策规则的过程中经常会出现不一致、不完全规则的情况。提到了粗糙集理论,利用粗糙集理论在处理不完全知识上的特有优势来解决此种问题。首先把重要的用户行为特征值离散化作为... Web日志是一个很不完全且存在多样性特点的数据集,在获取决策规则的过程中经常会出现不一致、不完全规则的情况。提到了粗糙集理论,利用粗糙集理论在处理不完全知识上的特有优势来解决此种问题。首先把重要的用户行为特征值离散化作为属性值和值的约简,然后通过粗糙集缺省规则获取算法获得决策规则。其中条件属性的提取主要是一个对用户行为观察和分析的结果,而离散化处理方法就是应用粗糙集理论中的典型方法。这种处理方法有利于最后规则提取的进行,经过实例分析效果良好。 展开更多
关键词 数据挖掘 web挖掘 web日志 粗糙集 算法 离散化
下载PDF
粗糙集技术在WEB网站的应用 被引量:3
9
作者 周元哲 陈莉君 《西安邮电学院学报》 2005年第1期79-81,共3页
首先对WEB网站的数据信息进行了分析,然后在介绍粗糙算法一般原理的基础上,对粗糙算法的数据挖掘技术在WEB网站上的应用给出了实现流程;最后就粗糙算法数据挖掘技术在校园网上的网站栏目的挖掘给出了应用方案和设计实例,实验表明该技术... 首先对WEB网站的数据信息进行了分析,然后在介绍粗糙算法一般原理的基础上,对粗糙算法的数据挖掘技术在WEB网站上的应用给出了实现流程;最后就粗糙算法数据挖掘技术在校园网上的网站栏目的挖掘给出了应用方案和设计实例,实验表明该技术对校园网门户站点的结构调整具有实际的参考价值。 展开更多
关键词 数据挖掘 web网站 粗糙集
下载PDF
基于规则集的Deep Web信息检索
10
作者 杨巨峰 史广顺 +1 位作者 赵玉娟 王庆人 《计算机工程》 CAS CSCD 北大核心 2008年第13期51-53,共3页
提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历... 提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。 展开更多
关键词 信息检索 深层网络 规则集 数据提取
下载PDF
大数据下的Web数据集成及数据挖掘技术研究 被引量:2
11
作者 祝旭 《信息与电脑》 2018年第14期142-143,共2页
21世纪以来,网络信息技术取得了突飞猛进的进步,移动互联网、物联网为代表的新型服务行业开始发展,Web数据也迅猛增长,成为人们关注的焦点之一。Web数据背后巨大的隐藏价值逐渐被人们关注,对Web数据进行集成和挖掘成为行业人士的工作重... 21世纪以来,网络信息技术取得了突飞猛进的进步,移动互联网、物联网为代表的新型服务行业开始发展,Web数据也迅猛增长,成为人们关注的焦点之一。Web数据背后巨大的隐藏价值逐渐被人们关注,对Web数据进行集成和挖掘成为行业人士的工作重点,在如今大数据时代,Web数据规模大、种类广、更新快,这使得Web数据的集成及挖掘面临重重挑战。笔者通过对Web数据的相关介绍,就大数据下的Web数据集成与挖掘面临的挑战进行分析。 展开更多
关键词 大数据 web数据 数据集 数据挖掘
下载PDF
海量大数据定向采样有差别挖掘算法仿真
12
作者 宁滔 《现代电子技术》 北大核心 2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算... 在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。 展开更多
关键词 海量大数据 网页抓取 定向采样 滤波处理 去冗余 粗糙集 扩展差别矩阵 决策规则
下载PDF
基于粗糙集理论的WEB日志中关联规则提取 被引量:2
13
作者 郭森 王知衍 +1 位作者 张志立 严和平 《小型微型计算机系统》 CSCD 北大核心 2006年第10期1900-1903,共4页
随着互联网的飞速发展,WEB日志挖掘,也就是从WEB日志中发现和分析出用户的有用信息已成为研究热点.基于关联规则的方法是WEB挖掘的重要方法.本文应用粗糙集理论提取WEB日志中的关联规则,并将关联规则集用于用户行为的预测上,实验证明,... 随着互联网的飞速发展,WEB日志挖掘,也就是从WEB日志中发现和分析出用户的有用信息已成为研究热点.基于关联规则的方法是WEB挖掘的重要方法.本文应用粗糙集理论提取WEB日志中的关联规则,并将关联规则集用于用户行为的预测上,实验证明,该方法的预测精度要好于现有的方法. 展开更多
关键词 web日志 web挖掘 粗糙集 关联规则
下载PDF
粗糙集理论在web结构挖掘中的应用
14
作者 冷春霞 《贵州教育学院学报》 2004年第2期84-86,共3页
如何从Web中找到与用户查询主题相关的权威页面 ,是Web结构挖掘的一个重要研究方向。将粗糙集理论应用于此 ,设计了Web数据模型 ,并给出了基于粗糙集的Web结构挖掘方法的具体实现流程。
关键词 web挖掘 web结构挖掘 粗糙集 web数据模型
下载PDF
一种基于粗集和SVM的Web日志挖掘模型
15
作者 卢远征 叶晓彤 +1 位作者 胡阳波 刘欣 《电子设计工程》 2014年第19期54-56,60,共4页
随着数据挖掘技术的广泛研究和应用,Web挖掘中的Web的日志挖掘也显得越来越重要了。利用粗集理论和支持向量机的方法,形成一个有效的处理Web日志信息的模型。首先利用粗集理论对日志信息进行约简的预处理,然后通过支持向量机的方法训学... 随着数据挖掘技术的广泛研究和应用,Web挖掘中的Web的日志挖掘也显得越来越重要了。利用粗集理论和支持向量机的方法,形成一个有效的处理Web日志信息的模型。首先利用粗集理论对日志信息进行约简的预处理,然后通过支持向量机的方法训学习练数据,训练出来的数据可以对用户的访问信息进行分析预测。 展开更多
关键词 数据挖掘 web日志挖掘 粗集理论 支持向量机
下载PDF
Web数据挖掘技术在信息管理中的应用 被引量:5
16
作者 苗雷 《黑龙江科学》 2021年第18期108-109,共2页
为强化数据整合与利用,充分挖掘数据价值,分析了几种基于Web数据库的数据挖掘方法:粗糙集方法、模糊集方法、神经网络法。分析了Web数据挖掘技术在信息管理中的应用,即在搜索引擎、个性化服务、电子商务等方面的应用。该技术提高了检索... 为强化数据整合与利用,充分挖掘数据价值,分析了几种基于Web数据库的数据挖掘方法:粗糙集方法、模糊集方法、神经网络法。分析了Web数据挖掘技术在信息管理中的应用,即在搜索引擎、个性化服务、电子商务等方面的应用。该技术提高了检索效率和结果精度,为信息管理提供了更多便利。 展开更多
关键词 web数据库 数据挖掘技术 信息管理 模糊集算法
下载PDF
辽宁省森林资源Web三维仿真系统的研究与实现 被引量:1
17
作者 周定辉 熊静 +2 位作者 王玲 刘姝颖 蒋玉超 《林业调查规划》 2010年第6期1-6,共6页
针对辽宁省森林资源Web三维仿真系统需求,提出系统的总体设计方案,利用空间信息三维可视化技术、数据库技术、Web技术等,以森林资源数据库为基础,采用Java和worldwind为平台,研制了森林资源Web三维仿真系统,实现了Web环境下对全省海量... 针对辽宁省森林资源Web三维仿真系统需求,提出系统的总体设计方案,利用空间信息三维可视化技术、数据库技术、Web技术等,以森林资源数据库为基础,采用Java和worldwind为平台,研制了森林资源Web三维仿真系统,实现了Web环境下对全省海量空间数据进行直观、逼真、高效的三维显示、浏览查询和统计分析等功能.系统运行情况良好. 展开更多
关键词 地理信息系统(GIS) JAVA 森林资源数据 web环境 三维仿真系统 辽宁省
下载PDF
Web大数据环境下的P-信息聚合及动态分离
18
作者 尤垂桔 邱锦明 《武夷学院学报》 2018年第6期69-74,共6页
针对Web大数据环境下数据来源分散、数据量大、类型多样、噪声大、价值密度低等特征,利用P-集理论,给出Web信息元的聚合度量,提出P-信息聚合体的概念,对P-信息聚合体的性质进行讨论,给出了P-信息聚合体的生成算法,对Web大数据进行主题聚... 针对Web大数据环境下数据来源分散、数据量大、类型多样、噪声大、价值密度低等特征,利用P-集理论,给出Web信息元的聚合度量,提出P-信息聚合体的概念,对P-信息聚合体的性质进行讨论,给出了P-信息聚合体的生成算法,对Web大数据进行主题聚合,提高Web大数据的利用效率及应用价值。 展开更多
关键词 web大数据 P-集合 P-信息聚合体
下载PDF
Web大数据环境下P-信息聚合体生成及智能推送
19
作者 尤垂桔 罗媛云 何月娟 《宜春学院学报》 2018年第6期30-34,共5页
Web大数据环境下数据来源分散、噪声大、价值密度低、动态性和不确定性强,人们有效利用Web大数据面临巨大挑战。P-集是处理动态性和不确定性问题的基本理论,通过对Web大数据中信息元之间特征关系及其度量的分析,给出信息元之间的特征关... Web大数据环境下数据来源分散、噪声大、价值密度低、动态性和不确定性强,人们有效利用Web大数据面临巨大挑战。P-集是处理动态性和不确定性问题的基本理论,通过对Web大数据中信息元之间特征关系及其度量的分析,给出信息元之间的特征关系系数及关系度量方法,提出P-信息聚合体的概念,讨论了P-信息聚合体的性质,给出P-信息聚合体的生成过程。基于信息元的主题特征属性及关系特征度量阈值,对来自分散数据源的数据进行主题特征聚合,形成动态可扩展的P-信息聚合体,P-信息聚合体可广泛应用于Web大数据的动态检索及智能推送,提高Web大数据的利用效率及应用价值。 展开更多
关键词 web大数据 P-集 信息关系度量 P-信息聚合体
下载PDF
基于CiteSpace的法医齿科学研究发展态势分析
20
作者 马浩天 熊华烨 +2 位作者 卢烨 李兵 赖江华 《法医学杂志》 CAS CSCD 2023年第1期18-26,共9页
目的基于文献计量学方法,实现法医齿科学研究动态可视化,以期捕捉研究热点,明确未来发展趋势。方法在Web of Science核心数据集中依据特定主题词搜索1995年1月—2020年12月发表的文献,采用CiteSpace 5.7.R5W软件对发文国家、机构、学科... 目的基于文献计量学方法,实现法医齿科学研究动态可视化,以期捕捉研究热点,明确未来发展趋势。方法在Web of Science核心数据集中依据特定主题词搜索1995年1月—2020年12月发表的文献,采用CiteSpace 5.7.R5W软件对发文国家、机构、学科领域、作者、共被引期刊、关键词等进行可视化分析。结果发文年度分析表明法医齿科学研究文献呈现逐年上升趋势,最近5年年度发文量达110篇以上。发达国家是主要的供稿来源,平均中心度>0.2。法医齿科学研究涉及口腔医学、生物、计算机、医学影像学等多个学科,学科交叉明显。关键词聚类分析共获得115个节点,主要以个体识别、年龄推断为主线,关键词热点突现与新技术密切相关。基于群体的齿科学调查、对传统牙龄推断法的改善、基于新技术的牙龄推断是当前法医齿科学较热门的研究方向。结论发展中国家亟须提高相关研究的关注度。建立并充实本地区齿科数据库,结合前沿高端技术开发新型齿科鉴定方法,基于先进信息技术开发识别程序,可能是未来法医齿科学学科发展的重要方向。 展开更多
关键词 法医学 法医齿科学 文献计量学 web of Science数据库 CITESPACE
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部