期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于结果模式的Deep Web数据抽取
被引量:
15
1
作者
马安香
张斌
+2 位作者
高克宁
齐鹏
张引
《计算机研究与发展》
EI
CSCD
北大核心
2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式...
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.
展开更多
关键词
DEEP
web
数据集成
数据抽取
结果模式
语义标注
网页数据特征矩阵
下载PDF
职称材料
一种统一的Web新闻对象自动抽取方法
被引量:
4
2
作者
刘伟
严华梁
《计算机工程》
CAS
CSCD
2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,...
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
展开更多
关键词
web
数据抽取
视觉特征
序列标注
网页模板
新闻属性
新闻对象
下载PDF
职称材料
模糊C均值聚类算法在Web使用挖掘上的应用研究
被引量:
9
3
作者
吴瑛
王秋生
《计算机技术与发展》
2008年第6期32-35,共4页
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用...
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户-页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。
展开更多
关键词
模糊C均值聚类
web
日志预处理
关联矩阵
用户聚类
页面聚类
下载PDF
职称材料
基于Web日志挖掘的网页实时推荐算法研究
被引量:
3
4
作者
俞辉
《计算机工程与设计》
CSCD
北大核心
2008年第7期1691-1693,1697,共4页
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度...
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度。该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响。试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值。
展开更多
关键词
网络日志
数据预处理
会话编码
动态矩阵
网页推荐
下载PDF
职称材料
基于启发式信息的Deep Web结果模式获取方法
5
作者
李明
李秀兰
《计算机应用研究》
CSCD
北大核心
2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得...
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。
展开更多
关键词
DEEP
web
结果模式
网页数据特征矩阵
启发式信息
下载PDF
职称材料
Web页面中数据表的识别方法研究
6
作者
车成逸
马宗民
焦晓龙
《计算机工程》
CAS
CSCD
2012年第23期154-157,共4页
为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方...
为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。
展开更多
关键词
web
页面
数据表
特征抽取
支持向量机
核函数
下载PDF
职称材料
基于叠加编码的Web网页抓取路径损耗估计
被引量:
1
7
作者
邢计亮
《科技通报》
北大核心
2015年第6期181-183,共3页
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且...
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。
展开更多
关键词
web
网页
文本特征
抓取路径
数据挖掘
下载PDF
职称材料
海量大数据定向采样有差别挖掘算法仿真
8
作者
宁滔
《现代电子技术》
北大核心
2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算...
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
展开更多
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
下载PDF
职称材料
结构和内容联合提取的XML网页分类研究
被引量:
2
9
作者
阎红灿
李敏强
+1 位作者
任蕴丽
阎少宏
《天津大学学报(社会科学版)》
CSSCI
2009年第3期272-276,共5页
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、...
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。
展开更多
关键词
XML网页分类
频繁结构层次空间模型
联合特征提取
粗糙集
网页特征矩阵
下载PDF
职称材料
基于语义的图像低层可视特征提取及应用
被引量:
2
10
作者
韩冬梅
王雯
李博斐
《计算机工程》
CAS
CSCD
2014年第3期244-248,共5页
为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型...
为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像解译信息化提供参考。
展开更多
关键词
语义网
纹理特征
边缘特征
语义推理
灰度共生矩阵
多源地学数据
下载PDF
职称材料
医院网站日志挖掘数据预处理的研究
被引量:
1
11
作者
蒙华
苏静
+1 位作者
李立峰
翟玉兰
《重庆理工大学学报(自然科学)》
CAS
北大核心
2019年第8期144-148,共5页
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算...
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。
展开更多
关键词
医院网站日志挖掘
数据预处理
用户识别
页面聚类
相似度矩阵
下载PDF
职称材料
基于动态矩阵预测的网页实时推荐研究
被引量:
1
12
作者
亓俊红
《微计算机应用》
2006年第6期760-763,共4页
通过对Web日志的预处理,构建动态矩阵,该矩阵能够反映用户访问路径的先后顺序,利用相似度计算进行网页推荐。提出的动态矩阵预测算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法无需事先训练,还可以对动态矩阵进行增量更...
通过对Web日志的预处理,构建动态矩阵,该矩阵能够反映用户访问路径的先后顺序,利用相似度计算进行网页推荐。提出的动态矩阵预测算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法无需事先训练,还可以对动态矩阵进行增量更新,提高了预测性能。
展开更多
关键词
web
日志
数据预处理
动态矩阵
网页推荐
下载PDF
职称材料
基于特征相似度计算的网页包装器自适应
被引量:
2
13
作者
陈迎仁
郭莹楠
+2 位作者
郭享
倪一涛
陈星
《计算机科学》
CSCD
北大核心
2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加...
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。
展开更多
关键词
网页数据抽取
自适应
包装器
相似度计算
网页特征
下载PDF
职称材料
题名
基于结果模式的Deep Web数据抽取
被引量:
15
1
作者
马安香
张斌
高克宁
齐鹏
张引
机构
东北大学信息科学与工程学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2009年第2期280-288,共9页
基金
国家自然科学基金项目(60773218)
辽宁省科学技术基金项目(20072031)~~
文摘
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.
关键词
DEEP
web
数据集成
数据抽取
结果模式
语义标注
网页数据特征矩阵
Keywords
Deep
web
data
integration Deep
web
data
extraction result pattern semantic annotation
feature matrix of web page data
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种统一的Web新闻对象自动抽取方法
被引量:
4
2
作者
刘伟
严华梁
机构
中国科学技术信息研究所
北京大学计算机科学技术研究所
出处
《计算机工程》
CAS
CSCD
2012年第11期167-169,共3页
基金
国家"863"计划基金资助项目(2008AA01Z421)
中国科学技术信息研究所预研基金资助项目(YY-201103)
文摘
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
关键词
web
数据抽取
视觉特征
序列标注
网页模板
新闻属性
新闻对象
Keywords
web
data
extraction
visual
feature
sequence tagging
web
page
template
news attribute
news object
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
模糊C均值聚类算法在Web使用挖掘上的应用研究
被引量:
9
3
作者
吴瑛
王秋生
机构
北京航空航天大学自动化科学与电气工程学院
出处
《计算机技术与发展》
2008年第6期32-35,共4页
文摘
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户-页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。
关键词
模糊C均值聚类
web
日志预处理
关联矩阵
用户聚类
页面聚类
Keywords
fuzzy c-means algorithm
web
log's
data
preparation
associated
matrix
customer-clustering
page
-clustering
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Web日志挖掘的网页实时推荐算法研究
被引量:
3
4
作者
俞辉
机构
中国石油大学计算机与通信工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2008年第7期1691-1693,1697,共4页
文摘
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度。该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响。试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值。
关键词
网络日志
数据预处理
会话编码
动态矩阵
网页推荐
Keywords
web
log
data
preprocessing
session coding
dynamic
matrix
page
recommendation
分类号
TP311.132 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于启发式信息的Deep Web结果模式获取方法
5
作者
李明
李秀兰
机构
兰州理工大学计算机与通信学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第8期3026-3029,共4页
基金
甘肃省自然科学基金资助项目(0809RJZA018)
文摘
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。
关键词
DEEP
web
结果模式
网页数据特征矩阵
启发式信息
Keywords
Deep
web
result schema
feature matrix of web page data
heuristic information
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web页面中数据表的识别方法研究
6
作者
车成逸
马宗民
焦晓龙
机构
东北大学信息科学与工程学院
出处
《计算机工程》
CAS
CSCD
2012年第23期154-157,共4页
基金
国家自然科学基金资助项目(61073139)
文摘
为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。
关键词
web
页面
数据表
特征抽取
支持向量机
核函数
Keywords
web
page
data
table
feature
extraction
Support Vector Machine(SVM)
kernel function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于叠加编码的Web网页抓取路径损耗估计
被引量:
1
7
作者
邢计亮
机构
邢台广播电视大学
出处
《科技通报》
北大核心
2015年第6期181-183,共3页
文摘
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。
关键词
web
网页
文本特征
抓取路径
数据挖掘
Keywords
web
page
text
feature
capture path
data
mining
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
海量大数据定向采样有差别挖掘算法仿真
8
作者
宁滔
机构
桂林电子科技大学计算机工程学院
出处
《现代电子技术》
北大核心
2024年第9期164-168,共5页
基金
(2021—2024)广西职业教育教学改革重点项目(GXGZJG2021A035)。
文摘
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
Keywords
massive big
data
web
page
crawling
directional sampling
filtering processing
redundancy removal
rough set
extended difference
matrix
decision rule
分类号
TN919-34 [电子电信—通信与信息系统]
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
结构和内容联合提取的XML网页分类研究
被引量:
2
9
作者
阎红灿
李敏强
任蕴丽
阎少宏
机构
天津大学管理学院
河北理工大学理学院
河北科技师范学院数理系
出处
《天津大学学报(社会科学版)》
CSSCI
2009年第3期272-276,共5页
基金
高等学校博士学科点专项科研基金资助项目(20020056047)
文摘
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。
关键词
XML网页分类
频繁结构层次空间模型
联合特征提取
粗糙集
网页特征矩阵
Keywords
XML
page
classification
frequent structure hierarchy space model
combined
feature
extraction
rough set
web
page
feature
matrix
分类号
F270.7 [经济管理—企业管理]
下载PDF
职称材料
题名
基于语义的图像低层可视特征提取及应用
被引量:
2
10
作者
韩冬梅
王雯
李博斐
机构
上海财经大学信息管理与工程学院
上海市金融信息技术研究重点实验室
出处
《计算机工程》
CAS
CSCD
2014年第3期244-248,共5页
基金
国家自然科学基金资助项目"基于语义网的多源地学空间数据融合与挖掘研究"(41174007)
文摘
为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像解译信息化提供参考。
关键词
语义网
纹理特征
边缘特征
语义推理
灰度共生矩阵
多源地学数据
Keywords
semantic
web
texture
feature
edge
feature
semantic reasoning
Gray Level Co-occurrence
matrix
(GLCM)
multi-source geosciences
data
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
医院网站日志挖掘数据预处理的研究
被引量:
1
11
作者
蒙华
苏静
李立峰
翟玉兰
机构
广西医科大学第一附属医院计算机管理中心
广西医科大学信息与管理学院教研科
出处
《重庆理工大学学报(自然科学)》
CAS
北大核心
2019年第8期144-148,共5页
基金
广西高校科学研究技术项目(KY2015LX045)
广西医科大学青年科学基金资助项目(GXMUYSF201511)
文摘
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。
关键词
医院网站日志挖掘
数据预处理
用户识别
页面聚类
相似度矩阵
Keywords
hospital
web
log mining
data
preprocessing
user identification
page
clustering
similarity
matrix
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于动态矩阵预测的网页实时推荐研究
被引量:
1
12
作者
亓俊红
机构
山东省莱芜职业技术学院
出处
《微计算机应用》
2006年第6期760-763,共4页
文摘
通过对Web日志的预处理,构建动态矩阵,该矩阵能够反映用户访问路径的先后顺序,利用相似度计算进行网页推荐。提出的动态矩阵预测算法具有较快的响应速度,可以满足实时页面推荐的需要,同时该算法无需事先训练,还可以对动态矩阵进行增量更新,提高了预测性能。
关键词
web
日志
数据预处理
动态矩阵
网页推荐
Keywords
web
log ,
data
preprocessing , dynamic
matrix
,
page
recommendation
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于特征相似度计算的网页包装器自适应
被引量:
2
13
作者
陈迎仁
郭莹楠
郭享
倪一涛
陈星
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室(福州大学)
出处
《计算机科学》
CSCD
北大核心
2021年第S02期218-224,257,共8页
基金
国家重点研发计划(2017YFB1002000)
福建省自然科学基金杰青项目(2020J06014)
福建省自然科学基金项目(2018J07005)。
文摘
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。
关键词
网页数据抽取
自适应
包装器
相似度计算
网页特征
Keywords
web
page
data
extraction
Adaptation
Wrapper
Similarity calculation
page
feature
s
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于结果模式的Deep Web数据抽取
马安香
张斌
高克宁
齐鹏
张引
《计算机研究与发展》
EI
CSCD
北大核心
2009
15
下载PDF
职称材料
2
一种统一的Web新闻对象自动抽取方法
刘伟
严华梁
《计算机工程》
CAS
CSCD
2012
4
下载PDF
职称材料
3
模糊C均值聚类算法在Web使用挖掘上的应用研究
吴瑛
王秋生
《计算机技术与发展》
2008
9
下载PDF
职称材料
4
基于Web日志挖掘的网页实时推荐算法研究
俞辉
《计算机工程与设计》
CSCD
北大核心
2008
3
下载PDF
职称材料
5
基于启发式信息的Deep Web结果模式获取方法
李明
李秀兰
《计算机应用研究》
CSCD
北大核心
2011
0
下载PDF
职称材料
6
Web页面中数据表的识别方法研究
车成逸
马宗民
焦晓龙
《计算机工程》
CAS
CSCD
2012
0
下载PDF
职称材料
7
基于叠加编码的Web网页抓取路径损耗估计
邢计亮
《科技通报》
北大核心
2015
1
下载PDF
职称材料
8
海量大数据定向采样有差别挖掘算法仿真
宁滔
《现代电子技术》
北大核心
2024
0
下载PDF
职称材料
9
结构和内容联合提取的XML网页分类研究
阎红灿
李敏强
任蕴丽
阎少宏
《天津大学学报(社会科学版)》
CSSCI
2009
2
下载PDF
职称材料
10
基于语义的图像低层可视特征提取及应用
韩冬梅
王雯
李博斐
《计算机工程》
CAS
CSCD
2014
2
下载PDF
职称材料
11
医院网站日志挖掘数据预处理的研究
蒙华
苏静
李立峰
翟玉兰
《重庆理工大学学报(自然科学)》
CAS
北大核心
2019
1
下载PDF
职称材料
12
基于动态矩阵预测的网页实时推荐研究
亓俊红
《微计算机应用》
2006
1
下载PDF
职称材料
13
基于特征相似度计算的网页包装器自适应
陈迎仁
郭莹楠
郭享
倪一涛
陈星
《计算机科学》
CSCD
北大核心
2021
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部