期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Hadoop平台的相关性权重算法设计与实现 被引量:8
1
作者 高军 黄献策 《计算机工程》 CAS CSCD 北大核心 2019年第3期26-31,共6页
传统TF-IDF算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分... 传统TF-IDF算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用MapReduce编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。 展开更多
关键词 分布式计算 TF-IDF算法 日志 兴趣模型 信息检索
下载PDF
一种正则表达式匹配的存储空间优化技术
2
作者 华馨伊 黄献策 李启明 《现代计算机(中旬刊)》 2017年第7期8-12,共5页
针对有限状态自动机DFA构造过程中出现状态爆炸导致存储空间大、匹配效率低等问题,提出一种基于规则分组及状态边压缩相结合的正则表达式引擎优化算法GCFA,通过将规则基于关联性进行分组,对各个分组所构造的联合DFA采用存储连续字符的... 针对有限状态自动机DFA构造过程中出现状态爆炸导致存储空间大、匹配效率低等问题,提出一种基于规则分组及状态边压缩相结合的正则表达式引擎优化算法GCFA,通过将规则基于关联性进行分组,对各个分组所构造的联合DFA采用存储连续字符的范围代替单一字符以达到减少存储空间的目的。实验结果证明,与标准DFA构造算法相比较,GCFA算法对状态转移边的压缩率达到98%,与经典改进算法相比较,降低2个数量级的存储空间。 展开更多
关键词 深度报文检测 网络安全 确定型有限状态自动机 正则表达式匹配 规则分组
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部