-
题名基于Hadoop平台的相关性权重算法设计与实现
被引量:8
- 1
-
-
作者
高军
黄献策
-
机构
上海海事大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第3期26-31,共6页
-
基金
国家自然科学基金(41701523)
上海海事大学研究生创新基金(YXR2017032)
-
文摘
传统TF-IDF算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用MapReduce编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。
-
关键词
分布式计算
TF-IDF算法
日志
兴趣模型
信息检索
-
Keywords
distributed computing
TF-IDF algorithm
journal
interest model
information retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种正则表达式匹配的存储空间优化技术
- 2
-
-
作者
华馨伊
黄献策
李启明
-
机构
上海海事大学信息工程学院
-
出处
《现代计算机(中旬刊)》
2017年第7期8-12,共5页
-
基金
国家自然科学基金(No.61472237)
上海市自然科学基金(No.14ZR1419700)
-
文摘
针对有限状态自动机DFA构造过程中出现状态爆炸导致存储空间大、匹配效率低等问题,提出一种基于规则分组及状态边压缩相结合的正则表达式引擎优化算法GCFA,通过将规则基于关联性进行分组,对各个分组所构造的联合DFA采用存储连续字符的范围代替单一字符以达到减少存储空间的目的。实验结果证明,与标准DFA构造算法相比较,GCFA算法对状态转移边的压缩率达到98%,与经典改进算法相比较,降低2个数量级的存储空间。
-
关键词
深度报文检测
网络安全
确定型有限状态自动机
正则表达式匹配
规则分组
-
Keywords
Deep Packet Inspection
Network Security
Deterministic Finite Automaton
Regular Expression Matching
Multiple DFAs
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-