为了有效接受邮件客户端反馈并自动根据邮件客户端反馈对邮件过滤系统做出调整,提出了用户反馈自适应的POP3邮件过滤代理模型SAMFUF(self-adaptive mail filtering POP3 proxy based on users’feedback).SAMFUF采用异步连接模拟同步连...为了有效接受邮件客户端反馈并自动根据邮件客户端反馈对邮件过滤系统做出调整,提出了用户反馈自适应的POP3邮件过滤代理模型SAMFUF(self-adaptive mail filtering POP3 proxy based on users’feedback).SAMFUF采用异步连接模拟同步连接方式建立邮件客户端和邮件服务器间POP3连接,实现了邮件客户端与邮件服务器间的透明性连接;将最大熵、贝叶斯和支持向量机等基于内容过滤的方法从邮件过滤系统中独立出来,实现了通用邮件过滤系统的设计;通过在邮件中插入包含邮件唯一标识、分类结果等信息的HTML表单的标签以及调整邮件过滤模型,实现了基于邮件客户端的用户反馈以及邮件过滤系统的自适应功能;采用线程池管理线程和overlapped I/O事件通信方式实现邮件客户端与邮件服务器间通信,实现了邮件过滤服务的高效率和稳定性.实验表明,SAMFUF在垃圾邮件过滤上具有较高的效率和准确率.展开更多
很多交互系统需要实时返回潜在的数据空间中最重要的前k条记录,即为top-k查询。当今大数据时代,面对海量更加复杂的数据,输出这种top-k记录是一个非常具有挑战性的问题。传统的方案主要采用基于阈值的方法,然而对分布式系统来说,这些方...很多交互系统需要实时返回潜在的数据空间中最重要的前k条记录,即为top-k查询。当今大数据时代,面对海量更加复杂的数据,输出这种top-k记录是一个非常具有挑战性的问题。传统的方案主要采用基于阈值的方法,然而对分布式系统来说,这些方法是比较耗时的,并且需要巨大的通信量。随着网络流量的增加,这些问题会变得无法解决。本文提出了一种新颖的top-k算法PCMRA(Data Partitioning and COIT Indexing Top-k query Algorithm based on MapReduce)。该解决方案构造了预处理结构COIT(候选对象索引表),并采用数据分割策略和并行编程框架MapReduce,一轮通信就可以完成top-k查询。此外本文还对算法给出了正确性证明和理论分析,并且实验表明该算法仅需要较小的空间开销和较短的时间代价,即可筛选出较少的候选对象,大幅度节约了计算和通信资源,并且算法具有良好的可扩展性。展开更多
文摘为了有效接受邮件客户端反馈并自动根据邮件客户端反馈对邮件过滤系统做出调整,提出了用户反馈自适应的POP3邮件过滤代理模型SAMFUF(self-adaptive mail filtering POP3 proxy based on users’feedback).SAMFUF采用异步连接模拟同步连接方式建立邮件客户端和邮件服务器间POP3连接,实现了邮件客户端与邮件服务器间的透明性连接;将最大熵、贝叶斯和支持向量机等基于内容过滤的方法从邮件过滤系统中独立出来,实现了通用邮件过滤系统的设计;通过在邮件中插入包含邮件唯一标识、分类结果等信息的HTML表单的标签以及调整邮件过滤模型,实现了基于邮件客户端的用户反馈以及邮件过滤系统的自适应功能;采用线程池管理线程和overlapped I/O事件通信方式实现邮件客户端与邮件服务器间通信,实现了邮件过滤服务的高效率和稳定性.实验表明,SAMFUF在垃圾邮件过滤上具有较高的效率和准确率.
文摘很多交互系统需要实时返回潜在的数据空间中最重要的前k条记录,即为top-k查询。当今大数据时代,面对海量更加复杂的数据,输出这种top-k记录是一个非常具有挑战性的问题。传统的方案主要采用基于阈值的方法,然而对分布式系统来说,这些方法是比较耗时的,并且需要巨大的通信量。随着网络流量的增加,这些问题会变得无法解决。本文提出了一种新颖的top-k算法PCMRA(Data Partitioning and COIT Indexing Top-k query Algorithm based on MapReduce)。该解决方案构造了预处理结构COIT(候选对象索引表),并采用数据分割策略和并行编程框架MapReduce,一轮通信就可以完成top-k查询。此外本文还对算法给出了正确性证明和理论分析,并且实验表明该算法仅需要较小的空间开销和较短的时间代价,即可筛选出较少的候选对象,大幅度节约了计算和通信资源,并且算法具有良好的可扩展性。