期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一个基于分层的网页文本过滤系统
1
作者 周聚 李培峰 朱巧明 《计算机与数字工程》 2010年第8期18-21,共4页
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块... 设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。 展开更多
关键词 分层过滤 文本过滤 二元词串 抽取窗口
下载PDF
基于用户影响力的热点话题检测方法研究 被引量:5
2
作者 裘江南 谷文静 翟劼 《情报杂志》 CSSCI 北大核心 2017年第4期156-161,共6页
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直... [目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直观性较差。针对此问题,提出了基于用户影响力的热点话题检测方法。[方法/过程]首先识别用户特征要素,构建用户影响力模型,计算用户影响力;然后,综合考虑主题词影响力、影响力增长速度和增长斜率,提出基于用户影响力的微博热点话题主题词抽取方法,抽取主题词簇;之后,识别核心主题词并进行热点话题关键词抽取。最后,通过实验验证方法的有效性。[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题;该方法能有效提升实证性热点话题识别效率,减少娱乐性热点话题的识别;通过对不同时间窗口内同一话题的关键词抽取,可以实现对相应话题的热点跟踪。 展开更多
关键词 抽取.最后 通过实验验证方法的有效性.[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题 该方法能有效提升实证性热点话题识别效率 减少娱乐性热点话题的识别 通过对不同时间窗口内同一话题的关键词抽取 可以实现对相应话题的热点跟踪.
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部