-
题名一个基于分层的网页文本过滤系统
- 1
-
-
作者
周聚
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
-
出处
《计算机与数字工程》
2010年第8期18-21,共4页
-
基金
国家自然科学基金(编号:90920004
60970056
+2 种基金
60873150)
江苏省自然科学基金(编号:BK2008160)
江苏省高校自然科学重大基础研究项目(编号:08KJA520002)资助
-
文摘
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。
-
关键词
分层过滤
文本过滤
二元词串
抽取窗口
-
Keywords
hierarchical filtering
text filtering
bigram
extraction window
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户影响力的热点话题检测方法研究
被引量:5
- 2
-
-
作者
裘江南
谷文静
翟劼
-
机构
大连理工大学管理与经济学部
-
出处
《情报杂志》
CSSCI
北大核心
2017年第4期156-161,共6页
-
基金
辽宁省社会科学规划基金重点项目"突发事件网络舆情的动态监测与预警策略研究"(编号:L15AGL017)
国家自然科学基金项目"在线知识社区中社会系统与知识系统协同序化机制和规律研究"(编号:71573030)的研究成果之一
-
文摘
[目的/意义]对微博消息进行热点话题挖掘,进而从海量微博文本中实时找出用户关注、讨论的热点事件,是进行舆情监测、应急管理的基础。然而,现有微博热点话题检测研究却大多忽略了不同影响力用户对话题产生及传播的作用,并且检测结果直观性较差。针对此问题,提出了基于用户影响力的热点话题检测方法。[方法/过程]首先识别用户特征要素,构建用户影响力模型,计算用户影响力;然后,综合考虑主题词影响力、影响力增长速度和增长斜率,提出基于用户影响力的微博热点话题主题词抽取方法,抽取主题词簇;之后,识别核心主题词并进行热点话题关键词抽取。最后,通过实验验证方法的有效性。[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题;该方法能有效提升实证性热点话题识别效率,减少娱乐性热点话题的识别;通过对不同时间窗口内同一话题的关键词抽取,可以实现对相应话题的热点跟踪。
-
关键词
抽取.最后
通过实验验证方法的有效性.[结果/结论]实验结果表明:基于用户影响力的热点话题检测方法能够有效识别并直观表达出检测时间窗口内的典型热点话题
该方法能有效提升实证性热点话题识别效率
减少娱乐性热点话题的识别
通过对不同时间窗口内同一话题的关键词抽取
可以实现对相应话题的热点跟踪.
-
Keywords
topic mining
user influence
Micro-blog
text mining
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-