期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
词性对新闻和微博网络话题检测的影响 被引量:2
1
作者 冀俊忠 贝飞 +2 位作者 吴晨生 柴鹰 宋辰 《北京工业大学学报》 CAS CSCD 北大核心 2015年第4期526-533,共8页
针对新闻和微博2组有代表性的语料开展实验研究,旨在发现不同词性特征及其组合对2种通用网络平台话题检测的作用及其影响.研究表明:在选择单一词性特征时,名词特征可得到最好的检测结果,命名实体可在保证准确率的情况下大大降低聚类的... 针对新闻和微博2组有代表性的语料开展实验研究,旨在发现不同词性特征及其组合对2种通用网络平台话题检测的作用及其影响.研究表明:在选择单一词性特征时,名词特征可得到最好的检测结果,命名实体可在保证准确率的情况下大大降低聚类的特征维度.在选择词性组合作为特征时,名词或命名实体、数词、时间短语、形容词以及量词的组合特征可提升新闻网络话题检测的准确率,而名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合特征可在微博语料上获得较好的检测结果. 展开更多
关键词 话题检测 词性 文本特征 新闻 微博
下载PDF
面向不均衡数据集的在线式异质媒体网络事件发现 被引量:3
2
作者 赵学武 张新刚 +1 位作者 柴鹰 刘广亮 《科学技术与工程》 北大核心 2016年第16期227-232,共6页
随着互联网的发展,网络数据呈现出异质数据多、文本标签化、数据不均衡等特点,这使得传统的基于长文本在线式网络事件的方法逐渐失效。采用改进的Single Pass方法进行在线式异质媒体网络事件发现:首先,通过分析网络数据中的不均衡性,重... 随着互联网的发展,网络数据呈现出异质数据多、文本标签化、数据不均衡等特点,这使得传统的基于长文本在线式网络事件的方法逐渐失效。采用改进的Single Pass方法进行在线式异质媒体网络事件发现:首先,通过分析网络数据中的不均衡性,重新设计相似度计算公式;其次,设计滑动时间窗口来提高Single Pass的算法效率;最后在Flickr的SED2014数据集上开展实验。实验结果表明,提出的算法具有有效性和实用性。 展开更多
关键词 在线式 网络事件发现 单遍聚类 异质媒体
下载PDF
基于时间片划分和多元数据融合的异质媒体网络社会事件发现 被引量:2
3
作者 冀俊忠 柴鹰 贝飞 《北京工业大学学报》 CAS CSCD 北大核心 2015年第8期1165-1171,共7页
为了能在大规模、多异质的网络环境下进行网络社会事件的有效检测,提出了一种基于时间片划分和多元数据融合的异质媒体网络社会事件发现方法.该方法首先采用时间片划分的方法,结合用户信息和时间信息来建立用户-时间(user-time,UT)数据... 为了能在大规模、多异质的网络环境下进行网络社会事件的有效检测,提出了一种基于时间片划分和多元数据融合的异质媒体网络社会事件发现方法.该方法首先采用时间片划分的方法,结合用户信息和时间信息来建立用户-时间(user-time,UT)数据模型以减小数据规模;然后通过多元数据线性叠加来整合不同元数据间的相似度并用基于密度的算法以完成社会事件的发现.在最新的SED 2014数据集上进行对比,实验结果表明:该方法与现有方法相比,具有数据处理速度快、事件发现准确率高的优点. 展开更多
关键词 大规模 异质媒体 网络社会事件发现 时间片划分 多元数据融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部