期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
文本挖掘技术在互联网赌博案情分析中的应用 被引量:3
1
作者 史存会 罗文华 林鸿飞 《计算机工程与应用》 CSCD 北大核心 2011年第28期113-116,248,共5页
当前我国正对足球赌球案件进行专项调查。针对网络赌博案情信息语义信息的不明确性和分析的复杂性,综合运用Web信息抽取技术、犯罪特征关系可视化分析技术和计算机取证技术,设计并实现了网络赌博案情分析系统。实验表明,该系统可以快速... 当前我国正对足球赌球案件进行专项调查。针对网络赌博案情信息语义信息的不明确性和分析的复杂性,综合运用Web信息抽取技术、犯罪特征关系可视化分析技术和计算机取证技术,设计并实现了网络赌博案情分析系统。实验表明,该系统可以快速、有效地进行网络赌博案情信息的分析处理,更加直观地表现案情,为案件侦破提供重要线索。 展开更多
关键词 网络赌博 信息抽取 犯罪网络 案情分析系统
下载PDF
舆情场景下基于层次知识的话题推荐方法 被引量:3
2
作者 史存会 胡耀康 +4 位作者 冯彬 张瑾 俞晓明 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2021年第8期1811-1819,共9页
随着信息技术的飞速发展,互联网成为了舆情传播的主要载体.各种舆情事件不断涌现,并在网民的参与下广泛传播,由此可能引发强烈的社会反响.因此,如何实现网络舆情事件快速发现与个性化监测需求的精准推送,成为了当前舆情的重点关注内容.... 随着信息技术的飞速发展,互联网成为了舆情传播的主要载体.各种舆情事件不断涌现,并在网民的参与下广泛传播,由此可能引发强烈的社会反响.因此,如何实现网络舆情事件快速发现与个性化监测需求的精准推送,成为了当前舆情的重点关注内容.对于舆情场景下用户交互信息稀疏导致的兴趣难以刻画的问题,提出了一种基于层次知识的话题推荐模型.模型通过引入层次知识来扩充语义增加话题之间的潜在信息关联,分别对层次知识、话题和用户建模得到对应的嵌入向量表示,再结合多层感知机匹配模型预测用户点击率.实验结果表明,该模型在与多个基线算法的对比中,在F1(the balanced F score)和AUC(the area under curve)指标的平均值上分别提升了6.7%和4.9%. 展开更多
关键词 话题推荐 层次知识 舆情场景 推荐系统 知识嵌入
下载PDF
一种基于时间序列预测的重采策略 被引量:2
3
作者 史存会 孟剑 +3 位作者 俞晓明 刘悦 靳小龙 程学旗 《中文信息学报》 CSCD 北大核心 2019年第7期101-109,共9页
及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策... 及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策略关注时效性,而忽略了对网站访问的友好性。该文提出了一种基于时间序列预测的改进重采策略兼顾时效性和友好性。实验表明,该方法可以在保证数据采集实时性的情况下,有效降低访问量,提升对网站访问的友好性。 展开更多
关键词 网络采集 采集策略 时间序列预测
下载PDF
基于视觉的网页重要变化检测方法
4
作者 史存会 俞晓明 +2 位作者 刘悦 靳小龙 程学旗 《模式识别与人工智能》 EI CSCD 北大核心 2020年第11期1004-1012,共9页
检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同... 检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同区块语义重要度的差异.相比现有方法,文中方法独立于基于HTML类基础文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性.实验也验证文中方法的有效性. 展开更多
关键词 WEB内容 变化检测 视觉特征 低维向量
下载PDF
融合上下文信息的篇章级事件时序关系抽取方法 被引量:5
5
作者 王俊 史存会 +3 位作者 张瑾 俞晓明 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2021年第11期2475-2484,共10页
事件时序关系抽取是一项重要的自然语言理解任务,可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题,而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低,且... 事件时序关系抽取是一项重要的自然语言理解任务,可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题,而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低,且无法保证整体时序关系的全局一致性.针对此问题,提出一种融合上下文信息的篇章级事件时序关系抽取方法,使用基于双向长短期记忆(bidirectional long short-term memory,Bi-LSTM)的神经网络模型学习文章中事件对的时序关系表示,再利用自注意力机制融入上下文中其他事件对信息,从而得到更丰富的事件对时序关系表示用于时序关系分类.通过TB-Dense(timebank dense)和MATRES(multi-axis temporal relations for start-points)数据集的实验表明:此方法能够取得比当前主流的句子级方法更佳的抽取效果. 展开更多
关键词 事件时序关系抽取 时序关系分类 事件关系识别 自注意力 双向长短期记忆
下载PDF
追踪事件微博报道:一种流的动态话题模型 被引量:2
6
作者 史存会 林鸿飞 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第5期13-18,共6页
为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在... 为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在大量中间类微博,所以定义并使用微博信息熵来衡量一条微博对于话题报道的重要性,并将其扩展到动态话题模型中,用于区分新闻类和中间类微博。在超过17万用户的1 200万条微博上进行了话题追踪,实验结果表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。 展开更多
关键词 话题追踪 话题漂移 动态话题模型 微博信息熵
原文传递
一种事件粒度的抽取式话题简短表示生成方法 被引量:2
7
作者 王伟玉 史存会 +2 位作者 俞晓明 刘悦 程学旗 《山东大学学报(理学版)》 CAS CSCD 北大核心 2021年第5期66-75,84,共11页
利用事件报道描述内容高度相似的特点,提出了一种抽取式话题简短表示生成方法。把事件文档标题集中的标题作为处理对象,从不同的标题中抽取出保留原有语序的共性信息,并进一步融合这些共性信息,生成事件粒度的话题简短表示。在来自搜索... 利用事件报道描述内容高度相似的特点,提出了一种抽取式话题简短表示生成方法。把事件文档标题集中的标题作为处理对象,从不同的标题中抽取出保留原有语序的共性信息,并进一步融合这些共性信息,生成事件粒度的话题简短表示。在来自搜索引擎中的事件数据上,实验结果表明该方法能生成精练、准确、语义明确完整且可读性好的话题简短表示。 展开更多
关键词 话题简短表示生成 抽取式 事件
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部