期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进TF-PDF算法的地震微博热门主题词提取研究 被引量:8
1
作者 苏晓慧 张晓东 +2 位作者 胡春蕾 邹再超 邱晓康 《地理与地理信息科学》 CSCD 北大核心 2018年第4期90-95,共6页
随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布... 随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布微博的博主影响力以及微博的关注度确定地震主题特征项的权重。首先利用ICTCLAS分词系统对地震微博信息进行分词,然后在微博分词后的词库中依据权重对候选主题词进行排序,从而获得地震信息的热门主题词,并以芦山地震和云南彝良地震的微博信息为例,对传统TF-PDF算法和改进后的TFPDF算法进行了对比。结果表明,利用传统TF-PDF方法发现的地震热门主题词多为位置信息,而改进后的方法可以更有效地发现公众在震时的感受,可为灾害救援提供及时的信息与支持。 展开更多
关键词 地震热门主题词 信息提取 微博抓取 微博影响力 tf-pdf
下载PDF
一种基于时序窗口的动态热点话题提取模型
2
作者 马慧芳 尹旻 +1 位作者 何清 史忠植 《高技术通讯》 EI CAS CSCD 北大核心 2010年第6期590-595,共6页
针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考... 针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。引入时序窗口进行上升和下降突发模式提取,并结合TF-DF作为主题词赋权值依据。实验结果表明,这种基于时序窗口的动态热点话题提取模型对新闻文本进行主题抽取具有很好的性能。 展开更多
关键词 话题提取 时序窗口 广泛性 突发性 tf-pdf
下载PDF
热点词汇的最长时间区间查询算法 被引量:2
3
作者 路畅 何震瀛 +1 位作者 荆一楠 王晓阳 《计算机应用与软件》 北大核心 2019年第8期249-254,305,共7页
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线... 热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF^*PDF算法加以改进,在空间复杂度不变的情况下,降低TF^*PDF算法的时间复杂度。实验表明,与传统的TF^*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。 展开更多
关键词 TF^*PDF TOP-K 热点词汇 PREFIX CUBE 在线查询
下载PDF
基于TF* PDF的热点关键短语提取 被引量:3
4
作者 马佩勋 高琰 《计算机应用研究》 CSCD 北大核心 2013年第12期3610-3613,共4页
传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合... 传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合,计算词汇与短语的权重,获取候选关键短语列表,关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF* PDF位置权重算法同时也用于为短语分配权重,排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明,该提取方法与传统的TF* PDF提取方法相比,可更好地去除关键词短语中的绝对噪声,较好地改善了热点话题检测的准确度。 展开更多
关键词 TF*PDF TDT 提取 脉冲值 关键词短语
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部