期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进TF-PDF算法的地震微博热门主题词提取研究
被引量:
8
1
作者
苏晓慧
张晓东
+2 位作者
胡春蕾
邹再超
邱晓康
《地理与地理信息科学》
CSCD
北大核心
2018年第4期90-95,共6页
随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布...
随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布微博的博主影响力以及微博的关注度确定地震主题特征项的权重。首先利用ICTCLAS分词系统对地震微博信息进行分词,然后在微博分词后的词库中依据权重对候选主题词进行排序,从而获得地震信息的热门主题词,并以芦山地震和云南彝良地震的微博信息为例,对传统TF-PDF算法和改进后的TFPDF算法进行了对比。结果表明,利用传统TF-PDF方法发现的地震热门主题词多为位置信息,而改进后的方法可以更有效地发现公众在震时的感受,可为灾害救援提供及时的信息与支持。
展开更多
关键词
地震热门主题词
信息提取
微博抓取
微博影响力
tf-pdf
下载PDF
职称材料
一种基于时序窗口的动态热点话题提取模型
2
作者
马慧芳
尹旻
+1 位作者
何清
史忠植
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第6期590-595,共6页
针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考...
针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。引入时序窗口进行上升和下降突发模式提取,并结合TF-DF作为主题词赋权值依据。实验结果表明,这种基于时序窗口的动态热点话题提取模型对新闻文本进行主题抽取具有很好的性能。
展开更多
关键词
话题提取
时序窗口
广泛性
突发性
tf-pdf
下载PDF
职称材料
热点词汇的最长时间区间查询算法
被引量:
2
3
作者
路畅
何震瀛
+1 位作者
荆一楠
王晓阳
《计算机应用与软件》
北大核心
2019年第8期249-254,305,共7页
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线...
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF^*PDF算法加以改进,在空间复杂度不变的情况下,降低TF^*PDF算法的时间复杂度。实验表明,与传统的TF^*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。
展开更多
关键词
TF^*PDF
TOP-K
热点词汇
PREFIX
CUBE
在线查询
下载PDF
职称材料
基于TF* PDF的热点关键短语提取
被引量:
3
4
作者
马佩勋
高琰
《计算机应用研究》
CSCD
北大核心
2013年第12期3610-3613,共4页
传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合...
传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合,计算词汇与短语的权重,获取候选关键短语列表,关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF* PDF位置权重算法同时也用于为短语分配权重,排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明,该提取方法与传统的TF* PDF提取方法相比,可更好地去除关键词短语中的绝对噪声,较好地改善了热点话题检测的准确度。
展开更多
关键词
TF*PDF
TDT
提取
脉冲值
关键词短语
下载PDF
职称材料
题名
基于改进TF-PDF算法的地震微博热门主题词提取研究
被引量:
8
1
作者
苏晓慧
张晓东
胡春蕾
邹再超
邱晓康
机构
北京林业大学信息学院
中国农业大学信息与电气工程学院
出处
《地理与地理信息科学》
CSCD
北大核心
2018年第4期90-95,共6页
基金
国家重点研发计划项目(2016YFB0502502)
中央高校基本科研业务费专项资金项目(BLX2013034)
文摘
随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布微博的博主影响力以及微博的关注度确定地震主题特征项的权重。首先利用ICTCLAS分词系统对地震微博信息进行分词,然后在微博分词后的词库中依据权重对候选主题词进行排序,从而获得地震信息的热门主题词,并以芦山地震和云南彝良地震的微博信息为例,对传统TF-PDF算法和改进后的TFPDF算法进行了对比。结果表明,利用传统TF-PDF方法发现的地震热门主题词多为位置信息,而改进后的方法可以更有效地发现公众在震时的感受,可为灾害救援提供及时的信息与支持。
关键词
地震热门主题词
信息提取
微博抓取
微博影响力
tf-pdf
Keywords
hot topic-words about earthquake
information extraction
fetching microblog data
influence of microblog
tf-pdf
分类号
P208 [天文地球—地图制图学与地理信息工程]
下载PDF
职称材料
题名
一种基于时序窗口的动态热点话题提取模型
2
作者
马慧芳
尹旻
何清
史忠植
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院研究生院
联想(中国)研究院网络服务研究室
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第6期590-595,共6页
基金
863计划(2007AA01Z132)
国家自然科学基金(60435010)
+1 种基金
973计划(2007CB311004)
国家科技支撑计划(No.2006BAC08B06)资助项目
文摘
针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。引入时序窗口进行上升和下降突发模式提取,并结合TF-DF作为主题词赋权值依据。实验结果表明,这种基于时序窗口的动态热点话题提取模型对新闻文本进行主题抽取具有很好的性能。
关键词
话题提取
时序窗口
广泛性
突发性
tf-pdf
Keywords
topic extraction, time window, pervasiveness, burst,
tf-pdf
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
热点词汇的最长时间区间查询算法
被引量:
2
3
作者
路畅
何震瀛
荆一楠
王晓阳
机构
复旦大学计算机科学技术学院
上海市数据科学重点实验室(复旦大学)
上海智能电子与系统研究院
出处
《计算机应用与软件》
北大核心
2019年第8期249-254,305,共7页
基金
国家重点研发计划项目(2018YFB1004404)
文摘
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF^*PDF算法加以改进,在空间复杂度不变的情况下,降低TF^*PDF算法的时间复杂度。实验表明,与传统的TF^*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。
关键词
TF^*PDF
TOP-K
热点词汇
PREFIX
CUBE
在线查询
Keywords
TF^*PDF
Top-k
Hot terms
Prefix Cube
Online query
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于TF* PDF的热点关键短语提取
被引量:
3
4
作者
马佩勋
高琰
机构
长沙民政学院软件学院
中南大学信息科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2013年第12期3610-3613,共4页
基金
国家教育部博士点新教师基金资助项目(20090162120087)
湖南省科技计划资助项目(2009FJ3053)
文摘
传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合,计算词汇与短语的权重,获取候选关键短语列表,关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF* PDF位置权重算法同时也用于为短语分配权重,排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明,该提取方法与传统的TF* PDF提取方法相比,可更好地去除关键词短语中的绝对噪声,较好地改善了热点话题检测的准确度。
关键词
TF*PDF
TDT
提取
脉冲值
关键词短语
Keywords
TF * PDF
TDT
extraction
burst value
key phrase
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进TF-PDF算法的地震微博热门主题词提取研究
苏晓慧
张晓东
胡春蕾
邹再超
邱晓康
《地理与地理信息科学》
CSCD
北大核心
2018
8
下载PDF
职称材料
2
一种基于时序窗口的动态热点话题提取模型
马慧芳
尹旻
何清
史忠植
《高技术通讯》
EI
CAS
CSCD
北大核心
2010
0
下载PDF
职称材料
3
热点词汇的最长时间区间查询算法
路畅
何震瀛
荆一楠
王晓阳
《计算机应用与软件》
北大核心
2019
2
下载PDF
职称材料
4
基于TF* PDF的热点关键短语提取
马佩勋
高琰
《计算机应用研究》
CSCD
北大核心
2013
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部