一种高效的文本区间热词查询算法被引量：2

An Efficient Text Interval Hot Word Query Algorithm

下载PDF

导出

摘要文本区间热词查询是根据用户指定的查询时间范围,从文本数据中提取热词。现有的热词提取算法主要面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。为此,提出一种文本区间热词的在线查询处理算法。利用数据划分和范围查询技术,在准确率和空间复杂度不变的条件下降低提取热词的时间复杂度。实验结果表明,与现有的面向挖掘算法相比,该算法在CNN、BBC和NYT 3个数据集涉及的整个时间范围上的运行时间分别减少59.7%、65.1%和75.5%,有效提高热词在线查询的效率。 Text interval hot word query is based on user-specified query time range,it extracts from the text data hot words.Existing hot words extraction algorithm is generally oriented to mining tasks,which has a high time complexity and is difficult to be directly applied to an online query processing of hot words.Therefore,an online query processing algorithm for text interval hot words is proposed.Using data partitioning and range search technology,the time complexity of extracting hot words is reduced with the same accuracy and space complexity.Experimental results show that compared with the existing mining-oriented algorithms,the running time of the algorithm is reduced by 59.7%,65.1% and 75.5% respectively over the entire time range covered by the three CNN,BBC and NYT datasets,which effectively improves the hot words online query efficiency.

作者赵志洲路畅何震瀛王晓阳

机构地区复旦大学计算机科学技术学院

出处《计算机工程》 CAS CSCD 北大核心 2018年第2期17-23,30,共8页 Computer Engineering

基金国家自然科学基金(61370080) 上海市科技创新行动计划项目(16DZ1100200)

关键词热词时间复杂度在线查询数据划分范围查询 hot word time complexity online query data partition range query

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
3聂文汇,曾承,贾大文.基于热度矩阵的微博热点话题发现[J].计算机工程,2017,34(2):57-62. 被引量：9
4王林,戴冠中.基于复杂网络社区结构的论坛热点主题发现[J].计算机工程,2008,34(11):214-216. 被引量：23
5高妮,周明全,耿国华,王学松,贺毅岳.基于文本挖掘的话题发现技术[J].计算机工程,2009,35(19):36-38. 被引量：5
6黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221

二级参考文献108

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2王泽彬,金飞,李夏,王冠.Web数据挖掘技术及实现[J].哈尔滨工业大学学报,2005,37(10):1403-1405. 被引量：11
3金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
4骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
5于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
6宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
7赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
8赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
9Margaret C. Intelligence Information Retrieval[C]//Proc. of the 7th Int'l Conf. on Topic Detection and Tracking. Gaithersbury, USA:[s. n.], 2004.
10Broder A Z, Glassman S C, Manasse M S, et al. Syntactic Clustering of the Web[C]//Proceedings of the 6th International Web Wide World Conference. [S. l.]: ACM Press, 1997.

共引文献418

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
6骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
7王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
8高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
9姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
10胡健,董跃华,杨炳儒.大型复杂网络中的社区结构发现算法[J].计算机工程,2008,34(19):92-93. 被引量：14

同被引文献9

1王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
2洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
3李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
4迟呈英,李红.基于改进TF* PDF算法的网络新闻热点话题检测和跟踪[J].计算机应用与软件,2013,30(12):311-314. 被引量：10
5刘一宁,申彦明.基于终身机器学习的主题挖掘与评分预测联合模型[J].计算机工程,2019,45(6):237-241. 被引量：5
6路畅,何震瀛,荆一楠,王晓阳.热点词汇的最长时间区间查询算法[J].计算机应用与软件,2019,36(8):249-254. 被引量：2
7柯文俊,高金华,沈华伟,刘悦,程学旗.基于改进Apriori算法的问题模板无监督抽取方法[J].中文信息学报,2020,34(10):76-84. 被引量：5
8刘昱彤,吴斌,谢韬,王柏.基于古汉语语料的新词发现方法[J].中文信息学报,2019,33(1):46-55. 被引量：12
9张仰森,段宇翔,黄改娟,蒋玉茹.社交媒体话题检测与追踪技术研究综述[J].中文信息学报,2019,0(7):1-10. 被引量：18

引证文献2

1路畅,何震瀛,荆一楠,王晓阳.热点词汇的最长时间区间查询算法[J].计算机应用与软件,2019,36(8):249-254. 被引量：2
2王璐,刘晓清,何震瀛.连续时间区间内的频繁词序列挖掘算法[J].计算机工程,2022,48(2):79-85.

二级引证文献2

1王璐,刘晓清,何震瀛.连续时间区间内的频繁词序列挖掘算法[J].计算机工程,2022,48(2):79-85.
2王大睿,张超群,郝小芳,完颜兵,李晓翔.一种基于景区评论的静态热词提取模型[J].信息技术,2024,48(6):15-21.

1赵立波,李凌霞,王旭.物联网海量异构传感器采样数据存储与查询处理[J].软件导刊,2017,16(12):182-183. 被引量：5
2陆可,桂伟,江雨燕,杜萍萍.基于Spark的并行FP-Growth算法优化与实现[J].计算机应用与软件,2017,34(9):273-278. 被引量：8
3鲁晓珲.主板返修在线查询管理系统的设计[J].物联网技术,2018,8(2):80-82. 被引量：1
4赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
5蒋连琼,毛行栋.基于Pro/E的液压挖掘机三维建模及运动仿真[J].煤矿机械,2017,38(10):169-171. 被引量：4
6姜浩.关系数据库中的关键词查询结果动态优化[J].纳税,2017,11(4):114-114.
7张亚娟,蒋文娟,刘寒冰.较小存储空间下物联网隐私保护加密算法[J].科学技术与工程,2017,17(29):308-312. 被引量：2
8袁鑫攀,汪灿飞,龙军,章成源,满君丰.FGBC-iDistance:细粒度位码过滤的高维索引[J].通信学报,2017,38(A01):127-134.
9蒋霞,王继伟,朱德生,拓万亮.基于Android的柯汉互译电子辞典的设计与实现[J].塔里木大学学报,2017,29(4):38-45.
10《电工技术学报》投稿须知[J].电工技术学报,2018,33(3):707-707.

计算机工程

2018年第2期

浏览历史

内容加载中请稍等...

一种高效的文本区间热词查询算法被引量：2

参考文献6

二级参考文献108

共引文献418

同被引文献9

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种高效的文本区间热词查询算法 被引量：2

参考文献6

二级参考文献108

共引文献418

同被引文献9

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种高效的文本区间热词查询算法被引量：2