基于多特征的视频关联文本关键词提取方法被引量：5

An keyword extraction approach from video associated text based on multiple features

下载PDF

导出

摘要针对互联网多媒体视频数量的爆炸式增长导致快速获取视频的内容变得非常困难问题,提出了一种基于多特征的关键词提取算法TFL-WS算法.通过分析视频包含丰富的相关文本信息的特点,建立了基于改进TF和多特征的候选词权重计算公式,该公式将候选词的统计特征与位置权重动态结合起来,并考虑候选词的词性、词跨度等属性,借助扩展的同义词词林来提取关键词,通过提取到的关键词来表述视频的内容信息.实验结果表明:改进后的算法所提取的关键词效果更好,在准确率和召回率方面都有一定的提升,并且能够很好的表示视频的内容. The explosive growth of multimedia video on the Internet leads to access the content of the video more and more difficulty, a keyword extraction algorithm TFL-WS based on multiple features is proposed in this paper. Through analyzing the characteristics of the video which contains abundant related text information, a word weight calculation formula which is based on improved TF and multiple features is established. The statistical characteristic of candidate words and location weight arecombined dynamically in this formula. Considering the part of speech, word span of candidate words, expanded synonym dictionary is used to extract keywords. So the content of the video information can be expressed by the key words. The experimental result shows that the improved algorithm of extracting the keywords has a better result. It has some improvement in the precision and recall rates, and it can represent the video content much better.

作者王万良潘蒙 WANG Wanliang PAN Meng(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)

机构地区浙江工业大学计算机科学与技术学院

出处《浙江工业大学学报》 CAS 北大核心 2017年第1期14-18,共5页 Journal of Zhejiang University of Technology

基金国家"十二五"科技支撑计划项目(2012BAD10B01) 浙江省重大科技专项项目(2013C01113)

关键词提取视频内容 TF 特征词权重 keyword extraction video content TF term weight

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27. 被引量：30
2白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4
3刘端阳,王良芳.基于语义词典和词汇链的关键词提取算法[J].浙江工业大学学报,2013,41(5):545-551. 被引量：14
4王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4. 被引量：48
5刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究,2016,33(2):365-369. 被引量：17
6谢凤宏,张大为,黄丹,谢福鼎.基于加权复杂网络的文本关键词提取[J].系统科学与数学,2010,30(11):1592-1596. 被引量：14
7罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
8郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：6

二级参考文献95

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2刘建香.复杂网络及其在国内研究进展的综述[J].系统科学学报,2009,17(4):31-37. 被引量：72
3李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
4何明,冯博琴,马兆丰,傅向华.一种基于遗传算法的Rough集多知识抽取方法[J].小型微型计算机系统,2005,26(4):651-654. 被引量：2
5王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
6姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
8张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
9程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
10梅家驹,竺一鸣,高蕴琦,等.同义词词林[M].上海:上海辞书出版社,1993:106-108.

共引文献127

1范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3王珏,成玉茜,赵文栋,田畅.语义Web服务匹配方法分析[J].军事通信技术,2012,33(3):33-38. 被引量：1
4许霄峰,徐炜民.基于认知复杂度度量的文本推荐模型[J].计算机工程与设计,2012,33(10):3990-3994. 被引量：2
5刘雅正,陈受凯,唐向阳.基于简化MD5的TFIDF算法[J].科学技术与工程,2012,20(31):8447-8450. 被引量：1
6赵辉,刘怀亮,范云杰.复杂网络理论在中文文本特征选择中的应用研究[J].现代图书情报技术,2012(9):23-28. 被引量：17
7翟周伟,刘刚,吕玉琴.基于图模型的关键词挖掘方法[J].软件,2012,33(8):9-13. 被引量：3
8罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
9罗灏,徐小良,吕跃华.科技项目申请书关键词提取方法[J].电子科技,2013,26(7):7-10. 被引量：1
10刘一松,潘超.基于领域本体的个性化信息检索模型研究[J].无线通信技术,2013,22(3):29-33.

同被引文献40

1汪德刚,孟艳平,宋雯彦,李洪兴.模糊相似度推理算法及其构造的模糊系统逼近性能的分析[J].工程数学学报,2009,26(3):423-430. 被引量：6
2张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：75
3杨欢,张玉清,胡予濮,刘奇旭.基于多类特征的Android应用恶意行为检测系统[J].计算机学报,2014,37(1):15-27. 被引量：88
4李挺,董航,袁春阳,杜跃进,徐国爱.基于Dalvik指令的Android恶意代码特征描述及验证[J].计算机研究与发展,2014,51(7):1458-1466. 被引量：26
5李玉清.嘉兴市电子商务产业发展与人才需求分析研究[J].办公自动化,2018,23(23):41-45. 被引量：1
6高雪,谢仪,侯红卫.基于多指标面板数据的改进的聚类方法及应用[J].浙江工业大学学报,2014,42(4):468-472. 被引量：10
7李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.基于LDA-wSVM模型的文本分类研究[J].计算机应用研究,2015,32(1):21-25. 被引量：29
8卿斯汉.Android安全研究进展[J].软件学报,2016,27(1):45-71. 被引量：106
9罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：73
10钟翔,高勇,邬伦.基于链接分析的网页文本核心地名提取方法[J].地球信息科学学报,2016,18(4):435-442. 被引量：3

引证文献5

1孙娜.自然语言文本中否定性信息智能抽取仿真[J].计算机仿真,2018,35(12):276-279. 被引量：2
2陈铁明,徐志威.基于API调用序列的Android恶意代码检测方法研究[J].浙江工业大学学报,2018,46(2):147-154. 被引量：6
3杨肖楠,花季伟.互联网中非法文本特征自适应提取仿真研究[J].计算机仿真,2019,36(6):434-437. 被引量：1
4刘彩霞.电子商务人才需求组合数据自适应提取仿真[J].计算机仿真,2019,36(7):178-181. 被引量：2
5王瑞.基于模糊规则与相似度计算的电子商务人才需求组合数据提取研究[J].粘接,2020,42(5):164-167. 被引量：1

二级引证文献12

1刘晓建,雷倩,杜茜,刘柯宏.多上下文特征的Android恶意程序静态检测方法[J].华中科技大学学报（自然科学版）,2020,48(2):85-90. 被引量：7
2陈铁明,张凯一,吕明琪.一种基于多视图协同学习的App分类方法[J].浙江工业大学学报,2018,46(6):591-597.
3楼佳.大数据中电子商务需求信息资源提取仿真研究[J].中国管理信息化,2020,23(2):137-138. 被引量：1
4彭宏,庄宁.基于Tensorflow的Android端相册分类App设计与实现[J].浙江工业大学学报,2020,48(2):165-172.
5王瑞.基于模糊规则与相似度计算的电子商务人才需求组合数据提取研究[J].粘接,2020,42(5):164-167. 被引量：1
6赵海燕,刘琨,王廷梅,杜丽娟.网络文本蕴含关系识别的异常信息获取仿真[J].计算机仿真,2020,37(8):256-260. 被引量：3
7陈镭,杨章静,黄璞.基于机器学习的Android恶意软件检测实验[J].实验技术与管理,2020,37(12):94-97. 被引量：5
8张磊.人工智能背景下计算机自然语言的处理[J].新一代信息技术,2020,3(17):44-47. 被引量：1
9李俊,郑阳,汤英洹,王佳玟.基于机器学习的大学生简历数据分析[J].科技创新与应用,2022,12(2):83-86.
10杨吉云,范佳文,周洁,高凌云.融合行为模式的Android恶意代码检测方法[J].计算机科学与探索,2022,16(8):1792-1799.

1刘典,李石君.基于用户反馈的关键词提取[J].计算机工程与设计,2015,36(8):2277-2281. 被引量：1
2孙宏志,任丽妍,孙琪.基于统计的行业中文文本关键词提取方法[J].电子制作,2015,23(6X):86-87.
3台德艺,谢飞,胡学钢.基于位置权重的文本分类[J].安徽水利水电职业技术学院学报,2008,8(1):64-66. 被引量：2
4孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014,31(7):177-181. 被引量：49
5彭云,万红新.一种基于粗糙集的Web文本搜索算法[J].微计算机信息,2009,25(30):182-183. 被引量：1
6姚卫国,张东波.基于Hadoop分布式平台的Web文本关键词提取方案[J].湘潭大学自然科学学报,2016,38(2):79-83. 被引量：5
7王兰成,徐震.主题舆情分析中的语义Web文本分类研究[J].情报学报,2012,31(4):340-344. 被引量：6
8乔立鹏.TFL集团管理委员会成员变动[J].北京皮革（中外皮革信息版）（中）,2009(3):62-62.
9任美睿,郭龙江,李金宝.基于改进的向量空间模型的自动文本分类[J].哈尔滨商业大学学报（自然科学版）,2006,22(1):77-80. 被引量：2
10乔立鹏.TFL新旧管理层成功移交[J].北京皮革（中外皮革信息版）（中）,2007(5):58-58.

浙江工业大学学报

2017年第1期

浏览历史

内容加载中请稍等...

基于多特征的视频关联文本关键词提取方法被引量：5

参考文献8

二级参考文献95

共引文献127

同被引文献40

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于多特征的视频关联文本关键词提取方法 被引量：5

参考文献8

二级参考文献95

共引文献127

同被引文献40

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于多特征的视频关联文本关键词提取方法被引量：5