基于颜色聚类和多帧融合的视频文字识别方法被引量：22

Recognition of Text in Video Based on Color Clustering and Multiple Frame Integration

下载PDF

导出

摘要提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中去,使得在各个子图中检测文字区域更为准确.其次,在视频文字增强模块,基于文字笔画强度图过滤掉模糊的文字区域,并综合平均融合和最小值融合的优点,对在不同视频帧中检测到的、包含相同内容的文字区域进行融合,能够得到背景更为平滑、笔画更为清晰的文字区域图像.最后,在视频文字提取模块,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够取得比现有方法更好的二值化结果;另一方面,基于图像中背景与文字的颜色差异,利用颜色聚类的方法去除噪声,能够有效地提高文字识别率.实验结果表明,该方法能够比现有方法取得更好的文字识别结果. This paper proposes a new approach for the text recognition of video, whose novelty mainly lies in the color-based clustering and multiple frame integration of three phases： First, in the text detection phase, the two significant features of text block are jointly considered in a video： homogeneous color, dense edges, and color-based clustering are employed to decompose the color edge map of video frame into several edge maps, which make the text detection more accurate. Second, in text enhancement phase, the text blocks are identified and integrated with the same content by filtering the blurred text based on the proposed text-intensity map, which can obtain the clean background and clear text with a high contrast of effective text extraction. Third, in the text extraction phase, on one hand, for effective binarization of text block, instead of performing binarization in a constant color plane as in the existing methods, this approach can adaptively select the best color plane according to the text contrast difference among color planes for binarization. On the other hand, for effective text recognition, the color differences between the text and background in video frames are considred, and color-based clustering is utilized to remove the noises. Extensive experimental results have shown that this approach outperforms several existing state-of-theart methods.

作者易剑彭宇新肖建国

机构地区北京大学计算机科学技术研究所

出处《软件学报》 EI CSCD 北大核心 2011年第12期2919-2933,共15页 Journal of Software

基金国家自然科学基金(60873154 61073084) 国家发改委资助项目([2010]3044)

关键词视频文字识别基于颜色的聚类多帧融合视频检索噪声去除 text recognition of video color-based clustering multiple frame integration video retrieval noise removal

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1庄越挺,刘骏伟,吴飞,潘云鹤,张引.基于支持向量机的视频字幕自动定位与提取[J].计算机辅助设计与图形学学报,2002,14(8):750-753. 被引量：38
2密聪杰,刘洋,薛向阳.基于多帧图像的视频文字跟踪和分割算法[J].计算机研究与发展,2006,43(9):1523-1529. 被引量：11

二级参考文献26

1[1]Y Wang, Z Liu, J Huang. Multimedia content analysis using audio and visual information[J]. IEEE Signal Processing Magazine, 2000, 17(6):12～36
2[2]R Lienhart, F Stuber. Automatic text recognition in digital videos[A]. In: Proceedings of ACM Multimedia, Boston, 1996.11～20
3[3]Zhong Yu, Zhang Hongjiang, Jain Anil K. Automatic caption localization in compressed video[J]. Pattern Analysis and Machine Intelligence, 2000, 22(4):385～392
4[4]V Vapnik. The Nature of Statistical Learning Theory[M]. New York: Springer, 1995
5[5]M Schmidt. Identifying speaker with support vector networks[A]. In: Proceedings of Interface'96, Sydney, 1996
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features[A]. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998.137～142
7[7]Yuan Qi. Learning algorithms for video and audio processing: Independent component analysis and support vector machine based approaches[R].College Park: University of Maryland at College Park, LAMP-TR-056(CAR-TR-951), 2000
8[8]Edgar Osuna, Robert Freund, Federico Girosi. Training support vector machines: An application to face detection[A]. In: Proceedings of Computer Vision and Pattern Recognition, Puerto Rico, 1997.130～136
9[9]C J C Burges. A tutorial on support vector machines for pattern recognition[J]. Data Mining, and Knowledge Discovery, 1998, 2(2):121～167
10[10]T M Cover. Geometrical and statistical properties of systems and linear inequalities with applications in pattern recognition[J]. IEEE Transactions on Electronic Computers, 1965, 14(3):326～334

共引文献46

1王勇,郑辉,胡德文.图像和视频中的文字获取技术[J].中国图象图形学报（A辑）,2004,9(5):532-538. 被引量：13
2古红英,潘红,吴飞,庄越挺,潘云鹤.虹膜自相似性识别方法研究[J].计算机辅助设计与图形学学报,2004,16(7):973-977. 被引量：7
3余棉水,黎绍发.基于边缘与SVM的车牌自动定位与提取[J].计算机应用研究,2004,21(10):131-133. 被引量：8
4史迎春,周献中,方鹏飞.综合利用形状和颜色特征的台标识别[J].模式识别与人工智能,2005,18(2):216-222. 被引量：13
5周献中,史迎春,王韬.基于HSV颜色空间加权Hu不变矩的台标识别[J].南京理工大学学报,2005,29(3):363-367. 被引量：11
6王建宇,张峰,周献中,史迎春,骆文.利用小波变换和K均值聚类实现字幕区域分割[J].计算机辅助设计与图形学学报,2006,18(10):1508-1512. 被引量：10
7朱成军,李超,熊璋.视频文本检测和识别技术研究[J].计算机工程,2007,33(10):218-219. 被引量：11
8王健,王晨.基于静态图片的文本提取技术的研究[J].延边大学学报（自然科学版）,2007,33(2):124-128. 被引量：3
9付慧,刘峡壁,贾云得.图像中多语种文本提取的高斯混合建模方法[J].计算机研究与发展,2007,44(11):1920-1926. 被引量：2
10刘勇,孙焘,李琛,冯林.自然场景下标志牌文本的提取[J].现代电子技术,2007,30(23):112-114. 被引量：1

同被引文献186

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2林世毅,苏广川,陈东,韩晓广.基于二步法的边缘细化算法研究[J].仪器仪表学报,2004,25(z1):682-684. 被引量：4
3黄河浪.基于电视节目内容的监控系统关键技术分析[J].电视技术,2009,33(5):95-97. 被引量：1
4曹阳,高志远,杨胜春,姚建国,梁云,孙云枫.云计算模式在电力调度系统中的应用[J].中国电力,2012,45(6):14-17. 被引量：37
5王水平,唐振民,陈北京,蒋晔.复杂环境下语音增强的复平面谱减法[J].南京理工大学学报,2013,37(6):857-862. 被引量：6
6曹吉超,孙帅.智能档案馆与数字档案馆辨析[J].办公自动化,2013,18(12):17-19. 被引量：1
7李贵俊,刘正熙,游志胜,庄永.一种基于色差和彩色归一化的车身颜色识别算法[J].计算机应用,2004,24(9):47-49. 被引量：22
8关向荣,任金昌.视频监视中背景的提取与更新算法[J].微电子学与计算机,2005,22(1):95-97. 被引量：13
9张显全,于金辉,蒋凌琳,陶小梅.计算机辅助生成剪纸形象[J].计算机辅助设计与图形学学报,2005,17(6):1378-1382. 被引量：31
10王蓉蓉,金万军,吴立德.一种新的利用多帧结合检测视频标题文字的算法[J].计算机研究与发展,2005,42(7):1191-1197. 被引量：6

引证文献22

1杨知化,汤鹏,单晓辉,周登科,庞栋栋,金秋春,马鹏阁,王增光.海上升压站自动巡检机器人颜色检测算法研究[J].红外与激光工程,2020(S02):255-261. 被引量：2
2刘振华,胡佳,朱阳端.基于RGB亮度分级的图像预处理研究[J].长沙航空职业技术学院学报,2013,13(2):42-44.
3伍杰,蒋朝惠,沈亮光.基于量子神经网络的视频字幕定位方法研究[J].科学技术与工程,2013,21(25):7389-7394.
4陈燕升,任江涛,黄达峰.基于AFSA-LSSVM的视频字幕定位模型[J].电视技术,2014,38(5):42-45.
5李钦瑞,吕学强,李卓,刘坤.Logistic视频字幕增强模型[J].中国图象图形学报,2014,19(5):683-692. 被引量：1
6何立风,刘艳玲,钟岩,姚斌.一种高效的视频背景提取方法[J].微电子学与计算机,2019,36(2):57-61. 被引量：2
7雷鸿源.中国木版年画的画版处理技术研究[J].图学学报,2014,35(5):809-814.
8吴财贵,唐权华.基于深度学习的图片敏感文字检测[J].计算机工程与应用,2015,51(14):203-206. 被引量：4
9梁添才,罗攀峰,张永,聂芸芸.基于笔画生长的自然场景艺术文字检测[J].计算机仿真,2015,32(8):284-288.
10董晓峰,顾晓文,王业,朱国防.电网倒闸操作票智能监护系统设计[J].中国电力,2015,48(12):16-22. 被引量：12

二级引证文献90

1渠波洋.视频检索技术在广播电视监管中的应用研究[J].电声技术,2021,45(12):67-69.
2姚砺,王昭丽.基于深度学习的驾驶证识别方法研究[J].智能计算机与应用,2020,10(7):40-43. 被引量：4
3晋军伟,钱彬,虞力英,王军华,顾席光.基于小样本的境外驾驶证分类方法[J].中国公共安全,2023(4):53-59.
4刘勤学.GH2036合金高温持久缺口敏感性的研究[J].四川冶金,2000,22(1):19-22. 被引量：1
5董婷,赵俭辉,胡勇.基于时空优化深度神经网络的AQI等级预测[J].计算机工程与应用,2017,53(21):17-23. 被引量：7
6谢光艺.基于灰度差分和FCM的新闻字幕检测及提取[J].武警工程大学学报,2017,33(6):4-7.
7黄冬梅,许琼琼,贺琪,杜艳玲.融合多特征的深度学习标注方法[J].计算机工程与应用,2018,54(1):224-228. 被引量：12
8彭云华.探究变电运行倒闸作业误操作的防范和预控[J].科技尚品,2017,0(8):214-214.
9郝稚宇.智能穿戴在基础设施安全防护中的应用[J].信息通信,2018,31(1):207-209. 被引量：3
10王慧荣.医院档案管理中电子档案系统的应用[J].现代经济信息,2018,0(6):47-47. 被引量：3

1程豪,黄磊,刘金刚.基于笔画提取和颜色模型的视频文字分割算法[J].计算机工程,2009,35(4):193-195. 被引量：4
2钱国栋.扫描与质量控制[J].张家口师专学报,2003,19(6):33-34.
3帅仕麟.谈谈家用扫描仪[J].网络与信息,2002,16(11):28-28.
4高文.高文：“存得下查得快”拥抱多媒体大数据时代[J].创新科技,2013(6):7-7. 被引量：2
5任川,杨冬菊.基于云存储的二阶段动态优化调度机制[J].计算机与数字工程,2014,42(9):1553-1557. 被引量：2
6惠普智冠文印打造高效金融[J].中国金融电脑,2013(9):95-95.
7杨强,程玉昆,马森.基于小波变换和相似性度量的视频文字识别[J].计算机工程与设计,2008,29(9):2307-2308. 被引量：1
8马瑞,王家廞.基于点模式匹配的视频文字跟踪和笔画提取[J].计算机工程,2008,34(3):15-17. 被引量：1
9于夏桥,于莉洁.数据融合方法在WSNS农业温度控制的的应用研究[J].管理观察,2009(10):95-95.
10董晓明,崔静,刘本永.多帧融合自适应核回归图像去噪[J].计算机工程与应用,2011,47(13):204-207.

软件学报

2011年第12期

浏览历史

内容加载中请稍等...

基于颜色聚类和多帧融合的视频文字识别方法被引量：22

参考文献2

二级参考文献26

共引文献46

同被引文献186

引证文献22

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

基于颜色聚类和多帧融合的视频文字识别方法 被引量：22

参考文献2

二级参考文献26

共引文献46

同被引文献186

引证文献22

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

基于颜色聚类和多帧融合的视频文字识别方法被引量：22