摘要
设计基于Tesseract引擎针对全血化验单内容的识别系统。利用混合边缘检测算子对图片进行边缘检测,排除背景噪声。通过透视变换、霍夫直线检测对图像进行倾斜校正,利用投影法切分不同类型字符识别区域,对切分的项目名称和结果利用二维OTSU(大津算法)法对相应的图像进行二值化。利用Tesseract引擎使用集束搜索算法和K-近邻算法(KNN)进行预识别,经过校正后,重新训练生成全血化验单识别字库,利用生成字库进行识别。经过实验,该系统识别率为96.4%。该系统的实现,弥补了市场空白,避免手动输入的繁琐,提高了效率,有助于历史医疗数据保存和医疗大数据的发展。
出处
《电脑编程技巧与维护》
2020年第4期96-100,128,共6页
Computer Programming Skills & Maintenance
基金
国家自然科学基金(51376017).