摘要
文本数据质量的发展离不开海量的原生数据和网络原生数字资源的支持。原生数据包括业务数据、文献数据和用户数据三大类型。其中,文本数据是支撑文献数据搜索引擎和知识化资源系统建设的主要对象。目前对于文本数据质量控制存在流程复杂、数量巨大和技术效率要求较高的问题,OCR识别技术因此备受关注,其采用人工智能的辅助算法,OCR可以提高其兼容性。本文通过综述OCR技术的识别工作过程、关键技术、研究思路及在不同种类文献中的广泛应用,表明通过改善OCR技术可以提高对于文本数据的识别效率和准确度,实现文本数据的智能管理化。