期刊文献+

基于OCR技术的文本数据质量控制研究

下载PDF
导出
摘要 文本数据质量的发展离不开海量的原生数据和网络原生数字资源的支持。原生数据包括业务数据、文献数据和用户数据三大类型。其中,文本数据是支撑文献数据搜索引擎和知识化资源系统建设的主要对象。目前对于文本数据质量控制存在流程复杂、数量巨大和技术效率要求较高的问题,OCR识别技术因此备受关注,其采用人工智能的辅助算法,OCR可以提高其兼容性。本文通过综述OCR技术的识别工作过程、关键技术、研究思路及在不同种类文献中的广泛应用,表明通过改善OCR技术可以提高对于文本数据的识别效率和准确度,实现文本数据的智能管理化。
作者 刘耀萱
机构地区 国家图书馆
出处 《中国信息化》 2024年第6期70-72,共3页
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部