目前已有许多方法和技术来获取计算机可读可写的文档(document)。例如,先用扫描仪扫描,然后用OCR(optical character recognition)识别而产生文档。这是最常见的半自动获取文档的方法之一。更高质量地获取文档是指获取文档的结构和语义...目前已有许多方法和技术来获取计算机可读可写的文档(document)。例如,先用扫描仪扫描,然后用OCR(optical character recognition)识别而产生文档。这是最常见的半自动获取文档的方法之一。更高质量地获取文档是指获取文档的结构和语义。这不是不可能。展开更多
基金Supported by Hunan Agricultural Science and Technology Innovation Project(2022cx40,2022cx121)The Science and Technology Project of“Selecting the Best Candidates to Undertake Key Research Projects”of Hunan Province(2021NK1040)。