通用文档识别

产品概述

通用场景下的整图文字/文档结构识别，支持整图中的文字、印章、图片、图表、表格、公式等各元素的识别解析，并以Json格式返回识别结果，输入格式支持图片、PDF/OFD。

产品特点

直击解决VLM痛点

目前开源视觉大模型普遍存在以下生产级问题：
a). 复读问题：模型在遇到解析困难处，直接重复输出，直至耗尽最大token输出数
b). 推理速度问题：纯端到端模型，推理速度慢，难以满足生产级OCR的推理耗时要求
c). 倾斜弯曲版面问题：两阶段模型，解决推理速度问题，但对真实场景的倾斜弯曲等图像效果不佳