通用文档识别
产品概述
通用场景下的整图文字/文档结构识别,支持整图中的文字、印章、图片、图表、表格、公式等各元素的识别解析,并以Json格式返回识别结果,输入格式支持图片、PDF/OFD。



产品特点
直击解决VLM痛点
目前开源视觉大模型普遍存在以下生产级问题:
a). 复读问题:模型在遇到解析困难处,直接重复输出,直至耗尽最大token输出数
b). 推理速度问题:纯端到端模型,推理速度慢,难以满足生产级OCR的推理耗时要求
c). 倾斜弯曲版面问题:两阶段模型,解决推理速度问题,但对真实场景的倾斜弯曲等图像效果不佳
多方向文字检测
文字方向检测算法,经历迭代进化,鲁棒性强,支持360°范围内任意角度旋转的图像检测识别,图像大角度倾斜或旋转,识别效果不打折。
标准化本地部署
提供标准的高集成度部署包,私有化部署一键轻松搞定,支持在 ( Linux / Window ) 服务器操作系统、包括国产化操作系统上的私有化部署。
高可用性
支持高性能高并发推理,内置服务健康监测模块保障服务在长期无人值守下高稳定运行。
