La compañía china presentó DeepSeek-OCR, un sistema que combina texto e información visual y reduce entre siete y veinte veces el volumen de datos procesados mediante compresión basada en percepción visual

DeepSeek presentó un nuevo modelo multimodal capaz de integrar texto e información visual para procesar documentos extensos con un consumo reducido de recursos computacionales.

El sistema, denominado DeepSeek-OCR, aplica un enfoque de compresión basado en percepción visual que disminuye de forma significativa el número de tokens, las unidades mínimas de texto utilizadas por los modelos lingüísticos. Este método permite reducir el volumen de información entre siete y veinte veces, lo que optimiza el manejo de grandes conjuntos de datos sin incrementar los costos de procesamiento.

El modelo está disponible en código abierto en las plataformas Hugging Face y GitHub. Su arquitectura se compone de un codificador visual llamado DeepEncoder y un decodificador con estructura Mixture-of-Experts (MoE) que integra 570 millones de parámetros. Además de identificar texto, el sistema puede interpretar elementos visuales como tablas, fórmulas matemáticas y diagramas, lo que amplía su aplicación en áreas como análisis financiero, ingeniería y ciencias computacionales.

De acuerdo con los resultados publicados por la compañía, DeepSeek-OCR superó el rendimiento de otros sistemas de reconocimiento óptico de caracteres, incluidos GOT-OCR 2.0 y MinerU 2.0, al mantener una precisión del 97% con una compresión inferior a diez veces. La empresa indicó que el modelo es capaz de generar más de 200,000 páginas de datos de entrenamiento por día utilizando una sola unidad gráfica Nvidia A100-40G.

El lanzamiento forma parte de la estrategia de DeepSeek para desarrollar modelos más eficientes y de menor costo operativo, siguiendo la línea de sus versiones anteriores V3 y R1, enfocadas en razonamiento y aprendizaje por refuerzo.

Con sede en Hangzhou, DeepSeek pertenece al grupo de nuevas compañías chinas que impulsan el desarrollo de inteligencia artificial de código abierto, junto con Baidu, Tencent y Alibaba. Sin embargo, especialistas advierten que las regulaciones sobre contenido en China podrían limitar la proyección internacional de estos sistemas.