OCR Recognize File

Tipo: ocr-recognize · Paquete: OCR Activities v1.0.0 · Salida: string

Reconoce y devuelve todo el texto de un archivo de imagen (.png, .jpg, .bmp, .tiff). Es la actividad central del paquete: leer el contenido de una imagen o de un documento escaneado para luego extraer datos con expresiones.

Cómo funciona

Pasa la imagen por el motor Tesseract y devuelve el texto reconocido. Indica el language del texto para mejorar la precisión, y usa preprocess para limpiar imágenes de baja calidad. Ver idioma y preprocesado.

Parámetros requeridos

Parámetro	Editor	Descripción
`path`	expresión	Ruta del archivo de imagen.

Parámetros opcionales

Parámetro	Editor	Descripción
`language`	expresión	Código del idioma: `eng` (def.) · `spa` · `eng+spa`.
`preprocess`	expresión	Limpieza previa: `none` (def.) · `auto` · `deskew` · `binarize`.

Salida

Devuelve un string con el texto reconocido.

Ejemplo

Leer una factura escaneada en español y extraer el total:

OCR Recognize File   path = = rutaEscaneo   language = "spa"   preprocess = "auto"   → output: texto
Set Variable   name = total   value = = regexFind(texto, "Total:\s*\$?([\d.,]+)")

Actividades relacionadas

OCR Extract Pattern — extraer campos concretos con regex en un solo paso.
OCR Find Text — ubicar dónde está un texto.
PDF Get Text — para PDF con texto (sin OCR).