Ir al contenido

OCR Recognize File

Tipo: ocr-recognize  ·  Paquete: OCR Activities v1.0.0  ·  Salida: string

Reconoce y devuelve todo el texto de un archivo de imagen (.png, .jpg, .bmp, .tiff). Es la actividad central del paquete: leer el contenido de una imagen o de un documento escaneado para luego extraer datos con expresiones.

Pasa la imagen por el motor Tesseract y devuelve el texto reconocido. Indica el language del texto para mejorar la precisión, y usa preprocess para limpiar imágenes de baja calidad. Ver idioma y preprocesado.

ParámetroEditorDescripción
pathexpresiónRuta del archivo de imagen.
ParámetroEditorDescripción
languageexpresiónCódigo del idioma: eng (def.) · spa · eng+spa.
preprocessexpresiónLimpieza previa: none (def.) · auto · deskew · binarize.

Devuelve un string con el texto reconocido.

Leer una factura escaneada en español y extraer el total:

OCR Recognize File path = = rutaEscaneo language = "spa" preprocess = "auto" → output: texto
Set Variable name = total value = = regexFind(texto, "Total:\s*\$?([\d.,]+)")