OCR Activities

Versión: 1.0.0 · ID: zoan-packages-ocr · Autor: Zoan Software

El paquete OCR (Optical Character Recognition, reconocimiento óptico de caracteres) lee el texto que aparece dentro de una imagen: un PDF escaneado, una foto de un documento, una captura de pantalla. Es el complemento del paquete PDF: cuando un documento es una imagen (no tiene texto seleccionable), las actividades de PDF no pueden leerlo — pero OCR sí.

Usa el motor Tesseract, un reconocedor de texto de código abierto ampliamente usado.

Idioma del texto

Casi todas las actividades aceptan un parámetro language con el código del idioma del texto a reconocer:

Valor	Idioma
`eng`	Inglés (por defecto)
`spa`	Español
`eng+spa`	Varios idiomas a la vez

Indicar el idioma correcto mejora mucho la precisión (por los acentos, la ñ, etc.). Para texto en español, usa siempre language = "spa". Para ver qué idiomas están disponibles, usa OCR Get Available Languages.

Preprocesado de la imagen

El parámetro preprocess aplica una limpieza a la imagen antes de reconocerla, lo que mejora el resultado en escaneos de mala calidad:

Valor	Qué hace
`none`	Sin preprocesado (por defecto en la mayoría)
`auto`	Limpieza completa: quita ruido, binariza y endereza
`deskew`	Solo endereza una imagen torcida
`binarize`	Convierte a blanco y negro (mejora el contraste)

Dos fuentes: archivo o pantalla

Desde un archivo de imagen (.png, .jpg, .bmp, .tiff): OCR Recognize File y las de extracción estructurada.
Desde la pantalla: OCR Recognize Screen Region (un área) y OCR Screenshot (toda la pantalla). Estas requieren una sesión de escritorio interactiva (igual que el paquete Desktop).

Actividades

Reconocer texto

Actividad	Tipo	Salida	Qué hace
OCR Recognize File	`ocr-recognize`	`string`	Lee el texto de un archivo de imagen
OCR Recognize Screen Region	`ocr-recognize-region`	`string`	Lee el texto de un área de la pantalla
OCR Screenshot	`ocr-screenshot`	`string`	Lee todo el texto de la pantalla

Buscar y ubicar

Actividad	Tipo	Salida	Qué hace
OCR Find Text	`ocr-find-text`	`object`	Encuentra la posición de un texto
OCR Get Lines	`ocr-get-lines`	`List`	Lista estructurada de líneas y coordenadas

Extracción estructurada

Actividad	Tipo	Salida	Qué hace
OCR Extract Pattern	`ocr-extract-pattern`	`Dictionary`	Extrae campos con expresiones regulares
OCR Extract Form Fields	`ocr-extract-form`	`Dictionary`	Extrae texto de regiones nombradas
OCR Extract Table	`ocr-extract-table`	`DataTable`	Detecta una tabla en la imagen

Utilidad

Actividad	Tipo	Salida	Qué hace
OCR Get Available Languages	`ocr-get-languages`	`List`	Idiomas disponibles

Un flujo típico

Leer una factura escaneada y extraer su número:

OCR Recognize File   path = = rutaImagen   language = "spa"   preprocess = "auto"   → output: texto
Set Variable   name = numero   value = = regexFind(texto, "FAC-\d+")

Siguientes pasos

OCR Recognize File — leer texto de una imagen.
OCR Extract Pattern — extraer campos concretos de un documento.
PDF — para PDF con texto seleccionable (sin OCR).