OCR Extract Form Fields

Tipo: ocr-extract-form · Paquete: OCR Activities v1.0.0 · Salida: Dictionary

Extrae texto de regiones rectangulares nombradas de una imagen. Defines, por cada campo, la zona (caja x, y, w, h) donde está su valor, y la actividad hace OCR solo en esa zona. Ideal para formularios de formato fijo (siempre la misma plantilla), donde cada dato está siempre en el mismo lugar.

Cómo funciona

Por cada campo del diccionario fields, recorta la región indicada de la imagen, le aplica OCR y guarda el texto en el resultado bajo ese nombre. Devuelve un diccionario { campo: valor }.

Parámetros requeridos

Parámetro	Editor	Descripción
`path`	expresión	Ruta del archivo de imagen.
`fields`	objeto	Diccionario `nombreCampo → { x, y, w, h }` (región en píxeles).

Parámetros opcionales

Parámetro	Editor	Descripción
`language`	expresión	Código del idioma: `eng` (def.) · `spa` · `eng+spa`.
`preprocess`	expresión	Limpieza previa: `none` (def.) · `auto` · `deskew` · `binarize`.

Salida

Devuelve un Dictionary con un valor por cada región definida.

Ejemplo

Extraer datos de un formulario siempre con el mismo diseño:

OCR Extract Form Fields
  path     = = rutaFormulario
  language = "spa"
  fields = {
     "nombre":   { "x": 120, "y": 80,  "w": 300, "h": 30 },
     "documento":{ "x": 120, "y": 130, "w": 200, "h": 30 },
     "fecha":    { "x": 420, "y": 80,  "w": 150, "h": 30 }
  }
  → output: datos

Actividades relacionadas

OCR Extract Pattern — extraer por patrón regex.
OCR Recognize Screen Region — leer una sola región.