Ir al contenido

OCR Extract Form Fields

Tipo: ocr-extract-form  ·  Paquete: OCR Activities v1.0.0  ·  Salida: Dictionary

Extrae texto de regiones rectangulares nombradas de una imagen. Defines, por cada campo, la zona (caja x, y, w, h) donde está su valor, y la actividad hace OCR solo en esa zona. Ideal para formularios de formato fijo (siempre la misma plantilla), donde cada dato está siempre en el mismo lugar.

Por cada campo del diccionario fields, recorta la región indicada de la imagen, le aplica OCR y guarda el texto en el resultado bajo ese nombre. Devuelve un diccionario { campo: valor }.

ParámetroEditorDescripción
pathexpresiónRuta del archivo de imagen.
fieldsobjetoDiccionario nombreCampo → { x, y, w, h } (región en píxeles).
ParámetroEditorDescripción
languageexpresiónCódigo del idioma: eng (def.) · spa · eng+spa.
preprocessexpresiónLimpieza previa: none (def.) · auto · deskew · binarize.

Devuelve un Dictionary con un valor por cada región definida.

Extraer datos de un formulario siempre con el mismo diseño:

OCR Extract Form Fields
path = = rutaFormulario
language = "spa"
fields = {
"nombre": { "x": 120, "y": 80, "w": 300, "h": 30 },
"documento":{ "x": 120, "y": 130, "w": 200, "h": 30 },
"fecha": { "x": 420, "y": 80, "w": 150, "h": 30 }
}
→ output: datos