Ir al contenido

OCR Extract Table

Tipo: ocr-extract-table  ·  Paquete: OCR Activities v1.0.0  ·  Salida: DataTable

Detecta una tabla dentro de una imagen, agrupando las palabras reconocidas en filas y columnas según su posición, y la devuelve como una DataTable. Útil para extraer un listado tabular de un documento escaneado (un detalle de factura, un cuadro de datos).

Ejecuta OCR sobre la imagen y, a partir de las coordenadas de cada palabra, reconstruye la estructura de la tabla. Por defecto trata la primera fila como encabezados (hasHeader) y descarta las filas con menos celdas que minColumns (para ignorar texto suelto que no es parte de la tabla).

ParámetroEditorDescripción
pathexpresiónRuta del archivo de imagen.
ParámetroEditorDescripción
languageexpresiónCódigo del idioma: eng (def.) · spa · eng+spa.
preprocessexpresiónLimpieza previa: none · auto (def.) · deskew · binarize.
hasHeaderbooleanoTratar la primera fila como nombres de columna. Por defecto true.
minColumnsexpresiónDescartar filas con menos celdas que este número. Por defecto 2.

Devuelve un DataTable con las filas y columnas detectadas.

OCR Extract Table path = = rutaEscaneo language = "spa" → output: tabla
For Each items = = tabla itemVariable = fila
└─ activities:
Log message = = str(fila["Descripción"]) + " — " + str(fila["Valor"])
  • OCR Get Lines — las líneas y coordenadas crudas, para un control fino.
  • DataTable — filtrar, ordenar y resumir la tabla extraída.
  • PDF Get Text — para documentos con texto real.