OCR Extract Table

Tipo: ocr-extract-table · Paquete: OCR Activities v1.0.0 · Salida: DataTable

Detecta una tabla dentro de una imagen, agrupando las palabras reconocidas en filas y columnas según su posición, y la devuelve como una DataTable. Útil para extraer un listado tabular de un documento escaneado (un detalle de factura, un cuadro de datos).

Cómo funciona

Ejecuta OCR sobre la imagen y, a partir de las coordenadas de cada palabra, reconstruye la estructura de la tabla. Por defecto trata la primera fila como encabezados (hasHeader) y descarta las filas con menos celdas que minColumns (para ignorar texto suelto que no es parte de la tabla).

Parámetros requeridos

Parámetro	Editor	Descripción
`path`	expresión	Ruta del archivo de imagen.

Parámetros opcionales

Parámetro	Editor	Descripción
`language`	expresión	Código del idioma: `eng` (def.) · `spa` · `eng+spa`.
`preprocess`	expresión	Limpieza previa: `none` · `auto` (def.) · `deskew` · `binarize`.
`hasHeader`	booleano	Tratar la primera fila como nombres de columna. Por defecto `true`.
`minColumns`	expresión	Descartar filas con menos celdas que este número. Por defecto `2`.

Salida

Devuelve un DataTable con las filas y columnas detectadas.

Ejemplo

OCR Extract Table   path = = rutaEscaneo   language = "spa"   → output: tabla
For Each   items = = tabla   itemVariable = fila
 └─ activities:
      Log   message = = str(fila["Descripción"]) + " — " + str(fila["Valor"])

Actividades relacionadas

OCR Get Lines — las líneas y coordenadas crudas, para un control fino.
DataTable — filtrar, ordenar y resumir la tabla extraída.
PDF Get Text — para documentos con texto real.