OCR Extract Table
OCR Extract Table
Sección titulada «OCR Extract Table»Tipo: ocr-extract-table · Paquete: OCR Activities v1.0.0 · Salida: DataTable
Detecta una tabla dentro de una imagen, agrupando las palabras reconocidas en filas y columnas según su posición, y la devuelve como una DataTable. Útil para extraer un listado tabular de un documento escaneado (un detalle de factura, un cuadro de datos).
Cómo funciona
Sección titulada «Cómo funciona»Ejecuta OCR sobre la imagen y, a partir de las coordenadas de cada palabra, reconstruye la estructura de la tabla. Por defecto trata la primera fila como encabezados (hasHeader) y descarta las filas con menos celdas que minColumns (para ignorar texto suelto que no es parte de la tabla).
Parámetros requeridos
Sección titulada «Parámetros requeridos»| Parámetro | Editor | Descripción |
|---|---|---|
path | expresión | Ruta del archivo de imagen. |
Parámetros opcionales
Sección titulada «Parámetros opcionales»| Parámetro | Editor | Descripción |
|---|---|---|
language | expresión | Código del idioma: eng (def.) · spa · eng+spa. |
preprocess | expresión | Limpieza previa: none · auto (def.) · deskew · binarize. |
hasHeader | booleano | Tratar la primera fila como nombres de columna. Por defecto true. |
minColumns | expresión | Descartar filas con menos celdas que este número. Por defecto 2. |
Devuelve un DataTable con las filas y columnas detectadas.
Ejemplo
Sección titulada «Ejemplo»OCR Extract Table path = = rutaEscaneo language = "spa" → output: tablaFor Each items = = tabla itemVariable = fila └─ activities: Log message = = str(fila["Descripción"]) + " — " + str(fila["Valor"])Actividades relacionadas
Sección titulada «Actividades relacionadas»- OCR Get Lines — las líneas y coordenadas crudas, para un control fino.
- DataTable — filtrar, ordenar y resumir la tabla extraída.
- PDF Get Text — para documentos con texto real.