OCR Extract Pattern
OCR Extract Pattern
Sección titulada «OCR Extract Pattern»Tipo: ocr-extract-pattern · Paquete: OCR Activities v1.0.0 · Salida: Dictionary
Combina OCR + expresiones regulares en un solo paso: reconoce el texto de una imagen y, sobre ese texto, aplica un conjunto de patrones (regex) para extraer campos concretos. Devuelve un diccionario { campo: valor }. Es la forma más directa de sacar datos estructurados de un documento escaneado (número de factura, fecha, total).
Cómo funciona
Sección titulada «Cómo funciona»Ejecuta OCR sobre la imagen y, sobre el texto resultante, evalúa cada patrón del diccionario patterns. Por cada patrón que coincide, agrega nombreCampo → valor al resultado. Usa un grupo de captura en el regex para extraer solo la parte que te interesa.
Parámetros requeridos
Sección titulada «Parámetros requeridos»| Parámetro | Editor | Descripción |
|---|---|---|
path | expresión | Ruta del archivo de imagen. |
patterns | objeto | Diccionario nombreCampo → patrón regex. Usa un grupo de captura para extraer el valor. |
Parámetros opcionales
Sección titulada «Parámetros opcionales»| Parámetro | Editor | Descripción |
|---|---|---|
language | expresión | Código del idioma: eng (def.) · spa · eng+spa. |
preprocess | expresión | Limpieza previa: none (def.) · auto · deskew · binarize. |
Devuelve un Dictionary con un par por cada patrón que coincidió.
Ejemplo
Sección titulada «Ejemplo»Extraer número, fecha y total de una factura escaneada:
OCR Extract Pattern path = = rutaFactura language = "spa" preprocess = "auto" patterns = { "numero": "FAC-(\d+)", "fecha": "Fecha:\s*(\d{4}-\d{2}-\d{2})", "total": "Total:\s*\$?([\d.,]+)" } → output: datos
Log message = = "Factura " + datos["numero"] + " — Total " + datos["total"]Actividades relacionadas
Sección titulada «Actividades relacionadas»- OCR Recognize File — obtener el texto y extraer tú mismo con
regexFind. - OCR Extract Form Fields — extraer por posición en vez de por patrón.