Ir al contenido

OCR Extract Pattern

Tipo: ocr-extract-pattern  ·  Paquete: OCR Activities v1.0.0  ·  Salida: Dictionary

Combina OCR + expresiones regulares en un solo paso: reconoce el texto de una imagen y, sobre ese texto, aplica un conjunto de patrones (regex) para extraer campos concretos. Devuelve un diccionario { campo: valor }. Es la forma más directa de sacar datos estructurados de un documento escaneado (número de factura, fecha, total).

Ejecuta OCR sobre la imagen y, sobre el texto resultante, evalúa cada patrón del diccionario patterns. Por cada patrón que coincide, agrega nombreCampo → valor al resultado. Usa un grupo de captura en el regex para extraer solo la parte que te interesa.

ParámetroEditorDescripción
pathexpresiónRuta del archivo de imagen.
patternsobjetoDiccionario nombreCampo → patrón regex. Usa un grupo de captura para extraer el valor.
ParámetroEditorDescripción
languageexpresiónCódigo del idioma: eng (def.) · spa · eng+spa.
preprocessexpresiónLimpieza previa: none (def.) · auto · deskew · binarize.

Devuelve un Dictionary con un par por cada patrón que coincidió.

Extraer número, fecha y total de una factura escaneada:

OCR Extract Pattern
path = = rutaFactura
language = "spa"
preprocess = "auto"
patterns = {
"numero": "FAC-(\d+)",
"fecha": "Fecha:\s*(\d{4}-\d{2}-\d{2})",
"total": "Total:\s*\$?([\d.,]+)"
}
→ output: datos
Log message = = "Factura " + datos["numero"] + " — Total " + datos["total"]