Del dato bruto a la actualización del modelo: una pipeline de categorización automática

La categorización automática de transacciones bancarias se percibe a menudo como un problema clásico de clasificación supervisada. En la práctica, se sitúa en la intersección de varias dificultades estructurales: las etiquetas son ruidosas y poco normalizadas, la ambigüedad semántica es elevada, la taxonomía esperada abarca cerca de 90 categorías y la distribución de clases está muy desequilibrada (p. ej.: los gastos alimentarios son frecuentes, mientras que los embargos de cuenta son raros).

Una misma etiqueta puede cubrir realidades distintas según el contexto: por ejemplo, "Amazon" puede designar una compra cotidiana, una suscripción o gastos relacionados con el uso de la plataforma (comisiones de Marketplace o costes vinculados a una actividad de comercio electrónico). Además, un mismo comerciante puede aparecer bajo múltiples variantes en las etiquetas bancarias. Estas variaciones provienen de los sistemas de pago, los agregadores o los formatos propios de cada banco, y se traducen en diferencias a veces importantes en la cadena de caracteres: abreviaciones, identificadores técnicos, localizaciones o sufijos transaccionales. Así, una transacción vinculada a Amazon puede aparecer bajo formas como "AMZN Mktp FR", "Amazon EU Sarl", "AMZN Digital" o "Amazon Prime".

En este contexto, el rendimiento de un modelo depende menos de la arquitectura que de la calidad, la diversidad y la actualización continua de los datos de entrenamiento.

1. Estrategia de muestreo de datos y anotación humana

La pipeline comienza con un muestreo periódico desde el almacén de datos anonimizados. Combinamos varias estrategias complementarias: un muestreo aleatorio que sirve de base no sesgada para reflejar la distribución global de los datos, y un sobremuestreo de las clases raras para mejorar la cobertura de las categorías minoritarias. Esta combinación permite generar un conjunto de datos representativo, equilibrando la exploración de casos raros con la explotación de transacciones frecuentes.

Las transacciones seleccionadas se pre-anotan a continuación mediante un modelo de lenguaje, utilizado a través de un esquema de prompting estructurado que combina instrucciones explícitas y ejemplos de referencia (few-shot learning). El prompt incorpora ejemplos representativos, restricciones sobre el espacio de salida y reglas de negocio, con el fin de guiar al modelo hacia predicciones coherentes con la taxonomía objetivo. Esta etapa permite generar etiquetas candidatas de forma controlada, que sirven de base para la validación y la anotación humana. Las transacciones para las que el LLM tiene una confianza muy elevada se procesan automáticamente, mientras que las transacciones ambiguas se someten a la anotación por parte de expertos. Las correcciones humanas se reinyectan en la pipeline y alimentan la siguiente iteración del modelo, lo que permite mejorar progresivamente la precisión a lo largo del tiempo. Este dispositivo permite una forma pragmática de aprendizaje activo, en la que el sistema selecciona automáticamente los ejemplos más informativos para la anotación humana, maximizando así el impacto de cada corrección y asegurando un enriquecimiento optimizado de los conjuntos de entrenamiento.

2. Evaluación y despliegue de modelos

Cada nueva versión del modelo se evalúa sobre un conjunto de prueba estratificado, nunca utilizado durante el entrenamiento, y se compara con el modelo actualmente en producción según varias métricas: precisión global, F1 ponderado y rendimiento por clase. No se acepta ninguna regresión en las categorías críticas para la toma de decisiones, y en caso de igualdad o incertidumbre, se conserva el modelo existente. Cuando los criterios se validan, una nueva versión puede desplegarse en modo shadowing, donde sus predicciones se evalúan en paralelo con el sistema en producción sin impactar los tratamientos operativos. Este enfoque permite detectar posibles anomalías, comparar el comportamiento de ambas versiones y garantizar una introducción segura de las evoluciones del modelo.

3. Trazabilidad, gobernanza y conformidad regulatoria

Para que este proceso siga siendo fiable y alineado con los principios del AI Act, el conjunto de datos y transformaciones está sujeto a un versionado y una trazabilidad completos. Cada modelo puede vincularse a las transacciones anotadas que lo alimentaron, permitiendo rastrear con precisión su origen. El seguimiento de las experimentaciones registra los parámetros, las métricas y los artefactos asociados, mientras que un catálogo de datos enriquecido con metadatos de negocio facilita la navegación y la trazabilidad. Paralelamente, controles automáticos detectan anomalías en origen: datos corruptos, incoherencias de esquema, reduciendo así el riesgo de errores en producción.

Para concluir

Así, la categorización de transacciones se inscribe en un enfoque iterativo de mejora continua. El rendimiento del modelo y las decisiones de diseño se reevalúan regularmente a partir de los retornos de uso, los errores observados y las evoluciones de los datos. El sistema evoluciona así de forma progresiva para responder mejor a las restricciones del negocio y, en particular, a los nuevos casos encontrados.

‍

Wissal El Achouri, Data Scientist en Algoan.