Cómo Algoan escala modelos de riesgo crediticio basados en Open Banking con modelos de lenguaje grandes (LLMs)

Del caos transaccional a la información estructurada
En Algoan, hemos pasado los últimos años desarrollando herramientas de vanguardia para ayudar a los prestamistas a tomar decisiones más inteligentes y justas, basadas en datos de Open Banking (es decir, datos de transacciones bancarias compartidos con el consentimiento del solicitante de crédito).
Uno de nuestros productos clave, Credit Insights, transforma los datos bancarios en bruto en indicadores de riesgo crediticio accionables: estimación de ingresos, evaluación de capacidad de pago, detección de incidentes en cuentas, etc. Al categorizar automáticamente ingresos, gastos, cargos crediticios y comportamientos financieros, Credit Insights ofrece a los prestamistas una visión actualizada y altamente granular de la situación financiera de un prestatario, lo que les permite evaluar su capacidad de reembolso, detectar señales tempranas de estrés financiero y obtener una imagen más precisa y en tiempo real de su solvencia.
A medida que el Open Banking transforma la industria del crédito, el acceso a los datos transaccionales ya no es el cuello de botella. El verdadero reto ahora es interpretar esos datos. Y eso está lejos de ser trivial: las transacciones bancarias no están diseñadas para el procesamiento automático. Las descripciones suelen estar truncadas, ser inconsistentes, llenas de abreviaciones, errores tipográficos o formatos específicos de cada banco. El mismo comercio o tipo de pago puede aparecer con decenas de etiquetas distintas. Incluso dos transacciones similares pueden reflejar comportamientos financieros muy diferentes según su contexto. Además, cada país, banco y segmento de clientes tiene sus propias particularidades. Extraer características consistentes y de alta calidad de estos datos desordenados es uno de los desafíos más grandes para construir sistemas de decisión crediticia robustos y confiables.
Durante años, nuestro objetivo ha sido construir modelos de categorización precisos, escalables, matizados y adaptables a diferentes mercados, con capacidad de aprendizaje rápido y optimización de costes. Ahí es donde entran en juego los Large Language Models (LLMs).
Mejora continua sin explotar recursos
Para categorizar transacciones, no servimos LLMs directamente en los sistemas de producción. Aunque son flexibles, resultan costosos a gran escala y pueden producir resultados variables. Por eso nuestros modelos de producción siguen siendo supervisados y especializados para datos transaccionales. Esto nos proporciona control total sobre costes, estabilidad de resultados y explicabilidad, todos elementos esenciales para el cumplimiento normativo y la toma de decisiones de crédito.
Estos modelos especializados ofrecen una precisión excelente en las categorías clave que seguimos, lo cual es fundamental para generar confianza entre prestamistas y reguladores.
No obstante, nuestros algoritmos necesitan datos etiquetados tanto para el entrenamiento como para el monitoreo. Y producir anotaciones de calidad sigue siendo un cuello de botella importante cuando se trabaja con datos financieros ruidosos. Anotar transacciones financieras es una tarea laboriosa y muy sujeta a interpretación. Es aquí donde entran los LLMs: los utilizamos para etiquetar transacciones.

Gracias a los LLMs, podemos escalar el etiquetado sin aumentar el equipo proporcionalmente. Nuestro proceso de anotación combina ahora varios pasos:
- Etiquetado automático mediante reconocimiento de patrones: especialmente útil en los primeros modelos. Cuando maduran, este enfoque se limita a nuevos bancos o convenciones.
- Anotación automática con LLMs entrenados verticalmente en datos transaccionales, incluyendo generación aumentada con recuperación (RAG), especialmente útil para organizaciones raras o pequeñas. Solo se aceptan las anotaciones si la confianza supera un umbral elevado.
- Comentarios de los clientes.
- Supervisión humana con un volumen de datos mucho menor gracias a los LLMs: hemos reducido por 3 el número de anotaciones manuales.
Al final del proceso, se utilizan técnicas de clustering diseñadas para datos transaccionales, que agrupan las transacciones según la similitud del concepto, el importe y la fecha, con el fin de detectar grupos homogéneos. Estos clusters permiten identificar incoherencias entre anotaciones humanas y automáticas. Posteriormente, mecanismos de consenso o revisiones manuales validan los casos residuales conflictivos.
Hoy contamos con un flujo de trabajo semiautomatizado y autocorregido, en el que los humanos validan los casos límite y las máquinas procesan la mayoría. Los LLMs aceleran el etiquetado, pero los modelos finales siguen estando optimizados para precisión, coherencia y auditabilidad. Los LLMs no son los clasificadores, sino los asistentes del profesor.
Nuestro proceso de aprendizaje activo se basa en este flujo, permitiendo que los sistemas aprendan continuamente de nuevos datos. No solo entregamos un modelo: lo monitoreamos, reentrenamos y adaptamos. Con estos flujos potenciados por LLMs, ahora detectamos mejor anomalías y explicamos mejor las predicciones. Por ejemplo, una divergencia significativa entre un LLM y el modelo en producción activa una revisión, lo que nos ayuda a detectar el drift más temprano y evitar la degradación del rendimiento.
Los LLMs no reemplazan nuestros modelos, sino que potencian nuestra capacidad para desarrollarlos. Al combinar automatización inteligente con experiencia humana, escalamos más rápido, mejoramos la calidad y mantenemos el control.
Camille Charreaux, Líder de Ciencia de Datos en Algoan.
También le puede interesar
¿Un proyecto? ¿Una pregunta?
¿Quiere cambiar su manera de tomar decisiones de crédito? ¡Hablemos!
