All

Isabel Fernández de Kraz, parte del equipo ganador del Hackaton Novartis 2025

por | Dic 15, 2025

Isabel Fernandez, Data Scientist en Kraz, ha formado parte del equipo ganador del Hackaton Novartis 2025, que tuvo lugar del 27 al 30 de noviembre y en el que participaron 59 equipos de todo el mundo. Una iniciativa de Novartis en colaboración con Eurecat, Centre Tecnològic de Catalunya.

En Kraz hemos pedido a Isabel que nos relate algunos de los detalles del proyecto desarrollado durante el Hackaton. Esto es lo que nos ha contado.

Objetivo del Hackaton

En esta edición, el reto consistía en modelizar y predecir la evolución mensual del volumen de ventas de un medicamento tras la pérdida de exclusividad (Loss of Exclusivity, LoE) y la consiguiente entrada de competidores genéricos en el mercado.

La predicción debía cubrir los 24 meses posteriores a la entrada de genéricos, optimizando una métrica específica de Prediction Error que penaliza especialmente los errores en los primeros meses post-LoE y otorga mayor peso a los medicamentos con alta erosión.

El Mean Generic Erosion (MGE) no constituía el objetivo de predicción, pero se utilizó como indicador agregado del grado de erosión para segmentar los medicamentos en alta y baja erosión. Esta clasificación resulta clave en la evaluación, ya que determina el peso relativo de cada serie en la métrica final.

Fuentes de datos

Novartis aportó un dataset del evolutivo de distintos productos que reunían circunstancias similares a las requeridas por el modelo.

En concreto, Novartis proporcionó tres datasets principales: 

1. Volúmenes históricos pre y post periodo de vigencia de la patente 

    • 2.293 series temporales (country-brand combinaciones)
      • Train: 1.953 / Test: 340 
      • Hasta 48 meses por serie (-24,24). Siendo 
        • Hasta 24 meses previos al LoE (meses -24 a -1)
        • Mes 0: entrada de genéricos
        • Hasta 24 meses posteriores al LoE (meses 1 a 24)

2. Número de productos genéricos activos por mes: Variable dinámica que recoge la evolución del número de competidores genéricos tras la entrada en el mercado.

3. Características estructurales del medicamento:

    • Área terapéutica: Dermatology, Respiratory, Immunology, …etc
    • Formato dispensación: pill, injection, inhaler, cream, … etc
    • Canal distribución (hospital_rate) que indica el porcentaje del volumen dispensado en hospitales.
    • Origen del medicamento (biological) indicador de si se trata de un fármaco biológico.

Análisis de datos

El EDA comenzó con el análisis del Mean Generic Erosion (MGE) como indicador agregado de la severidad de la caída tras la entrada de genéricos, principalmente para segmentar las series según su intensidad de erosión.

Posteriormente, mediante descomposición temporal (MSTL) y clustering sobre las curvas post-LoE, se identificaron distintos perfiles de caída. Los centroides de los clusters mostraron un patrón común, una dinámica de descenso con forma exponencial que no tiende a cero, sino a un nivel estable mínimo, es decir, una ley exponencial con offset. 

Lo que permitió interpretar parámetros de impacto en negocio, 

  • Velocidad de erosión, que muestra la rapidez con la que el mercado abandona el producto original.
  • Volumen residual, que muestra el nivel de ventas que permanece a largo plazo tras estabilizarse la caída.

Enfoque predictivo 

A partir de aquí, el enfoque predictivo se hizo en base a 2 escenarios.

Escenario 1

Predecir la evolución completa del producto justo en el momento en que pierde exclusividad, sin disponer aún de datos reales posteriores, es decir, predecir cómo caerán las ventas antes de observar la caída.

Para ello, se partió de un modelo base con las variables históricas, se incorporaron indicadores de la tendencia previa (velocidad de crecimiento, o estabilidad antes del LoE) y posteriormente, se evolucionó hacia modelos capaces de capturar mejor dinámicas temporales complejas, especialmente la caída abrupta inicial.

Además, se optimizó directamente una función alineada con la métrica oficial del reto, priorizando la precisión en los primeros meses y en productos de alta erosión. 

Escenario 2

En este caso se disponía de los primeros seis meses de ventas tras la entrada de genéricos. El problema cambia, ya no se trata de anticipar la caída inicial, sino de proyectar su estabilización.

Para ello, se realizó un suavizado previo de las curvas para reducir el ruido, modelos especializados en detectar patrones estructurales y técnicas de ampliación de datos para mejorar robustez y estabilidad. 

Qué aprendimos de este reto de predicción de demanda en Pharma 

La erosión post-genérico sigue dinámicas exponenciales parametrizables. 

Los modelos secuenciales funcionan mejor cuando no hay información post-evento, mientras que los modelos boosting obtienen mejores resultados cuando se dispone de datos parciales reales. 

El enfoque híbrido (EDA estructural + ML avanzado) permite combinar interpretabilidad de negocio y alta precisión predictiva.

Comentarios finales

Desde Kraz solo nos queda reiterar nuestra enhorabuena a Isabel por sus éxitos como integrante del equipo ganador, así como agradecer que haya podido compartir algunos de los detalles del proceso de trabajo durante las intensas horas del evento.

Este reconocimiento refuerza algo que consideramos esencial: la combinación de rigor técnico, comprensión sectorial y orientación a impacto es lo que convierte un modelo predictivo en una herramienta real de decisión.