Las métricas que realmente predicen el éxito de un OTP
La tasa de entrega no es el número correcto. Estas son las cuatro métricas que sí correlacionan con la conversión de OTP — y cómo instrumentarlas.
Por qué la "tasa de entrega" engaña
El dashboard por defecto de OTP muestra la tasa de entrega: el porcentaje de mensajes que devolvieron un estado "DELIVRD" del carrier. La mayoría de equipos reportan esto a dirección. La mayoría de la dirección piensa que un 98 %+ de entrega significa sistema sano.
A menudo no lo es. Aquí hay cuatro métricas que correlacionan mucho mejor con si los usuarios efectivamente se loguean.
1. Tiempo hasta entrega, p95
Los OTP típicamente expiran en 60 segundos. Cualquier cosa que añada latencia entre envío y llegada se come la ventana que el usuario tiene para introducir el código.
Trackea p95 —no media— del tiempo desde la solicitud API hasta la llegada al terminal, segmentado por:
- Operador (dentro de cada país)
- Ruta de vendor
- Hora del día
- Clase de tráfico
Lo que vas a encontrar: la media se ve bien (3–5 segundos), pero el p95 en una combinación operador-ruta ha subido a 25–40 segundos. Ahí es donde la conversión está cayendo silenciosamente.
Umbral de alerta: p95 por encima de 10 segundos para cualquier combinación operador-ruta en una ventana de 5 minutos.
2. Tasa de conversión por ruta
La única medida honesta del éxito de OTP es si el usuario envió el código correcto a tiempo. Estos son datos que tienes en tu aplicación, no en tu vendor de mensajería.
Une tu log de envíos con tu log de verificación de OTP por un request ID. Después agrega conversión por:
- Ruta (qué vendor entregó)
- País
- Hora del día
- Sender ID
Lo que vas a encontrar: una ruta entrega 99 % según los DLR pero solo el 84 % de los usuarios verifica de hecho. Otra ruta entrega 96 % según los DLR pero el 94 % de los usuarios verifica. La segunda es mejor a pesar del peor número de entrega, porque los mensajes que llegan, llegan a tiempo y parecen legítimos.
Este es el número más importante en operaciones de OTP y casi nadie lo trackea.
3. Tasa de verificación al primer intento
Cuando los usuarios no reciben su OTP a tiempo, pulsan "reenviar". Trackear la tasa de reenvíos por intento de login revela problemas antes de que aparezcan en la conversión.
Un flujo de OTP sano tiene un 5–10 % de usuarios solicitando un reenvío (typos, cambio de dispositivo, etc.). Cuando ese número salta al 20–30 % en una ruta concreta, tienes un problema de entrega que los DLR esconden.
Umbral de alerta: tasa de reenvío por encima del 15 % para cualquier combinación operador-ruta, sostenida durante 10 minutos.
4. Distribución del tiempo de primera llegada
Más allá del p95, la forma de la distribución de latencia te dice si los problemas son sistémicos o esporádicos.
Pinta un histograma del tiempo hasta entrega por operador. Una ruta sana muestra un pico estrecho en torno a 1–3 segundos con una cola larga y delgada. Una ruta degradándose muestra una distribución bimodal: la mayoría de mensajes siguen rápidos, pero hay un cluster creciente en 30+ segundos.
Las distribuciones bimodales son aviso temprano. Para cuando la media se ha movido, la conversión ya ha caído en el cluster lento.
SLOs del vendor vs tus SLOs
Los SLAs de vendor típicamente son:
- 99 % de tasa de entrega, medida mensualmente
- Sin compromiso de latencia más allá del "best effort"
- Sin compromiso sobre conversión (que de todos modos no ven)
Tu SLO interno para OTP debe ser más estricto:
- p95 de tiempo de entrega por debajo de 10 segundos, por operador
- Tasa de conversión dentro de 2 puntos porcentuales de tu baseline a 30 días, por operador
- Tasa de verificación al primer intento por encima del 85 %, por operador
Cuando incumples tus SLO pero no los del vendor, has encontrado una brecha operativa real que no aparece en el contrato.
Construyendo el dashboard
Observabilidad mínima viable de OTP:
- Etiqueta cada mensaje con: ID de ruta, operador (post-lookup), clase de tráfico, sender ID, país
- Únelo con eventos de verificación por un request ID
- Construye dashboards por ruta y por operador para las cuatro métricas anteriores
- Alerta sobre los umbrales por ruta, no agregados
Esto no es difícil, pero la mayoría de equipos no lo han hecho porque los dashboards por defecto del vendor parecían bien.
Cómo se ve "bien"
Una operación madura de OTP debe poder responder, en menos de un minuto:
- ¿Qué ruta está entregando mejor ahora mismo en Vodafone España?
- ¿Cuál es nuestra tasa de conversión en T-Mobile US comparada con la semana pasada?
- ¿Qué combinación operador-ruta tiene el peor p95 ahora mismo?
- ¿Se movió la tasa de reenvío después del último cambio de vendor?
Si no puedes, tu observabilidad es el lugar de menor coste y mayor impacto donde invertir en tu stack de mensajería.
Si tus dashboards de OTP terminan en "tasa de entrega" y sospechas que hay pérdida silenciosa por debajo, reserva una revisión de mensajería de 30 minutos. Te enseñamos qué instrumentamos por defecto.