OTP por voz: verificación con llamada automática cuando el SMS no llega

Cuando el SMS y WhatsApp no llegan, una llamada automática dicta el código OTP al usuario. Cómo funciona, cuándo usarlo y cómo implementarlo vía API.

OTP por voz: verificación con llamada automática cuando el SMS no llega

El SMS no llegó. El WhatsApp tampoco. Tu usuario lleva 45 segundos esperando un código que no aparece y está a un clic de cerrar todo. Ahí es donde entra la llamada.

El OTP por voz es el canal que nadie planea usar primero, pero que salva la conversión cuando los otros dos fallan. Una llamada automática, una voz que dicta el código, el usuario lo captura y sigue. Sin app, sin internet, sin esperar un mensaje que quizá nunca llegue.

Cuándo una llamada es mejor que un mensaje

SMS cubre el 99% de los casos. WhatsApp cubre los puntos ciegos del SMS cuando hay internet. Pero hay escenarios donde ninguno de los dos funciona.

Zonas sin datos móviles. En localidades rurales de México, la señal de voz llega pero los datos no. El teléfono puede recibir llamadas pero no mensajes de WhatsApp, y a veces ni SMS si la red está saturada.

Teléfonos básicos. No todos tus usuarios tienen smartphone. Un teléfono de $300 pesos recibe llamadas sin problema. No recibe WhatsApp ni siempre procesa SMS correctamente.

Accesibilidad. Para usuarios con discapacidad visual, escuchar un código es más fácil que leer un mensaje en pantalla. La WCAG recomienda ofrecer alternativas accesibles para cualquier proceso de verificación.

Tercer intento. Mandaste SMS, no llegó. Mandaste WhatsApp, tampoco. Antes de perder al usuario, una llamada que dicta el código es tu última línea de defensa. Y funciona.

Cómo funciona el OTP por voz

El flujo técnico es idéntico al de SMS y WhatsApp. Cambias un parámetro en la API y el código se entrega por llamada en vez de mensaje.

Tu sistema solicita el código. Llamas al endpoint POST /verification/start con los mismos parámetros de siempre: phone_number, company, template. Agregas voice: true. La API genera el código y dispara una llamada automática al número del usuario.

El usuario recibe la llamada. Su teléfono suena. Contesta y escucha una voz automatizada que dicta el código dos veces. Algo como: "Tu código de verificación es: 8. 4. 7. 2. 9. 1. Repito: 8. 4. 7. 2. 9. 1."

Tu sistema valida. El usuario captura el código en tu interfaz. Lo envías a POST /verification/check. Mismo endpoint, misma lógica que con SMS o WhatsApp.

No necesitas infraestructura de telefonía. No necesitas un número de teléfono propio para hacer las llamadas. La API se encarga de todo: generación del código, la llamada, la voz, la repetición y la expiración.

4 casos donde la voz es el canal correcto

Verificación en zonas rurales

Una empresa de microcréditos que opera en localidades pequeñas de Oaxaca o Chiapas. Sus clientes tienen teléfono pero no siempre datos. El SMS llega cuando hay señal suficiente, pero si la red está congestionada, se pierde. La llamada de voz usa la red telefónica básica, que es más estable que el canal de datos en estas zonas.

Usuarios de la tercera edad

Tu cliente tiene 70 años y un teléfono que le regalaron sus hijos. No usa WhatsApp. Los SMS los lee con dificultad porque la pantalla es pequeña. Pero sabe contestar el teléfono. Una llamada que le dicta el código pausadamente es la forma más natural de verificar su identidad.

Accesibilidad para usuarios con discapacidad visual

Un lector de pantalla puede leer un SMS, sí. Pero requiere que el usuario navegue hasta la app de mensajes, encuentre el SMS correcto y vuelva a tu app. Con la llamada de voz, el código llega sin necesidad de interactuar con la pantalla.

Fallback después de SMS y WhatsApp

Este es el caso de uso más frecuente. No como canal primario, sino como tercer intento. El endpoint POST /verification/resend permite cambiar de canal sin que el usuario haga nada diferente en tu interfaz. Si SMS y WhatsApp fallaron, voz es tu tercera oportunidad antes de perder la conversión.

La estrategia de 3 capas: SMS, WhatsApp y Voz

Con la API de Mensajes OTP de SMS Masivos, los tres canales se orquestan con los mismos endpoints.

Primer intento: SMS. Cubre la base más amplia. Funciona con o sin internet, en cualquier teléfono. El código llega en menos de 5 segundos en condiciones normales.

Segundo intento: WhatsApp. Si el SMS no se entregó (operador filtró, red congestionada), el endpoint de reenvío lo manda por WhatsApp. El usuario probablemente tiene la app abierta. Cuándo y por qué usar WhatsApp para OTP.

Tercer intento: Voz. Si WhatsApp tampoco funcionó (sin internet, sin la app), una llamada automática. Es el canal más lento pero el más resiliente: solo necesita que el teléfono pueda recibir llamadas.

Con tres capas, la tasa de verificación exitosa se acerca al 100%. El usuario nunca ve la complejidad detrás. Solo ve un campo donde captura 6 dígitos. Tu backend decide qué canal usar y cuándo cambiar.

Limitaciones del OTP por voz

Más lento que un mensaje. El usuario tiene que contestar la llamada, escuchar el código completo (se dicta dígito por dígito, dos veces) y memorizar o anotar. Con SMS o WhatsApp, lee y captura en segundos.

Puede ir al buzón de voz. Si el usuario no contesta o su teléfono está en silencio, la llamada termina en buzón. El código se queda grabado ahí, pero muchos usuarios no revisan su buzón.

La voz robótica puede confundir. Aunque el código se repite dos veces, algunos usuarios (especialmente de mayor edad) pueden tener dificultad para distinguir dígitos similares. "Cinco" y "cinco" están bien, pero la pronunciación automatizada no siempre es perfecta.

Por estas razones, voz funciona mejor como último recurso que como canal primario. La estrategia es: SMS primero, WhatsApp segundo, voz tercero. En ese orden.

Cómo implementarlo vía API

Crea tu cuenta en SMS Masivos y obtén tu API key. La implementación es un parámetro adicional sobre el mismo flujo de OTP.

Para enviar directamente por voz: Llama a POST /verification/start con phone_number, company, template y agrega voice: true. La API genera el código y dispara la llamada.

Para usar voz como fallback: Envía el código por SMS con el endpoint normal. Si no se entrega, llama a POST /verification/resend y la API cambia el canal automáticamente: primero WhatsApp, después voz.

Validación: Mismo endpoint POST /verification/check con phone_number y verification_code. No importa por qué canal llegó el código, la validación es idéntica.

La documentación tiene ejemplos en PHP, Python, Node.js, Java, C# y Ruby. No necesitas infraestructura de telefonía ni servidor de voz. La API hace todo.

Preguntas frecuentes

¿Cuántas veces se dicta el código en la llamada?

Dos veces. La voz automatizada dicta cada dígito pausadamente y luego repite la secuencia completa.

¿Funciona con teléfonos fijos?

Sí. La llamada se hace a cualquier número que pueda recibir llamadas, incluyendo teléfonos fijos. Esto abre la verificación a escenarios donde el usuario solo tiene línea fija.

¿Cuánto cuesta?

Cada OTP por voz consume un crédito, igual que SMS o WhatsApp. Desde $0.68 MXN + IVA en paquetes de 10,000+. Tabla de precios.

¿Puedo personalizar la voz o el idioma?

El mensaje sigue el template configurado. La voz es automatizada en español. No se puede cambiar el idioma ni elegir entre voces diferentes por ahora.

El canal que completa tu estrategia de verificación

SMS verifica a la mayoría. WhatsApp cubre los puntos ciegos. Voz cierra la brecha para los casos donde nada más funciona. Con tres canales en una sola API, dejas de perder usuarios por problemas de entrega.

Crea tu cuenta y activa los 3 canales de verificación →

SMS, WhatsApp y voz. Una API, tres oportunidades de verificar.

Herramientas recomendadas

Estas son algunas de las herramientas que te pueden ayudar

No items found.