Puntuación de entregabilidad de emails en frío: decide qué segmentos escalar
Crea una puntuación de entregabilidad para emails en frío a partir de la tasa de rebote, la tasa de quejas y la tasa de respuesta, para identificar qué segmentos escalar y cuáles pausar.

Qué resuelve una puntuación de entregabilidad por segmento
La entregabilidad es simple: ¿llegan tus emails a un lugar donde una persona real puede leerlos? Lo mejor es la bandeja de entrada. Peor es spam. Lo peor es que no se entregue porque la dirección es mala, el dominio te rechaza o sufres un bloqueo.
La mayoría de los equipos se engañan porque miran un solo número e ignoran la mezcla de señales detrás. Una tasa de rebote baja puede parecer “saludable” mientras las quejas suben en silencio y dañan tu reputación de remitente. Una alta tasa de respuesta puede sentirse como prueba para escalar, incluso si gran parte del volumen cae en spam y solo los más motivados te encuentran.
Una puntuación de entregabilidad es útil cuando obliga a hacerse la pregunta correcta: ¿esta porción del outbound mejora nuestra colocación en bandeja de entrada o la está arrastrando en silencio?
Lo que falta es segmentación. Los resultados rara vez son uniformes en toda tu lista. Un segmento puede estar limpio y responder bien, mientras otro esté lleno de datos antiguos o personas que odian tu ángulo. La puntuación debe calcularse por segmento en el que realmente puedas actuar, como:
- Fuente de la lista (por ejemplo, Apollo vs referencias)
- Tipo de dominio del destinatario (dominios corporativos vs proveedores de bandeja gratuita)
- Grupo de audiencia (fundadores vs SDRs)
- Región (EE. UU. vs UE)
- Ángulo de la oferta (pedida de demo vs contenido primero)
Una vez puntuados los segmentos por separado, dejas de tomar decisiones “promedio” que te perjudican.
Esta puntuación no es para reportes. Es una herramienta de decisión con tres resultados: escalar, arreglar o detener.
- Escalar segmentos que entregan, obtienen respuestas y se mantienen limpios.
- Arreglar segmentos que podrían funcionar pero tienen un problema concreto (a menudo la calidad de la lista).
- Detener segmentos que probablemente dañen la entregabilidad aunque ocasionalmente respondan.
Ejemplo: tu segmento “Fundadores SaaS en EE. UU.” obtiene respuestas constantes con casi ninguna queja, mientras tu segmento “todos los cargos de ventas” obtiene respuestas similares pero más quejas y más rebotes. Sin puntuación por segmento podrías escalar ambos. Con ella, escalas fundadores y limpias, replanteas o pausas el segmento de cargos de ventas.
Cómo definir segmentos sobre los que realmente puedas actuar
Un segmento solo es útil si una acción clara mejoraría su rendimiento. Si no puedes nombrar la acción que tomarías según la puntuación, no es un segmento útil.
Empieza simple. Los segmentos de una sola regla son más fáciles de entender y arreglar. “Prospectos desde Apollo” es accionable: si puntúa mal, puedes afinar filtros, validar emails o cambiar la fuente. Los segmentos con varias reglas están bien cuando representan una verdadera táctica de go-to-market, pero evita apilar reglas solo para mejorar el número; eso suele crear ruido.
Cortes de segmento útiles conducen a decisiones obvias, como:
- Fuente de leads
- Industria
- Seniority
- Tipo de dominio
- Ángulo de la oferta
Elige 2 a 4 tipos de segmento y manténlos por un mes. Si defines 20 segmentos, no tendrás tiempo para arreglar ninguno.
Volumen mínimo (para no actuar por ruido)
Los números necesitan suficiente volumen para ser confiables. No juzgues un segmento por una muestra pequeña donde un par de rebotes o una queja pueden cambiar la tasa.
Un mínimo práctico antes de actuar:
- Al menos 300 emails entregados en el segmento
- O al menos 10 respuestas totales si la tasa de respuesta entra en la decisión
Recalcula con la frecuencia que corresponda a tu velocidad de envío. Semanalmente es un buen predeterminado: suaviza las variaciones diarias y aún detecta problemas pronto. La recalculación diaria solo tiene sentido si envías mucho por segmento y vas a pausar o ajustar efectivamente en 24 horas.
Un detalle importante: define los segmentos por a quién apuntaste, no por cómo respondieron. La puntuación debe ayudarte a arreglar targeting y salud de envío, no solo perseguir las respuestas de la semana pasada.
Las tres entradas: rebotes, quejas, respuestas
Una puntuación por segmento funciona solo si las entradas son simples, fiables y están ligadas a lo que perjudica la entregabilidad. Tres métricas hacen la mayor parte del trabajo: tasa de rebote, tasa de quejas y tasa de respuesta.
Tasa de rebote (fallo de entrega)
Los rebotes te dicen si estás alcanzando bandejas reales. Una alta tasa de rebote suele no ser un problema de copy. Señala fallos de calidad de lista como enriquecimiento malo, datos antiguos o dominios riesgosos.
Como regla intuitiva para outbound en frío:
- Menos de 2% suele estar bien.
- 2% a 5% es una señal de advertencia de que los datos del segmento se están ensuciando.
- Más de 5% es señal de detener y arreglar antes de escalar.
Incluso si recibes respuestas, los rebotes pueden dañar la reputación del remitente rápido, especialmente cuando el segmento es grande.
Tasa de quejas (reportes de spam)
Las quejas son pocas en número pero pesadas en impacto. Una persona que pulsa “Reportar spam” puede hacer más daño que diez que te ignoren.
Para la mayoría de equipos, la meta es simple: mantener las quejas cerca de cero. Si un segmento produce quejas repetidas, trátalo como una señal roja aunque otras métricas parezcan buenas.
Tasa de respuesta (entregabilidad + relevancia)
Las respuestas son una señal combinada útil. Solo obtienes respuestas si los emails llegan y el mensaje encaja con la audiencia.
Pero interpreta la tasa de respuesta con cuidado. Un segmento con 6% de respuestas que son mayormente “no me interesa” puede ser entregable, pero mal alineado. Si puedes separar respuestas reales de respuestas automáticas (como fuera de la oficina), hazlo. Si no, la tasa de respuesta se infla y deja de ser comparable.
Dónde encajan las bajas (unsubscribes)
Las bajas son mejor usadas como guardarrail, no como parte de la puntuación. Haz seguimiento separado de la tasa de bajas y pon un tope estricto. Si lo rompe, no escales ese segmento hasta ajustar targeting y mensaje.
Un modelo de puntuación simple que puedes explicar en un minuto
La puntuación por segmento debe ser aburrida: un número del 0 al 100 que se mantenga consistente en el tiempo. Si la fórmula cambia constantemente, acabarás persiguiendo la puntuación en vez de arreglar el problema subyacente.
Este modelo mantiene las prioridades claras: las quejas reciben la mayor penalización, los rebotes una penalización fuerte, y las respuestas añaden un impulso limitado.
La puntuación (0–100)
Usa las tasas como decimales (así 2% es 0.02):
score = 100
- 800 * bounce_rate
- 2000 * complaint_rate
+ 100 * reply_rate
Clamp score to 0-100.
¿Por qué esos pesos?
- Las quejas son raras pero graves, así que la penalización es severa.
- Los rebotes importan porque pueden arruinar la reputación rápidamente, y a menudo se arreglan limpiando la lista.
- Las respuestas son positivas, pero no deberían “comprar” tu salida del riesgo por quejas.
Antes de calcular, mantén definiciones consistentes:
- Tasa de rebote: solo rebotes duros (buzón inválido), no rebotes suaves
- Tasa de quejas: reportes de spam, no bajas
- Tasa de respuesta: respuestas humanas desde emails entregados, idealmente excluyendo fuera de la oficina
Guardarraíles y protección para muestras pequeñas
Incluso una puntuación aparentemente decente puede ocultar un problema real si el segmento es pequeño. Añade algunas reglas para no escalar por ruido:
- Fallo automático: si la tasa de quejas > 0.30%, fija la puntuación en 0 y pausa el segmento
- Tope por rebotes: si la tasa de rebote > 5%, limita la puntuación a 30 hasta arreglar la lista
- Volumen mínimo: solo puntúa segmentos con al menos 200 emails entregados en la ventana
- Tope de impulso por respuestas: limita el impulso por respuestas a +15 puntos para que un segmento muy conversador no oculte el riesgo
Ejemplo: quejas 0.10% (0.001), rebotes 1.5% (0.015), respuestas 6% (0.06).
Score = 100 - 800(0.015) - 2000(0.001) + 100(0.06) = 100 - 12 - 2 + 6 = 92.
Si las quejas subieran a 0.4% (0.004), el segmento fallaría automáticamente sin importar las respuestas.
Paso a paso: calcula la puntuación para cada segmento
Elige una ventana temporal y sé consistente. Para la mayoría de equipos, los últimos 7 días detectan problemas rápido, mientras 14 días suaviza el ruido. Sea cual sea, mantenla constante para que la puntuación sea comparable semana a semana.
Para cada segmento, extrae los conteos crudos de la misma ventana:
- Enviados
- Entregados (enviados menos rebotes duros)
- Rebotes duros
- Quejas por spam
- Respuestas humanas
- Bajas (seguimiento por separado)
Luego calcula las tasas:
- Tasa de rebote = rebotes duros / enviados
- Tasa de quejas = quejas por spam / entregados
- Tasa de respuesta = respuestas humanas / entregados
Sobre las respuestas: excluye respuestas automáticas como fuera de la oficina si puedes. Inflan la tasa de respuesta pero no significan que tu mensaje sea bien recibido.
Aplica la fórmula y luego etiqueta cada segmento con un siguiente paso simple:
- Escalar: puntuación 80–100 y estable o mejorando
- Vigilar: puntuación 60–79 o tendencia plana
- Arreglar: puntuación 40–59 o en caída semana a semana
- Detener: puntuación por debajo de 40, o cualquier pico de quejas inexplicable
No trates el último número como toda la historia. Sigue la tendencia de cada segmento (esta semana, la semana pasada, hace dos semanas). Un segmento en 72 y en alza suele ser más seguro para escalar que uno en 82 que está cayendo rápido.
Cómo usar la puntuación para decidir qué escalar
Una puntuación solo sirve si conduce a acciones consistentes. Trata la puntuación por segmento como un semáforo: los segmentos verdes ganan más volumen, los amarillos se vigilan y se prueban con cuidado, y los rojos se arreglan antes de enviar otro lote.
Mantén reglas estables para no renegociarlas cada semana:
- 80–100 (escalar): aumenta el volumen en pasos pequeños y mantiene targeting y copy mayormente iguales.
- 60–79 (vigilar): mantiene el volumen y ejecuta una prueba de bajo riesgo (calidad de lista, ajuste de mensaje u oferta).
- Por debajo de 60 (arreglar): deja de escalar, arregla la causa raíz y solo reanuda cuando la puntuación suba.
Cuando un segmento está en la banda de escalar, evita duplicar el volumen de la noche a la mañana. Aumenta gradualmente (por ejemplo, 10%–20% por semana) y vuelve a comprobar tras cada cambio. Aumentos súbitos pueden elevar rebotes y quejas, lo que puede perjudicar todos tus buzones.
Algunas señales deben anular la puntuación y provocar una pausa inmediata:
- Un salto repentino en rebotes duros suele significar que la lista está obsoleta o demasiado amplia.
- Un aumento en la tasa de quejas es aún más serio y debe actuar como freno de emergencia.
Usa la puntuación para escoger en qué experimentos es seguro invertir. Los segmentos fuertes son donde puedes probar ideas más audaces porque tienes cojín. Los segmentos débiles requieren primero reducción de riesgo.
Ejemplo: puntuar segmentos para elegir un ganador de escala
Imagina que haces outbound para un producto, pero tienes dos fuentes de lista (Apollo y asistentes a eventos), tres industrias (SaaS, agencias de marketing, salud) y dos ofertas (un teardown corto o un estudio de caso relevante). No quieres escalar todo. Quieres uno o dos ganadores claros.
Tras los primeros 1,000 envíos por segmento (misma configuración de envío, longitud de asunto similar, mismo pool de buzones), calculas la puntuación por segmento:
| Segmento (fuente + industria + oferta) | Rebote | Quejas | Respuestas | Qué significa |
|---|---|---|---|---|
| Evento + SaaS + Teardown | 1.2% | 0.02% | 3.8% | Candidato fuerte para escalar |
| Apollo + SaaS + Teardown | 2.8% | 0.04% | 2.4% | Lista limpia, escalar después de limpiar |
| Evento + Agencias + Estudio de caso | 1.0% | 0.03% | 1.6% | Seguro, pero la oferta puede ser débil |
| Apollo + Agencias + Teardown | 4.6% | 0.08% | 1.9% | Arreglar rebotes primero |
| Evento + Salud + Estudio de caso | 1.4% | 0.06% | 0.9% | Entregable, no persuasivo |
| Apollo + Salud + Teardown | 6.2% | 0.12% | 0.6% | Detener y reconstruir segmento |
Dos cosas destacan:
- La lista de eventos es consistentemente más saludable (menos rebotes y quejas).
- Salud no responde al teardown, y la versión de Apollo es activamente riesgosa.
Acciones basadas en esto:
- Escalar primero “Evento + SaaS + Teardown” añadiendo volumen lentamente y mantenerlo separado para que no oculte problemas en otros segmentos.
- Para “Apollo + SaaS”, limpiar la lista antes de añadir volumen (eliminar títulos riesgosos, validar emails, afinar filtros de empresa), luego mandar un pequeño lote de prueba.
- Para “Evento + Salud”, mantener la entregabilidad pero cambiar la oferta y el mensaje ya que el problema son las respuestas.
- Para “Apollo + Salud”, pausar y arreglar targeting y higiene de lista antes de quemar la reputación de remitente.
Errores comunes que vuelven inútil la puntuación
Una puntuación por segmento solo ayuda si se mantiene consistente y apunta a una causa real. La mayoría de fallos vienen de mezclar señales distintas, o confiar en datos demasiado escasos.
Formas comunes en que los equipos rompen la puntuación:
- Tratar la tasa de respuesta como la única señal. Las respuestas pueden caer por la oferta, timing o targeting. Los problemas de entregabilidad suelen aparecer antes en rebotes y quejas.
- Mezclar buzones nuevos con buzones ya calentados. Los remitentes nuevos se comportan distinto y suelen necesitar menor volumen. Si los promedias, la puntuación no explica nada.
- Confiar en muestras diminutas. Define un volumen mínimo antes de puntuar. Si no, una queja puede causar decisiones aleatorias.
- Cambiar los pesos cada semana. Si la fórmula se mueve, no puedes comparar esta semana con la anterior.
- Ignorar dominios de envío o grupos de buzones. La entregabilidad suele ser específica por dominio. Un dominio malo puede arrastrar una vista combinada y hacerte pausar el segmento equivocado.
Si un segmento “mejora” solo porque reclasificaste respuestas o cambiaste definiciones, eso no es entregabilidad. Mantén las definiciones estables para que la puntuación refleje la salud del remitente, no etiquetas cambiantes.
Comprobaciones rápidas antes de escalar un segmento
Antes de aumentar volumen, toma cinco minutos para una comprobación de sentido común. Una puntuación puede verse genial en papel, pero un problema oculto puede arruinar la colocación cuando escalas.
Revisa estas señales en la misma ventana de puntuación (por ejemplo, últimos 7 días) y compáralas con la ventana anterior:
- Mezcla de tipos de rebote: Si los rebotes son mayormente duros (dirección mala, dominio inexistente), escalar solo creará más daño.
- Cualquier queja: Si aparecieron quejas en la última ventana y no en la anterior, trata el segmento como inestable y espera.
- Tendencia de respuestas: Estable es bueno, en alza es mejor. Si las respuestas bajan semana a semana, escalar suele empeorar la caída.
- Cambios recientes: Nuevas reglas de segmento, nueva fuente de lista o nuevo copy pueden resetear el rendimiento. Espera suficientes envíos para juzgarlo, o vuelve atrás.
- Saltos recientes de volumen: Si duplicaste envíos en 48 horas, la puntuación puede estar desfasada. Rampa en pasos.
Ejemplo: tu segmento “Agencias EE. UU.” puntúa bien, pero el volumen subió tras añadir una nueva fuente y los rebotes duros aumentaron. Aunque la puntuación aún parezca sana, escalar ahora es arriesgado. Arregla la calidad de lista y vuelve a puntuar después de una ventana limpia.
Próximos pasos: convierte la puntuación en parte de tu rutina semanal
Trata la puntuación de entregabilidad como un chequeo de salud semanal. Elige un día y hora, revisa los mismos segmentos cada semana y haz uno o dos cambios que puedas seguir.
Protege primero la calidad de lista. Si un segmento muestra más rebotes o quejas, no lo empujes con más volumen. Pausa, elimina obvios inválidos (cuentas "role", patrones malos, exports antiguos) y sé cauteloso con fuentes que no puedas verificar.
Mantén los cambios de volumen graduales. Sube por dominio y por buzón, no solo por envíos totales, para no provocar picos de rebotes o quejas.
Una rutina semanal simple:
- Recalcula la puntuación para cada segmento usando los últimos 7 días (o los últimos 1,000 envíos).
- Detén envíos a cualquier segmento que cruce tus líneas rojas de rebote o quejas.
- Aclara targeting o reescribe la oferta para segmentos con pocas respuestas pero que estén limpios.
- Escala solo un segmento ganador por semana y limita el aumento.
- Registra qué cambió (fuente de lista, copy, oferta, volumen) para aprender.
Si quieres que esto sea fácil de mantener, ayuda tener rebotes, quejas y tipos de respuesta visibles en un mismo lugar. LeadTrain (leadtrain.app) está diseñado alrededor de ese flujo de trabajo, combinando configuración de envío, calentamiento, secuencias y clasificación de respuestas para que puedas revisar segmentos rápido y actuar sin saltar entre herramientas.
Preguntas Frecuentes
¿Por qué es mejor una puntuación de entregabilidad por segmento que una puntuación global?
Una puntuación por segmento evita que tomes decisiones “promedio”. En lugar de un número combinado, ves qué porción concreta del outreach ayuda la colocación en bandeja de entrada y cuál añade silenciosamente rebotes o quejas.
¿Cómo elijo segmentos que realmente pueda accionar?
Empieza con segmentos en los que una acción clara pueda mejorar los resultados, como la fuente de leads, tipo de dominio, industria, seniority o el ángulo de la oferta. Si no puedes decir qué cambiarías al ver la puntuación, el segmento no es útil.
¿Cuál es el volumen mínimo antes de confiar en una puntuación de segmento?
Como línea base práctica, espera al menos 300 emails entregados en un segmento, o 10 respuestas totales si las respuestas forman parte de tu decisión. Las muestras más pequeñas pueden variar demasiado por una o dos incidencias.
¿Qué debe contar exactamente como tasa de rebote, tasa de quejas y tasa de respuesta?
Usa solo rebotes duros para la tasa de rebote, cuenta quejas por spam para la tasa de quejas, y mide la tasa de respuesta a partir de emails entregados. Mantén las definiciones estables para que los cambios semana a semana reflejen la realidad y no cambios de etiqueta.
¿Cuál es una fórmula simple que pueda usar de inmediato?
Usa una fórmula simple 0–100 que castigue las quejas más fuerte, penalice fuertemente los rebotes y otorgue un impulso limitado por respuestas. La idea es tomar decisiones consistentes en el tiempo, no buscar un número perfecto.
¿Deben las bajas (unsubscribes) formar parte de la puntuación de entregabilidad?
Es mejor tratarlas como una señal de seguridad aparte. Controla la tasa de bajas por separado y pon un límite estricto: si un segmento lo supera, no escales hasta ajustar el targeting o el mensaje.
¿Cómo uso la puntuación para decidir “escalar, arreglar o detener”?
Escala los segmentos limpios y estables, arregla los que muestran problemas concretos (casi siempre calidad de lista o mismatch), y detén los que siguen generando quejas o rebotes altos. Trata la puntuación como un semáforo, no como un informe final.
¿Puede un segmento “funcionar” en respuestas pero aun así ser demasiado riesgoso para escalar?
Sí. Un segmento puede tener buenas respuestas pero ser demasiado riesgoso para escalar. Una regla práctica es fallar automáticamente un segmento si la tasa de quejas supera 0.30%, incluso si las respuestas parecen buenas, porque las quejas dañan la reputación rápidamente.
¿Qué tan rápido puedo aumentar el volumen de un segmento con alta puntuación?
Aumenta el volumen en pasos pequeños (aprox. 10%–20% por semana) y vuelve a comprobar después de cada cambio. Saltos bruscos pueden elevar rebotes y quejas y arrastrar la entregabilidad de todos tus buzones.
¿Cuáles son los errores más comunes que hacen inútil la puntuación por segmento?
Los errores más comunes son confiar en muestras diminutas, usar la tasa de respuesta como única señal, mezclar buzones nuevos con buzones ya calentados, cambiar los pesos de la fórmula cada semana e ignorar diferencias por dominio o por grupo de buzones. Cualquiera de esas prácticas puede hacer la puntuación engañosa.