Tips

2 diciembre 2025

Infraestructura y Load Balancers: la guía que nadie te dio

Q: ¿Cuál es la diferencia entre escalar vertical y horizontal?

Vertical = hacer más potente una sola máquina (más CPU/RAM), rápido pero con techo de rendimiento y riesgo de SPOF. Horizontal = añadir más instancias y repartir el tráfico con un balanceador; mejora la resiliencia y permite crecer casi linealmente. Si buscas disponibilidad y crecimiento sostenido, prioriza horizontal.

Q: ¿Qué algoritmo de balanceo me conviene?

Depende del patrón de tráfico: Round Robin para cargas homogéneas; Least Connections cuando hay peticiones desiguales o pesadas; IP Hash/Sticky para mantener la sesión del usuario en el mismo nodo (persistencia), asumiendo posible desbalanceo.

Q: Si escalo la app, ¿por qué “revienta” la base de datos?

Más instancias de aplicación generan más consultas y concentran la presión en la BD. Si la BD no escala al mismo ritmo, aparecen colas, bloqueos y latencias altas. Mitiga con optimización de consultas/indices, separación lectura-escritura (réplicas), caché y configuración adecuada de conexiones/pooling.

Q: ¿Réplicas o caché?

Réplicas de lectura: alivian lecturas de la primaria, con posible lag (consistencia eventual). Caché (Redis/Memcached): responde desde memoria, ideal para resultados repetitivos y sesiones. En la práctica, combinar caché delante de réplicas ofrece la mejor relación latencia/coste.

Qué es un Balanceador de Carga (Load Balancer) y cómo funciona: guía práctica para escalar

El problema que todos tenemos (o tendremos)

Imagina que tienes una aplicación web. Al principio todo va bien: unos pocos usuarios, un servidor modesto, la vida es bella. Pero un día tu app se hace viral, o simplemente crece como debería crecer un negocio sano, y de repente tienes miles de usuarios llamando a la puerta al mismo tiempo. Tu servidor empieza a sudar. La CPU al 100%, la RAM al límite, las peticiones empiezan a fallar. Y tú con cara de “¿y ahora qué hago?”.

Escalar vertical vs horizontal: ventajas, límites y riesgo de SPOF

Cuando te quedas pequeño, tienes dos opciones:

Por qué el vertical tiene techo de rendimiento

Esto básicamente significa meterle más potencia a tu servidor. Más CPU, más RAM, discos más rápidos. Es como ponerle un motor más grande a tu coche.
El problema: es caro y tiene un techo. Llega un momento en que no puedes meterle más RAM a una máquina, o el coste se dispara de forma absurda. Además, sigues teniendo un único punto de fallo: si ese servidor se cae, se cae todo.

Cuándo pasar a horizontal y qué cambia en la arquitectura

En vez de un servidor gordo, tienes varios servidores normales trabajando en equipo. Cada uno corre una copia de tu aplicación. Si necesitas más capacidad, añades otro servidor. Si uno se cae, los demás siguen funcionando. Esto suena genial, pero trae un problema nuevo: si tienes 5 servidores, ¿cómo sabe cada usuario a cuál conectarse? ¿Cómo repartes el trabajo de forma justa?

Load Balancers: el portero inteligente

Aquí es donde aparece el Load Balancer, que traducido sería algo como “balanceador de carga”. Es un componente que se pone delante de todos tus servidores y hace de portero inteligente. Cuando llega una petición de un usuario, el Load Balancer decide: “esta te la mando al servidor A, esta otra al servidor B, esta al C…”. Reparte el tráfico entre todos los servidores disponibles usando distintos algoritmos.

Los más comunes:

Round Robin: va rotando. Primera petición al A, segunda al B, tercera al C, cuarta al A otra vez… Como repartir cartas.
Least Connections: manda la petición al servidor que menos conexiones activas tenga en ese momento.
IP Hash: usa la IP del usuario para decidir siempre mandarlo al mismo servidor (útil para mantener sesiones).

Pero el Load Balancer no solo reparte: también vigila. Si el servidor A se cae o empieza a responder lento, lo detecta y deja de enviarle tráfico. Cuando se recupera, lo vuelve a meter en la rotación. Todo esto de forma automática, sin que tengas que intervenir.

El cuello de botella se mueve

Vale, ya tienes tu Load Balancer y 5 servidores trabajando en paralelo. Los usuarios están contentos, todo funciona. Pero hay un detalle: todos esos servidores probablemente están consultando la misma base de datos. Y ahí está el nuevo cuello de botella. Has repartido la carga de tu aplicación, pero toda esa carga ahora golpea a una única base de datos. Es como tener 5 cajeros en un supermercado pero un solo almacén al que todos van a buscar productos a la vez.

La solución: réplicas y caché

Réplicas de lectura: una base de datos principal para escrituras y varias copias para lecturas. Como la mayoría de operaciones suelen ser de lectura, esto alivia mucho la carga.
Caché: una capa intermedia (tipo Redis o Memcached) que guarda los datos más consultados en memoria. Si la info ya está en caché, ni siquiera tocas la base de datos.

Pero claro, nada es gratis. Si tienes réplicas, ¿cómo te aseguras de que todas tengan los mismos datos? ¿Qué pasa si escribes algo en la principal pero un usuario lee de una réplica que aún no se ha sincronizado?
Y así es como funciona esto: resuelves un problema y aparece otro. No es un fallo del sistema, es la naturaleza de la arquitectura de software.

La mentalidad de diseñar sistemas

Diseñar sistemas escalables no es memorizar soluciones, es desarrollar una forma de pensar:

Identificar el cuello de botella actual: ¿qué componente está limitando el rendimiento ahora
mismo?
Aplicar una solución: escalar, replicar, cachear, lo que toque.
Identificar el nuevo cuello de botella: porque siempre hay uno.
Repetir.

Es un proceso iterativo. No diseñas la arquitectura perfecta el día uno. Empiezas simple y vas evolucionando según las necesidades reales. Sobreingeniería prematura es tan malo como no escalar cuando lo necesitas.

Resumen

Un servidor no escala infinitamente. Tarde o temprano necesitas más.
Escalar horizontalmente (más servidores) es más flexible que verticalmente (servidor más
potente).
El Load Balancer reparte el tráfico entre servidores y detecta cuándo uno falla.
El cuello de botella se mueve: cuando arreglas uno, aparece otro (normalmente la base de
datos).
Réplicas y caché ayudan con la base de datos, pero traen sus propios desafíos.
Diseñar sistemas es esto: resolver problemas uno a uno mientras tu aplicación crece.

La próxima vez que uses una app que aguanta millones de usuarios, ya sabes que detrás hay un ejército de servidores, load balancers, réplicas y cachés trabajando coordinados. No es magia, es ingeniería resolviendo problemas paso a paso.

Preguntas frecuentes sobre Balanceadores de Carga

¿Qué hace exactamente un balanceador de carga? Concepto

Recibe las solicitudes de los clientes y las distribuye entre varios servidores sanos para evitar sobrecargas y caídas. Supervisa el estado de cada nodo (health checks) y saca del “pool” los que estén lentos o caídos. Así mejora la disponibilidad, reparte la carga y reduce la latencia percibida.

Equilibra tráfico (L4/L7) según la estrategia elegida.
Detecta fallos y aplica failover automático.
Puede mantener sesiones (sticky) si tu app lo necesita.

¿Cuál es la diferencia entre escalar vertical y horizontal? Estrategia

Vertical = hacer más potente una sola máquina (más CPU/RAM). Es rápido de aplicar pero tiene techo de rendimiento y concentra el riesgo en un único punto de fallo (SPOF).

Horizontal = añadir más instancias y repartir el tráfico con un balanceador. Escala casi linealmente, mejora la resiliencia y permite mantenimiento sin parar el servicio.

Si necesitas rapidez puntual y tu arquitectura es simple → vertical.
Si buscas alta disponibilidad y crecimiento sostenido → horizontal.

¿Qué algoritmo de balanceo me conviene? Decisión

Depende del patrón de tráfico y del tipo de sesión:

Round Robin: turnos iguales. Útil si las peticiones son similares y los nodos homogéneos.
Least Connections: envía al servidor con menos conexiones activas. Ideal cuando las cargas son desiguales o hay peticiones “pesadas”.
IP Hash / Sticky: mantiene al usuario en el mismo nodo (persistencia). Útil si hay sesiones en memoria; evita reautenticaciones, pero puede desbalancear.

Tip: si tu app necesita sesión, considera sticky junto a una caché compartida; si no, empieza por Round Robin y monitoriza colas y latencias.

Si escalo la app, ¿por qué “revienta” la base de datos? Cuello de botella

Al añadir más instancias de aplicación, cada una genera más consultas y la presión se concentra en la base de datos. Si la BD no escala al mismo ritmo, verás picos de CPU, bloqueos y latencias crecientes.

Optimiza índices y consultas hot.
Separa lectura/escritura (réplicas de lectura).
Añade capa de caché para resultados frecuentes o pesados.
Revisa límites de conexiones y pooling.

¿Réplicas o caché? Arquitectura

Réplicas de lectura: descargan lecturas de la primaria y mejoran el throughput, a costa de posible lag (consistencia eventual). Útiles cuando hay muchas consultas de lectura “fresca”.

Caché (Redis/Memcached): responde desde memoria en micro/milisegundos. Ideal para resultados repetitivos, vistas agregadas y sesiones. Reduce presión en BD y latencia.

Lecturas intensivas y variadas → empieza por réplicas.
Resultados repetidos y tolerancia a datos no instantáneos → añade caché.
Mejor juntos: caché delante de réplicas para máxima eficiencia.