Amazon atribuyó la culpa de la caída de su servicio a un error humano

29 abril, 2011

Después de una semana de la caída de la red de Amazon que provocó que miles de sitios se quedaran sin servicio, la compañía salió a explicar los motivos y las consecuencias del episodio. Según, Amazon todo empezó el mediodía del 21 de abril en el Elastic Block Store (EBS) donde, por una falla humana, se hizo un cambio incorrecto en la configuración de la red que provocó que se desatara el desastre.

El Elastic Block Store es el almacenamiento que utiliza el servidor EC2 y ofrece almacenamiento escalable a servidores. Este funciona con una tecnología peer-to-peer que mantiene los datos sincronizados en varios nodos, utilizando dos redes, una primaria y otra de respaldo. Cada nodo utiliza la red para crear múltiples copias de los datos a medida que se requiera. Cuando uno de los nodos deja de comunicarse con otro en medio de una operación, éste asume que el segundo falló y busca otro que este disponible para realizar el respaldo de información.

El problema surgió cuando el enrutamiento del tráfico de la red primaria tuvo algunas fallas de funcionamiento ya que un grupo de nodos perdió contacto con sus réplicas. Cuando logró recuperarse la conexión, tantos nodos se habían caído que el espacio disponible para replicarse, se había acabado. Esto generó que los nodos estén continuamente buscando una y otra vez espacio en otros nodos sin éxito y obligó a Amazon a deshabilitar la capacidad de los clientes de crear nuevos volúmenes de datos.

Luego, los técnicos lograron encontrar la manera de detener el problema sin afectar la comunicación entre los nodos. Sin embargo, el 13% de EBS continuaba atascados. Entonces, los ingenieros comenzaron a buscar espacio para que los datos atascados pudieran replicarse. Cuando lograron instalar la nueva capacidad, el desafío era lograr que los nodos se comunicaran nuevamente entre si con total normalidad y rapidez.

Después de dos días, las operaciones funcionaban con normalidad con excepción de un 2,2% que todavía estaba atascado. Finalmente, este porcentaje hubo que recuperarlo de forma manual. Si bien los datos se encontraban respaldados por Amazon S3, el 0,7% no pudo ser recuperado. Aunque parezca un porcentaje insignificante, para algunos sitios significó perder gran parte de la información.

Luego de este desastre, Amazon anunció que realizará cambios en la red y que aumentará la automatización del sistema para evitar que esta clase de errores se repitan en el futuro. Además, se disculparon con los clientes y les otorgaron un crédito de 10 días a modo de resarcimiento, independientemente de si sus servicios se vieron afectados o no.

Fuente: Amazon Web Service

REDUSERS | Internet | Todo el Mundo

Amazon atribuyó la culpa de la caída de su servicio a un error humano

Más leídas

Últimas noticias