Artículo del Blog
Autor
Stellar Development Foundation
Fecha de publicación
El sábado 20 de septiembre, varios de los nodos validadores de Stellar comenzaron a fallar. Esto eventualmente llevó a que la red no alcanzara consenso sobre los ledgers, por lo que todas las transacciones se detuvieron. Las máquinas y la red volvieron unas 11 horas después.
Al observar los nodos y las estadísticas históricas de Zabbix, es claro que la mayoría de las instancias tenían poca RAM disponible, por lo que el killer OOM ("Out Of Memory") de Linux estaba matando pids en las máquinas en un intento por sobrevivir al agotamiento de memoria.
A continuación, los puntos principales que describen la interrupción que duró aproximadamente 16 horas desde el 20/09/2014 ~ 02:00 UTC hasta el 20/09/2013 ~ 18:00 UTC
A juzgar por los gráficos, podemos decir que algunos servidores murieron y otros lucharon durante la interrupción, aunque incluso los nodos que sobrevivieron reportaron errores con pares/ledgers/edad del ledger.
Durante este tiempo, no hubo comunicación adecuada con la comunidad. Asumimos toda la responsabilidad por la respuesta lenta, pero queremos que la comunidad sepa por qué no pudimos responder de inmediato en este caso particular: En ese momento, la mayoría de nosotros estábamos en un retiro de la empresa trabajando en diseñar una gran refactorización/rediseño de stellard (irónicamente para solucionar los problemas que causaron esta interrupción de la red). Los servidores comenzaron a quedarse sin RAM durante la noche. Por la mañana, el internet en nuestra ubicación fuera de la oficina se cortó (junto con dos conexiones de internet de respaldo que habíamos provisto). Nos trasladamos a un lugar diferente y logramos estabilizar la red. Sin embargo, nuestro internet continuó teniendo problemas. Durante ese tiempo, parece que el clúster de Stellar también continuó quedándose sin RAM. La situación se estabilizó unas horas después.
La causa raíz única es desconocida pero los factores incluyen:
Nuevamente pedimos disculpas por la interrupción y hemos comenzado a trabajar en las medidas preventivas para evitar que esto ocurra de nuevo. Si te gustaría sugerir cualquier otra medida preventiva, queremos escucharlas. Por favor, envíalas a [email protected]—gracias.