FaceBook explica pane e pede desculpas
Ontem o facebook ficou fora do ar e causou um mal estar nos fazendeiros de plantão!
Estavam preocupados com suas fazendas, plantações e seus filhotes de cachorro famintos. Os mafiosos estavam à beira de serem forçados a fazer uma pausa em bater nas pessoas e todos os outros milhões de pessoas que têm algum tipo de carreira nos reinos dos jogos sociais não estavam menos preocupados. Ah, e depois há aquelas outras pessoas que ainda usam o Facebook para fins diferentes do jogo, bem, eles estavam preocupados demais.
Mesmo que a queda foi de apenas de 2,5 horas, o pânico foi generalizado. O mundo reagiu gerando até mesmo manchetes internacionais. De acordo com o FaceBook esta foi a pior falha que eles tiveram nos últimos quatro anos. Então o que aconteceu?
Texto original aqui:
http://www.facebook.com/notes/facebook-engineering/more-details-on-todays-outage/431441338919?utm_medium=gri.ms-twitter&utm_source=google.com&utm_content=awesm-site
De: FACEBOOK
Facebook ficou inacessível para muitos de vocês por aproximadamente 2,5 horas. Esta é a pior falha que tivemos em mais de quatro anos e nós queríamos em primeiro lugar, pedir desculpas por isso. Também querenis fornecer mais detalhes técnicos sobre o que aconteceu e uma grande lição que foi aprendida.
A falha fundamental que causou essa queda tão grave foi uma manipulação infeliz de uma condição de erro. Um sistema automatizado para verificar os valores de configuração acabou causando muito mais danos do que consertos.
A intenção do sistema automatizado era verificar os valores de configuração que são inválidos no cache e substituí-los com os valores atualizados a partir do armazenamento persistente. Isso funciona bem para um problema temporário com o cache, mas ele não funciona quando o armazenamento persistente é inválido.
Hoje fizemos uma mudança para a cópia persistente de um valor de configuração que foi interpretado como inválido. Isto significa que cada cliente viu o valor inválido e tentou corrigi-lo. Porque a correção envolve fazer uma consulta a um conjunto de bases de dados, que o cluster foi rapidamente dominado por centenas de milhares de consultas por segundo.
Para piorar a situação, cada vez que um cliente tem um erro ao tentar uma consulta das bases de dados, interpretou-o como um valor inválido, e excluiu a chave de cache correspondente. Isso significa que, mesmo após o problema original tinha sido consertado, o fluxo de consultas continuou. Enquanto os bancos de dados falharam para alguns dos pedidos, que eles estavam causando pedidos para si mesmos. Nós haviamos entrado em um ciclo de feedback que não permitia o bancos de dados se recuperar.
A maneira de parar o ciclo de feedback foi muito doloroso - nós tivemos que parar todo o tráfego para este cluster de banco de dados, o que significou a desativação do site. Uma vez que os bancos haviam se recuperado e as causas tinha sido consertadas, lentamente permitiu que mais pessoas fossem voltando a ter acesso ao site.
Agora que nós desligamos o sistema que tenta corrigir os valores de configuração o site deve voltar a funcionar hoje. Nós estamos explorando novos modelos para este sistema de configuração a seguir padrões de projeto de outros sistemas no Facebook que lidam de forma mais inteligente com loops de feedback e picos transitórios.
Pedimos desculpas novamente pela falta do site, e queremos que vocês saibam que nós levamos o desempenho e a confiabilidade do Facebook muito a sério.
| Assine nosso Jornal FarmVille para nunca perder as novidades: http://tinyurl.com/2em8vqf | |
| Faça parte também de nosso Twitter (conteúdo e links especiais): http://twitter.com/farmvillefeedbr | |
| Nosso grupo no Facebook: http://dld.bz/uhYa |











