Instabilidade geral de conectividade Internet

Nos últimos dois dias ocorreram severas instabilidades na rede.

No dia 4 o problema iniciou-se cerca das 11h da manhã, prolongando-se até cerca das 13:40; ontem entre as 13h e as 14:15 (para a maioria da rede) e até as 14:45 para as redes da zona de visitantes e alojamentos externos.

Não tendo conclusões definitivas sobre o que despoletou o problema, este ocorreu na rede que realiza a interligação entre as redes internas e os sistemas firewall de ligação ao exterior.

Segundo a análise realizada sobre os registos de eventos tudo aponta para que o problema seja resultante de um bug no software que realiza a descoberta dos melhores caminhos de rede (protocolo OSPF) na firewall e que de alguma forma foi despoletado e impedia este(s) de permitir o encaminhamento entre o IPL e a Internet.

No dia 4, só foi possível estabilizar a conectividade reiniciando o grupo de equipamentos envolvidos após esgotadas as hipóteses de identificação precisa do problema.

Com esta conclusão preliminar da possível origem do problema, foram preparados trajetos alternativos de comunicação para serem usados em caso de recorrência, mas a solução não foi terminada e testada pois tal exigiria o reiniciar dos sistemas firewall e implicaria provocar falhas controladas em alguns pontos da rede para validar a solução o que consideramos adequado ocorrer em altura de menor atividade de utilizadores.

Apesar de aquela zona da rede não sofrer alterações há meses e o problema só se ter manifestado com muito menor dimensão há alguns meses atrás, o problema reapareceu ontem (dia 5).

Quando nos apercebemos do reaparecimento do problema, solução de mitigação que já tínhamos em preparação foi aplicada, incluindo a reconfiguração de 10 equipamentos interligados à rede em questão.

Rapidamente o encaminhamento convergiu e os serviços reestabeleceram-se.

Do ocorrido identificámos algumas coisas que não funcionaram como pretendido e realizaremos ainda algumas alterações ao nível dos serviços DNS nos próximos dias para minimizar a dependência entre estes e os sistemas firewall. Em momento oportuno realizaremos testes mais rigorosos acerca da reação a cenários de falhas de alguns elementos críticos da rede, provavelmente quando a maioria das escolas iniciarem as férias de natal.

Apesar de pelo padrão de problema a origem mais comum ser a de ataque de negação de serviços (DDoS) efetuado por terceiros não identificamos qualquer evidência nesse sentido para este caso concreto.

Posted in Notícias.