Comando "Shutdown abort", é mesmo perigoso?

Por Franky Weber e Gabriel Comenale,
Postado em Novembro 2016

Revisado por Marcelo Pivovar - Solution Architect

Objetivo: desmistificar alguns conceitos sobre o shutdown abort e provar as ocorrências ao executá-lo.

Nós viemos aqui para tratar de um assunto polêmico para alguns DBAs: o comando shutdown abort. Do contrário do que muitos pensam, este comando de desligamento do banco de dados é mais seguro do que se imagina e nós, Franky e Gabriel, vamos provar ao longo deste artigo esta afirmação, então leia até o final para entender nossos argumentos. O Oracle possui dois tipos de shutdown: consistente e inconsistente. Num shutdown consistente os arquivos do banco de dados são sincronizados pelo processo CKPT (checkpoint) em conjunto com o LGWR (logwriter) e DBWn (dbwriter) e então a instância é desligada. Num shutdown inconsistente o CKPT não é disparado então os arquivos não são sincronizados e permanecem no estado em que estão até que aconteça o startup, onde os mesmos são sincronizados. Este processo de sincronização no startup é chamado de instance recovery ou crash recovery e acontece automaticamente.

Shutdown consistente:

shutdown ou shutdown normal: novas conexões ao banco de dados não são permitidas, o Oracle aguarda que todos se desconectem do banco de dados, força o checkpoint nos arquivos e então faz o desligamento. No startup não é necessário recover.
shutdown transactional: novas conexões ao banco de dados não são permitidas, o Oracle aguarda que todas as transações sejam finalizadas, força o checkpoint nos arquivos e então faz o desligamento. No startup não é necessário recover.
shutdown immediate: novas conexões ao banco de dados não são permitidas, o Oracle derruba todas as sessões, faz o rollback das transações que não sofreram commit, força o checkpoint nos arquivos e faz o desligamento. No startup não é necessário recover.

Shutdown inconsistente:

shutdown abort ou startup force ou instance failure (falha da instância): o Oracle não aguarda nada ser concluído, não faz checkpoint nos arquivos e termina os processos fazendo o desligamento do banco de dados. No startup o processo SMON (system monitor) é responsável por identificar a necessidade de recover. Depois de concluído o recover o banco de dados é aberto para utilização e então o Oracle inicia o rollback das transações que não sofreram commit antes do desligamento. Isso acontece porque o Oracle faz a leitura dos redolog files e aplica todas as alterações que foram feitas nos dados que estavam no database buffer cache, inclusive as que não haviam sofrido commit, pois não é somente quando ocorre um commit que o log buffer é descarregado para os redolog files. (Saiba mais sobre o comportamento do log writer)

Ok, então quer dizer que se eu fizer shutdown abort meu banco de dados não terá problemas depois? Não, não terá, pois o Oracle usa os online redolog files para fazer o recover de todas as alterações e depois disso abre o banco de dados para uso para só então iniciar o rollback das transações que não têm commit. Se os seus arquivos de redolog não forem apagados ou corrompidos não terá problema nenhum. Em muitas situações é mais válido fazer um shutdown abort do que efetuar um shutdown immediate e aguardar o rollback das transações finalizar, porque o Oracle fará rollback só depois que abrir o banco de dados no caso do abort, do contrário se você estivesse executando uma operação que levaria 8 horas e esta só executou 3 horas, em teoria, você teria que aguardar um rollback de 3 horas para o banco desfazer tudo que já havia sido feito e não temos como esperar 3 horas para o shutdown immediate completar, certo?

Outro motivo para não se preocupar com o shutdown abort é que o próprio Oracle faz shutdown abort quando você tem um ambiente em cluster ou com ASM. Ao efetuar os comandos “crsctl stop crs”, “crsctl stop cluster” ou “srvctl stop asm -f” (exceto Flex ASM) o Clusterware faz shutdown abort do banco de dados. Você acha que se até o próprio Oracle faz isso você estaria fazendo algo errado?

Ainda não se convenceu? Ok. Vamos mostrar o que acontece durante um shutdown abort, mas entenda que o shutdown abort é diferente de uma queda de energia, ou desligamento do servidor por falha de hardware, pois esses desligamentos do servidor podem afetar os discos e arquivos neles armazenados. Nos sistemas de arquivos existe um conceito chamado Journaling que ajuda a evitar que os arquivos sejam corrompidos por inconsistência de dados, mas ainda assim isso pode ocorrer.

Vamos ver alguns exemplos de shutdown abort...

Em uma sessão vamos executar os comandos e na outra temos o alert.log do banco de dados aberto:

Exemplo 1

Sessão A: